<목차> |
|
1. 자연어 Natural Language = 우리가 평소 쓰는 말
우리가 평소 쓰는 말 = 자연어 Natural Language
안녕하세요, 여러분! 지금 제가 쓰고 있는 말을 자연어라고 합니다.
2. 지연어처리 Natural Language Processing = 컴퓨터가 이해할 수 있도록 자연어를 바꾸는 것
우리가 쓰는 이런 자연스러운 말을 컴퓨터가 이해할 수 있도록 변경, 처리하는 것을
자연어처리 Natural Language Processing라고 합니다.
저와 함께 자연어처리를 천천히 공부해보실 텐데요.
기본서로는 밑바닥부터 시작하는 딥러닝 2 교재를 사용하면서,
기본 개념을 확장시켜 세부 설명을 덧붙여 교재의 이해를 돕도록 하겠습니다.
3. 문장의 기본 단위 = 단어
컴퓨터에게 자연어를 이해시키기 위해서 사람이 해야 하는 첫 번째는 무엇일까요?
자연어가 담고 있는 의미를 어떻게 세부적으로 쪼갤 것인가를 생각해야 합니다.
"나는 너를 사랑한다."는 문장을 보시죠.
이 문장 전체를 컴퓨터에 담는다면 컴퓨터는 이해하기가 어렵습니다.
천릿길도 한 걸음부터라는 말이 있듯이,
문장 자체를 작게 쪼개야 합니다.
그렇다고 ㄱ, ㄴ, ㄷ, ㅏ, ㅑ, ㅓ 이렇게 너무 작게 쪼개면
문장의 의미 자체가 사라지니,,
의미는 지니고 있으면서도, 단위는 작은 것이 무엇일까 생각해면
'단어'라는 것을 알 수 있습니다.
4. 컴퓨터에게 단어의 의미를 어떻게 이해시킬까?
인간은 '사랑'이라는 단어를 들으면 어떤 의미인지 알 수 있습니다.
하지만 컴퓨터는 그렇지 않죠.
지금부터는 컴퓨터에게 단어의 의미를 어떻게 이해시키는지 알려드리겠습니다.
5. 시소러스 이용
시소러스는 유의어 사전입니다.
시소러스 에는 뜻이 비슷한 단어가 한 그룹으로 분류되어 있습니다.
예를 들어 car 단어를 검색하면 auto, automobile, machine, motorcar 같은 유의어들이 나열됩니다.
car = auto, automobile, machine, motorcar
또는 단어 사이의 관계를 표현하기도 합니다.
'상위와 하위' 또는 '전체와 부분' 등 세세하게 정의해둔 경우도 있습니다.
가장 유명한 시소러스는 WordNet이 있습니다.
그런데 이런 시소러스를 누가 만들까요?
바로...
사람입니다.
사람이 직접 단어의 의미를 정의하여 만들었죠.
영화 말모이 보신 분 계세요?
조선어학회에서 표준국어대사전을 만들었던 것처럼,
사람들이 하나하나 단어의 의미를 부여해낸.. 노력이 엄청나게 투입된 사전인 것이죠.
4. 시소러스의 문제점
엄청난 인력이 투입되었지만, 시소러스에는 아주 큰 문제점이 여럿 발견됩니다.
시대의 유행어, 은어 등은 반영되지 않은 경우가 많고
엄청난 인적 비용이 발생합니다.
또한 단어의 미묘한 차이를 표현하기는 어렵습니다.
예컨대, vintage와 retro는 의미가 같지만 용법은 다릅니다.
그래서 등장한 것이 다음 강에서 설명드릴 통계 기반 기법과, 추론 기반 기법입니다.
'머신러닝 > 자연어처리' 카테고리의 다른 글
트랜스포머, 자연어처리, pipeline, 감정분류, 개체명인식, 질문답변, 요약, 생성 (0) | 2024.08.22 |
---|---|
차원감소(dimensionality reduction), SVD (0) | 2022.07.29 |
점별 상호정보량 Pointwise Mutual information(PMI) (0) | 2022.07.29 |
코사인 유사도 cosine similarity (0) | 2022.07.29 |
말뭉치(corpus)란? (0) | 2022.07.28 |