아래 내용은 텐서플로우와 머신러닝으로 시작하는 자연어처리
책을 바탕으로 작성 된 내용입니다.
02. 텍스트 분류
- 텍스트 분류는 자연어 처리 문제 중 가장 대표적이고 많이 접하는 문제이다.
- 자연어 처리 기술을 활용해 특정 텍스트를 사람들이 정한 범주 중 어느 범주에 속하는지 분류하는 문제다.
- 2가지 범주에 대해서는 이진 분류 문제
- 3개 이상의 범주에 대해서는 다중 분류 문제라 한다.
1> 텍스트 분류의 예시
# 스팸분류
- 분류해야 할 범주는 스팸메일과 일반메일로 2가지이다 : 이진 분류
# 감정분류
- 주어진 글이 긍정적인지 부정적인지 판단하는 문제
- 경우에 따라 중립이 추가 될 수 있고, 감정이 세분화 될 수 있기 때문에 분류하려는 의도에 따라 범주가 정해진다.
# 뉴스기사분류
- 다양한 주제의 기사를 각각 주제에 맞게 분류
- 분류하는 단위를 글 전체로 하지 않고 각 단어를 한 단위로 분류하는 문제도있다.
2> 지도 학습을 통한 텍스트 분류
- 지도 학습은 글에 대해 각각 속한 범주에 대한 라벨이 주어져있다.
- 따라서 주어진 범주로 글들을 모두 학습한 후 학습한 결과를 이용해 새로운 글의 범주를 예측한다.
- 대표적인 지도학습을 통한 문장 분류 모델
나이브 베이즈 분류 / 서포트 벡터 머신 / 신경망 / 선형 분류 / 로지스틱 분류 / 랜덤 포레스트
3> 비지도학습을 통한 텍스트 분류
- 대표적인 비지도 학습을 통한 텍스트 분류
- 정확한 범주가 없고 단순히 군집화만 할 경우에는 비지도 학습을 통해 데이터를 군집화 하면 된다.
K-평균 군집화 / 계층적 군집화
#K-평균 군집화
- 각 문장 데이터를 벡터화 한 뒤 좌표 축에 표현
- 모델을 사용해 데이터를 몇개의 군집으로 나눈다.
- 데이터의 특성에 따라 비슷한 데이터 끼리 묶어주는 개념이다.
'Natural_Language' 카테고리의 다른 글
[NLP] 03.자연어 처리 개요 - 데이터 이해하기 (0) | 2019.05.04 |
---|---|
[NLP] 03. 자연어 처리 개요 - 텍스트 유사도 (1) | 2019.04.28 |
[NLP] 03. 자연어 처리 개요 - 단어표현/단어임베딩/단어벡터 (0) | 2019.04.28 |
[NLP] 02. 자연어 처리 개발 준비 - 자연어 토크나이징 도구/전처리 (2) | 2019.04.27 |
[NLP] 02. 자연어 처리 개발 준비 - 사이킷런 (0) | 2019.04.27 |