본문 바로가기

Natural_Language

[NLP] 03. 자연어 처리 개요 - 텍스트 분류

반응형

아래 내용은 텐서플로우와 머신러닝으로 시작하는 자연어처리

책을 바탕으로 작성 된 내용입니다.

 

 

 

02. 텍스트 분류

- 텍스트 분류는 자연어 처리 문제 중 가장 대표적이고 많이 접하는 문제이다.

- 자연어 처리 기술을 활용해 특정 텍스트를 사람들이 정한 범주 중 어느 범주에 속하는지 분류하는 문제다.

- 2가지 범주에 대해서는 이진 분류 문제

- 3개 이상의 범주에 대해서는 다중 분류 문제라 한다.

 

 

1> 텍스트 분류의 예시

# 스팸분류

- 분류해야 할 범주는 스팸메일과 일반메일로 2가지이다 : 이진 분류

 

# 감정분류

- 주어진 글이 긍정적인지 부정적인지 판단하는 문제 

- 경우에 따라 중립이 추가 될 수 있고, 감정이 세분화 될 수 있기 때문에 분류하려는 의도에 따라 범주가 정해진다.

 

# 뉴스기사분류

- 다양한 주제의 기사를 각각 주제에 맞게 분류

- 분류하는 단위를 글 전체로 하지 않고 각 단어를 한 단위로 분류하는 문제도있다.

 

 

2> 지도 학습을 통한 텍스트 분류

- 지도 학습은 글에 대해 각각 속한 범주에 대한 라벨이 주어져있다.

- 따라서 주어진 범주로 글들을 모두 학습한 후 학습한 결과를 이용해 새로운 글의 범주를 예측한다.

- 대표적인 지도학습을 통한 문장 분류 모델

나이브 베이즈 분류 / 서포트 벡터 머신 / 신경망 / 선형 분류 / 로지스틱 분류 / 랜덤 포레스트

 

 

3> 비지도학습을 통한 텍스트 분류

- 대표적인 비지도 학습을 통한 텍스트 분류

- 정확한 범주가 없고 단순히 군집화만 할 경우에는 비지도 학습을 통해 데이터를 군집화 하면 된다.

K-평균 군집화 / 계층적 군집화

 

#K-평균 군집화

- 각 문장 데이터를 벡터화 한 뒤 좌표 축에 표현

- 모델을 사용해 데이터를 몇개의 군집으로 나눈다.

- 데이터의 특성에 따라 비슷한 데이터 끼리 묶어주는 개념이다.

 

반응형