원핫인코딩 (1) 썸네일형 리스트형 [NLP] 03. 자연어 처리 개요 - 단어표현/단어임베딩/단어벡터 아래 내용은 텐서플로우와 머신러닝으로 시작하는 자연어처리 책을 바탕으로 작성 된 내용입니다. 단어 표현 - 어떤 방식으로 텍스트를 표현해야 자연어 처리 모델에 적용할 수 있을까에 대한 답을 찾는 것 - 단어표현 : 텍스트를 모델에 적용할 수 있게 언어적인 특성을 반영해서 단어를 수치화하는 방법을 찾는것 - 단어를 수치화할 때는 주로 벡터로 표현한다. - 따라서 단어 표현 = 단어 임베딩 = 단어 벡터 원-핫 인코딩 - 단어를 하나의 벡터로 표현하는 방법인데, 각 값은 0혹은 1만 갖는다. - 알 수 있는 벡터 값 가운데 하나만 1을 가지고, 나머지는 모두 0을 가지는 방식 - 여기서 1이 되는 것은 각 단어가 어떤 단어인지 알려주는 인덱스다. - 즉, 원-핫 인코딩 방식은 각 단어의 인덱스를 정한 후 각.. 이전 1 다음