자연어처리 (8) 썸네일형 리스트형 [Project] NLP 발표자료 아래 발표자료 PPT는 플레이데이터 데모데이 발표에 사용한 크래커팀의 발표자료입니다. Natual Language Processing Presentation - 프로젝트에서 사용한 NLP(자연어처리)에 대한 진행 FLOW 1. Index 2. About Text Data 3. Web Scraping / Crawling 4. Preprocessing 5. Python Library 6. NLP Index 7. WordRank Algorithm 8. Review Summary 9. Keyword Extractor 10. Sentimental Analysis [NLP]자연어처리_감정분석 아래 자연어처리는 네이버 플레이스에서 크롤링한 네이버 블로그리뷰 데이터를 사용하여 진행 Dict 기반 감정분석 - 카테고리를 나누어 그에 해당하는 감정 사전을 만들고, 감정 사전을 기반으로 감정 분석을 진행 https://github.com/haesoly/estimate_review_of_restaurant haesoly/estimate_review_of_restaurant 자연어 처리 기술로 맛집 리뷰 분석하기. Contribute to haesoly/estimate_review_of_restaurant development by creating an account on GitHub. github.com >> 위의 깃을 참고하여 감정분석을 진행하였습니다. >> 나와있는 사전을 기반으로 커스터마이징을 해.. [NLP]자연어처리_키워드추출 아래 자연어처리는 네이버 플레이스에서 크롤링한 네이버 블로그리뷰 데이터를 사용하여 진행 KR-WordRank 키워드 추출 라이브러리 - 비지도학습 방법으로 한국어 텍스트에서 단어/키워드를 자동으로 추출하는 라이브러리. https://github.com/lovit/KR-WordRank lovit/KR-WordRank 비지도학습 방법으로 한국어 텍스트에서 단어/키워드를 자동으로 추출하는 라이브러리입니다. Contribute to lovit/KR-WordRank development by creating an account on GitHub. github.com Keyword extraction process # substring graph를 만들기 위한 변수의 값 설정 - min_c.. [NLP] 자연어처리_예약자리뷰 요약 아래 자연어처리는 네이버 플레이스에서 크롤링한 네이버 예약자리뷰 데이터를 사용하여 진행 Gensim : Python Library 토픽 모델링 라이브러리 - 아래의 홈페이지에 들어가면 튜토리얼과 설치에 대한 내용을 확인 할 수 있으며 자연어처리에 주로 사용. https://radimrehurek.com/gensim/ gensim: topic modelling for humans Efficient topic modelling in Python radimrehurek.com TextRank Summariser - summarization.summarizer : 이 모듈은 텍스트를 요약하는 기능을 제공하며 TextRank 알고리즘의 변형을 사용하여 텍스트 문장의 순위에 기반한 요약 - 여기서 말하는 TextR.. [NLP] 03. 자연어 처리 개요 - 텍스트 유사도 아래 내용은 텐서플로우와 머신러닝으로 시작하는 자연어처리 책을 바탕으로 작성 된 내용입니다. 텍스트 유사도( Text Similarity ) - 텍스트 유사도란, 말 그대로 텍스트가 얼마나 유사한지를 표현하는 방식 중 하나 - 유사도를 판단하는 척도가 주관적이기 대문에 데이터를 정량화하기 쉽지않고 한계가 있다. - 이를 최대한 정량화해서 모델을 만드는 것이 중요하다. - 자주 사용되는 유사도 측정 방법 자카드 유사도 / 유클리디언 유사도 / 맨하탄 유사도 / 코사인 유사도 # 단어 벡터화 - 우선 각 유사도를 측정하기 전 두가지 예시 문자을 확인 sentence = ( "휴일 인 오늘 도 서쪽 을 중심 으로 폭염 이 이어졌는데요, 내일 은 반가운 비 소식 이 있습니다.", "폭염 을 피해서 휴일 에 놀러.. [NLP] 03. 자연어 처리 개요 - 텍스트 분류 아래 내용은 텐서플로우와 머신러닝으로 시작하는 자연어처리 책을 바탕으로 작성 된 내용입니다. 02. 텍스트 분류 - 텍스트 분류는 자연어 처리 문제 중 가장 대표적이고 많이 접하는 문제이다. - 자연어 처리 기술을 활용해 특정 텍스트를 사람들이 정한 범주 중 어느 범주에 속하는지 분류하는 문제다. - 2가지 범주에 대해서는 이진 분류 문제 - 3개 이상의 범주에 대해서는 다중 분류 문제라 한다. 1> 텍스트 분류의 예시 # 스팸분류 - 분류해야 할 범주는 스팸메일과 일반메일로 2가지이다 : 이진 분류 # 감정분류 - 주어진 글이 긍정적인지 부정적인지 판단하는 문제 - 경우에 따라 중립이 추가 될 수 있고, 감정이 세분화 될 수 있기 때문에 분류하려는 의도에 따라 범주가 정해진다. # 뉴스기사분류 - 다양.. [NLP] 03. 자연어 처리 개요 - 단어표현/단어임베딩/단어벡터 아래 내용은 텐서플로우와 머신러닝으로 시작하는 자연어처리 책을 바탕으로 작성 된 내용입니다. 단어 표현 - 어떤 방식으로 텍스트를 표현해야 자연어 처리 모델에 적용할 수 있을까에 대한 답을 찾는 것 - 단어표현 : 텍스트를 모델에 적용할 수 있게 언어적인 특성을 반영해서 단어를 수치화하는 방법을 찾는것 - 단어를 수치화할 때는 주로 벡터로 표현한다. - 따라서 단어 표현 = 단어 임베딩 = 단어 벡터 원-핫 인코딩 - 단어를 하나의 벡터로 표현하는 방법인데, 각 값은 0혹은 1만 갖는다. - 알 수 있는 벡터 값 가운데 하나만 1을 가지고, 나머지는 모두 0을 가지는 방식 - 여기서 1이 되는 것은 각 단어가 어떤 단어인지 알려주는 인덱스다. - 즉, 원-핫 인코딩 방식은 각 단어의 인덱스를 정한 후 각.. [NLP] 02.자연어 처리 개발 준비 - Tensorflow 자연어 처리 개발을 하는 데 있어서 사용되는 라이브러리에 대한 소개 첫 번째로는 텐서플로우이다. 텐서플로우 tf.keras.layers.Dense INPUT_SIZE = (20, 1) input = tf.placeholder(tf.float32, shape = INPUT_SIZE) hidden = tf.keras.layers.Dense(units = 10, activation = tf.nn.sigmoid)(input) output = tf.keras.layers.Dense(units = 2, activation = tf.nn.sigmoid)(hidden) - 10개의 노드를 가지는 은닉층이 있고, 최종 출력 값은 2개의 노드가 있는 신경망 구조 tf.keras.layers.Dropout INPUT_SIZ.. 이전 1 다음