본문 바로가기

NLP

(9)
[Project] NLP 발표자료 아래 발표자료 PPT는 플레이데이터 데모데이 발표에 사용한 크래커팀의 발표자료입니다. Natual Language Processing Presentation - 프로젝트에서 사용한 NLP(자연어처리)에 대한 진행 FLOW 1. Index 2. About Text Data 3. Web Scraping / Crawling 4. Preprocessing 5. Python Library 6. NLP Index 7. WordRank Algorithm 8. Review Summary 9. Keyword Extractor 10. Sentimental Analysis
[NLP]자연어처리_감정분석 아래 자연어처리는 네이버 플레이스에서 크롤링한 네이버 블로그리뷰 데이터를 사용하여 진행 Dict 기반 감정분석 - 카테고리를 나누어 그에 해당하는 감정 사전을 만들고, 감정 사전을 기반으로 감정 분석을 진행 https://github.com/haesoly/estimate_review_of_restaurant haesoly/estimate_review_of_restaurant 자연어 처리 기술로 맛집 리뷰 분석하기. Contribute to haesoly/estimate_review_of_restaurant development by creating an account on GitHub. github.com >> 위의 깃을 참고하여 감정분석을 진행하였습니다. >> 나와있는 사전을 기반으로 커스터마이징을 해..
[NLP]자연어처리_키워드추출 아래 자연어처리는 네이버 플레이스에서 크롤링한 네이버 블로그리뷰 데이터를 사용하여 진행 KR-WordRank 키워드 추출 라이브러리 - 비지도학습 방법으로 한국어 텍스트에서 단어/키워드를 자동으로 추출하는 라이브러리. https://github.com/lovit/KR-WordRank lovit/KR-WordRank 비지도학습 방법으로 한국어 텍스트에서 단어/키워드를 자동으로 추출하는 라이브러리입니다. Contribute to lovit/KR-WordRank development by creating an account on GitHub. github.com Keyword extraction process # substring graph를 만들기 위한 변수의 값 설정 - min_c..
[NLP] 자연어처리_예약자리뷰 요약 아래 자연어처리는 네이버 플레이스에서 크롤링한 네이버 예약자리뷰 데이터를 사용하여 진행 Gensim : Python Library 토픽 모델링 라이브러리 - 아래의 홈페이지에 들어가면 튜토리얼과 설치에 대한 내용을 확인 할 수 있으며 자연어처리에 주로 사용. https://radimrehurek.com/gensim/ gensim: topic modelling for humans Efficient topic modelling in Python radimrehurek.com TextRank Summariser - summarization.summarizer : 이 모듈은 텍스트를 요약하는 기능을 제공하며 TextRank 알고리즘의 변형을 사용하여 텍스트 문장의 순위에 기반한 요약 - 여기서 말하는 TextR..
[NLP] 03.자연어 처리 개요 - 데이터 이해하기 아래 내용은 텐서플로우와 머신러닝으로 시작하는 자연어처리 책을 바탕으로 작성 된 내용입니다. 데이터 이해하기 " 데이터 전처리 >> 정제된 전처리 >> 탐색적 자료 분석 >> 모델 >> 사용 " - 문제 해결을 위해서는 데이터 이해가 선행되어야 하는데, 이러한 과정을 EDA라고 한다. - 이러한 과정을 통해 생각하지 못한 데이터의 여러 패턴이나 잠재적인 문제점을 발견할 수 있다. - 탐색적 데이터 분석의 흐름 데이터 가져오기 import os import re import pandas as pd import tensorflow as tf from tensorflow.keras import utils data_set = tf.keras.utils.get_file( fname = "imdb.tar.gz", ..
[NLP] 03. 자연어 처리 개요 - 텍스트 유사도 아래 내용은 텐서플로우와 머신러닝으로 시작하는 자연어처리 책을 바탕으로 작성 된 내용입니다. 텍스트 유사도( Text Similarity ) - 텍스트 유사도란, 말 그대로 텍스트가 얼마나 유사한지를 표현하는 방식 중 하나 - 유사도를 판단하는 척도가 주관적이기 대문에 데이터를 정량화하기 쉽지않고 한계가 있다. - 이를 최대한 정량화해서 모델을 만드는 것이 중요하다. - 자주 사용되는 유사도 측정 방법 자카드 유사도 / 유클리디언 유사도 / 맨하탄 유사도 / 코사인 유사도 # 단어 벡터화 - 우선 각 유사도를 측정하기 전 두가지 예시 문자을 확인 sentence = ( "휴일 인 오늘 도 서쪽 을 중심 으로 폭염 이 이어졌는데요, 내일 은 반가운 비 소식 이 있습니다.", "폭염 을 피해서 휴일 에 놀러..
[NLP] 03. 자연어 처리 개요 - 텍스트 분류 아래 내용은 텐서플로우와 머신러닝으로 시작하는 자연어처리 책을 바탕으로 작성 된 내용입니다. 02. 텍스트 분류 - 텍스트 분류는 자연어 처리 문제 중 가장 대표적이고 많이 접하는 문제이다. - 자연어 처리 기술을 활용해 특정 텍스트를 사람들이 정한 범주 중 어느 범주에 속하는지 분류하는 문제다. - 2가지 범주에 대해서는 이진 분류 문제 - 3개 이상의 범주에 대해서는 다중 분류 문제라 한다. 1> 텍스트 분류의 예시 # 스팸분류 - 분류해야 할 범주는 스팸메일과 일반메일로 2가지이다 : 이진 분류 # 감정분류 - 주어진 글이 긍정적인지 부정적인지 판단하는 문제 - 경우에 따라 중립이 추가 될 수 있고, 감정이 세분화 될 수 있기 때문에 분류하려는 의도에 따라 범주가 정해진다. # 뉴스기사분류 - 다양..
[NLP] 02. 자연어 처리 개발 준비 - 사이킷런 자연어처리 개발을 하는데 있어서 사용되는 라이브러리에 대한 소개 두번째로는 사이킷런 02. 사이킷런 - 사이킷런은 파이썬용 머신러닝 라이브러리이다. - 머신러닝 기술을 활용하는데 필요한 다양한 기능을 제공한다. - 딥러닝 모델을 텐서플로, 케라스, 파이토치를 이용해서 생성 할 수 있는 것처럼, 머신러닝은 주로 사이킷런을 사용 - 지도학습을 위한 모듈, 비지도학습을 위한 모듈, 모델 선택 및 평가를 위한 모듈, 데이터 변환 및 데이터를 불러오기 위한 모듈, 계산 성능 향상을 위한 모듈로 구성돼 있다. 1> 사이킷런의 모듈 1. 지도 학습 모듈 - 나이브 베이즈, 의사결정 트리, 서포트 벡터 머신 2. 비지도 학습 모듈 - 군집화, 가우시안 혼합 모델 3. 모델 선택과 평가 모듈 - 교차 검증, 모델 평가,..