본문 바로가기

전체 글

(110)
[Project] NLP 발표자료 아래 발표자료 PPT는 플레이데이터 데모데이 발표에 사용한 크래커팀의 발표자료입니다. Natual Language Processing Presentation - 프로젝트에서 사용한 NLP(자연어처리)에 대한 진행 FLOW 1. Index 2. About Text Data 3. Web Scraping / Crawling 4. Preprocessing 5. Python Library 6. NLP Index 7. WordRank Algorithm 8. Review Summary 9. Keyword Extractor 10. Sentimental Analysis
[KR_OCR] 최종 Training 영어데이터로 재학습 된 crnn모델이 있기때문에, 성능을 높이기 위해 재학습 된 가중치 위에 다시 한국어데이터를 학습시킨다. 1> 데이터 준비 - 데이터 위치 : /data/KSIGN/ - 데이터 갯수 : Train 데이터 (1,249장), Validation 데이터 (312장), Total 데이터 (1,561장) - 데이터 출처 : AI_HUB, 구글과 네이버 간판데이터 크롤링 - 어노테이션 파일 직접 제작 (이미지 속 텍스트에대한 박스 정보) 2> 재 학습 이유 - 현재 한국어 데이터가 라벨마다 데이터 불균형이 심하기 떄문에 이를 보완하기 위해 기존 loss 계산법 변경했는데, 이를 기반으로 CRNN 영어데이터로 재학습을 시켰기 때문에 한국어 데이터로도 ..
[NLP]자연어처리_감정분석 아래 자연어처리는 네이버 플레이스에서 크롤링한 네이버 블로그리뷰 데이터를 사용하여 진행 Dict 기반 감정분석 - 카테고리를 나누어 그에 해당하는 감정 사전을 만들고, 감정 사전을 기반으로 감정 분석을 진행 https://github.com/haesoly/estimate_review_of_restaurant haesoly/estimate_review_of_restaurant 자연어 처리 기술로 맛집 리뷰 분석하기. Contribute to haesoly/estimate_review_of_restaurant development by creating an account on GitHub. github.com >> 위의 깃을 참고하여 감정분석을 진행하였습니다. >> 나와있는 사전을 기반으로 커스터마이징을 해..
[NLP]자연어처리_키워드추출 아래 자연어처리는 네이버 플레이스에서 크롤링한 네이버 블로그리뷰 데이터를 사용하여 진행 KR-WordRank 키워드 추출 라이브러리 - 비지도학습 방법으로 한국어 텍스트에서 단어/키워드를 자동으로 추출하는 라이브러리. https://github.com/lovit/KR-WordRank lovit/KR-WordRank 비지도학습 방법으로 한국어 텍스트에서 단어/키워드를 자동으로 추출하는 라이브러리입니다. Contribute to lovit/KR-WordRank development by creating an account on GitHub. github.com Keyword extraction process # substring graph를 만들기 위한 변수의 값 설정 - min_c..
[NLP] 자연어처리_예약자리뷰 요약 아래 자연어처리는 네이버 플레이스에서 크롤링한 네이버 예약자리뷰 데이터를 사용하여 진행 Gensim : Python Library 토픽 모델링 라이브러리 - 아래의 홈페이지에 들어가면 튜토리얼과 설치에 대한 내용을 확인 할 수 있으며 자연어처리에 주로 사용. https://radimrehurek.com/gensim/ gensim: topic modelling for humans Efficient topic modelling in Python radimrehurek.com TextRank Summariser - summarization.summarizer : 이 모듈은 텍스트를 요약하는 기능을 제공하며 TextRank 알고리즘의 변형을 사용하여 텍스트 문장의 순위에 기반한 요약 - 여기서 말하는 TextR..
[DL] Seglink + CRNN + Tf_serving 전체 프로세스 전체프로세스 배포 전 디버깅모드로 보는 전체 프로세스 1. 안드로이드에서 이미지를 받는다. 2. 받은 이미지를 Request로 받아 전처리 작업 3. Tf serving에 있는 seglink 모델로 이미지를 보낸다. 4. 모델에서 나온 결과를 디코딩 5. Tf serving에 있는 CRNN 모델로 이미지를 보낸다. 6. 결과로 나온 텍스트를 확인한다. 안드로이드(이미지) > 서버 > TF-serving(seglink) > TF-serving(CRNN) > 결과 (텍스트) # 필요한 라이브러리 로딩 from django.shortcuts import render from django.views.decorators.csrf import csrf_exempt f..
[OCR] CRNN_Model에 사용한 다른 util.py crnn 학습 시 사용한 다양한 util에 대해서 소개 1. 한국어 데이터셋 부족 # 라이브러리 로딩 import scipy from scipy import ndimage import matplotlib.pyplot as plt - scipy를 사용해서 data augmentation을 할 예정 - crnn model에 grayscale로 들어가기 때문에, 다양한 방식을 사용하지않고 blur와 sharpening만 사용 할 예정 # 이미지 전처리 f = img print(f.shape) #32, 256 blurred_f = ndimage.gaussian_filter(f, 1) filter_blurred_f = ndimage.gaussian_filter(blurred..
[ENG_OCR] 최종 Training(focal_ctc_loss로 변경) 처음에 작업한 training코드에서 한국어를 추가하면서 loss계산 방식을 변경. 변경 된 loss를 사용하여 다시 coco text english 데이터를 학습 시킴 데이터 준비 - 데이터 위치 : /data/COCO_TEXT/train2014/ - 데이터 갯수 : Train 데이터 (14,708장), Validation 데이터 (3,424장) - 데이터 출처 : coco-text - 어노테이션 파일 존재 (이미지 속 텍스트에대한 박스 정보) 재 학습 이유 - 현재 한국어 데이터가 라벨마다 데이터 불균형이 심하기 떄문에 이를 보완하기 위해 기존 loss 계산법 변경 - 데이터 불균형에 적합한 focal_ctc_loss 사용 - 처음과 달리 학습시키는 ..