본문 바로가기

데이터전처리

(2)
[OCR] CRNN_Model에 사용한 다른 util.py crnn 학습 시 사용한 다양한 util에 대해서 소개 1. 한국어 데이터셋 부족 # 라이브러리 로딩 import scipy from scipy import ndimage import matplotlib.pyplot as plt - scipy를 사용해서 data augmentation을 할 예정 - crnn model에 grayscale로 들어가기 때문에, 다양한 방식을 사용하지않고 blur와 sharpening만 사용 할 예정 # 이미지 전처리 f = img print(f.shape) #32, 256 blurred_f = ndimage.gaussian_filter(f, 1) filter_blurred_f = ndimage.gaussian_filter(blurred..
[NLP] 02. 자연어 처리 개발 준비 - 자연어 토크나이징 도구/전처리 자연어 처리에는 다양한 토크나이징도구들이 있는데 이번에는 자연어 토크나이징 도구를 살펴 볼 예정 자연어 토크나이징 도구 토크나이징이란, 입력 정보(문장 또는 발화)를 하나의 특정 기본 단위로 자르는 것 // 영어 토크나이징 라이브러리 - 여기서는 영어 토크나이징 작업을 수행할 수 있는 라이브러리를 소개한다. === NLTK === - 파이썬에서 영어 텍스트 전처리 작업을 하는데 많이 쓰이는 라이브러리이다. - 50여 개가 넘는 말뭉치 리소스를 활용해 영어 텍스트를 분석할 수 있게 제공한다. # 라이브러리 설치 conda install nltk import nltk nltk.download() - nltk는 단순히 라이브러리를 설치한다고 해서 바로 토크나이징 할 수 없다. 말뭉치를 다운받아야한다. - 토크..