본문 바로가기

분류 전체보기

(110)
[NLP] 02. 자연어 처리 개발 준비 - 사이킷런 자연어처리 개발을 하는데 있어서 사용되는 라이브러리에 대한 소개 두번째로는 사이킷런 02. 사이킷런 - 사이킷런은 파이썬용 머신러닝 라이브러리이다. - 머신러닝 기술을 활용하는데 필요한 다양한 기능을 제공한다. - 딥러닝 모델을 텐서플로, 케라스, 파이토치를 이용해서 생성 할 수 있는 것처럼, 머신러닝은 주로 사이킷런을 사용 - 지도학습을 위한 모듈, 비지도학습을 위한 모듈, 모델 선택 및 평가를 위한 모듈, 데이터 변환 및 데이터를 불러오기 위한 모듈, 계산 성능 향상을 위한 모듈로 구성돼 있다. 1> 사이킷런의 모듈 1. 지도 학습 모듈 - 나이브 베이즈, 의사결정 트리, 서포트 벡터 머신 2. 비지도 학습 모듈 - 군집화, 가우시안 혼합 모델 3. 모델 선택과 평가 모듈 - 교차 검증, 모델 평가,..
[NLP] 02.자연어 처리 개발 준비 - Tensorflow 자연어 처리 개발을 하는 데 있어서 사용되는 라이브러리에 대한 소개 첫 번째로는 텐서플로우이다. 텐서플로우 tf.keras.layers.Dense INPUT_SIZE = (20, 1) input = tf.placeholder(tf.float32, shape = INPUT_SIZE) hidden = tf.keras.layers.Dense(units = 10, activation = tf.nn.sigmoid)(input) output = tf.keras.layers.Dense(units = 2, activation = tf.nn.sigmoid)(hidden) - 10개의 노드를 가지는 은닉층이 있고, 최종 출력 값은 2개의 노드가 있는 신경망 구조 tf.keras.layers.Dropout INPUT_SIZ..
[NLP] 텐서플로와 머신러닝으로 시작하는 자연어처리 앞으로 이곳 카테고리에서는 NLP에 관련 된 공부에 관해 업데이트를 할 예정 현재까지 나온 NLP의 대부분은 영어에 대한 자료가 많으나, 한국어에 관한 NLP가 궁금하던 찰나에 딱 맞춰 나온 자연어 처리 책. 머신러닝과 딥러닝 라이브러리를 활용한 자연어 처리를 아래의 책을 통해 살펴 볼 예정 좀 더 자세한 내용을 알고 싶다면 아래 링크 참고 : http://www.yes24.com/Product/Goods/69334316 텐서플로와 머신러닝으로 시작하는 자연어 처리 본 서는 기존 자연어 처리 서적과는 다른 세 가지 특징을 가지고 있다. 첫째, 자연어 처리에 활용되는 개념적인 설명에서 끝나는 것이 아니라 모델 구현에 집중한다. 그뿐만 아니라 상용 서비스를 지원하는 텐서플로를 기반으로 모델을 개발한다. 둘째..
[KR_OCR] Training(하이퍼파라미터튜닝)_v1 데이터 셋과 모델, 그외 유틸등이 준비가 되면 학습을 시작 기본파라미터부터 시작해서 다양한 방법으로 학습시켜 loss를 최소로 줄인다 1. Training_CRNN_1 ## 딕셔너리(라벨)에 한글데이터셋만 존재 - 총 1084개의 데이터 ( Train : 867개, Validation : 217개) - optimizer : SGD( lr = 0.01, decay=1e-6, momentum=0.9, nesterov=True, clipnorm=5 ) - 손실 값 : CTC loss - 200 Epoch 30 Epoch 200 Epoch - 대략 30 epoch이 지나면 바로 오버피팅이 발생한다. - 최소 val_loss 값 : 13점..
[KR_OCR] 데이터수집을 위한 어노테이션 데이터 수집을 위한 어노테이션 _이미지 크롤링 후 TextBox와 Label을 달아주는 작업이 필요 이미지 데이터 수집 AI HUB에서 관광 이미지 데이터 셋 다운로드 http://www.aihub.or.kr/ AI 오픈 이노베이션 허브 AI 챗봇,안면인식 등 지능형 서비스 구현에 활용할 수 있는 지식베이스와 기계학습용 이미지 데이터를 제공합니다. www.aihub.or.kr >> 위의 링크에서 관광데이터셋의 매장 전경 데이터셋. >> 위의 파일 중 직접촬영의 매장전경, 크롤링의 매장전경 데이터셋을 사용하였다. >> 위의 파일 속 어노테이션은 간판이 아닌 매장에 대한 어노테이션이기 때문에 다시 어노테이션 작업이 필요하다. 자동크롤러 깃에서 가져오기 (GIT CLONE) - 구글, 네이버에서 간판을 검색 ..
[다나와리뷰] 크롤링하기(ajax 활용) ajax을 활용한 크롤링 : >> 페이지가 로딩 될때 이미 모든 정보가 넘어와있는경우에 사용이 가능하다 >> 굉장히 짧은 시간에 많은 정보를 크롤링 할 수 있다 다나와 페이지 확인 http://www.danawa.com/ 스마트한 쇼핑검색, 다나와! : 가격비교 사이트 가격비교 사이트 - 온라인 쇼핑몰, 소셜커머스 전 상품 정보 가격비교 사이트, 비교하면 다나와 www.danawa.com >> 아래 코드를 이해하기 위해서는 다나와 html에 대한 이해가 먼저 필요하다 >> 직접 들어가서 개발자 모드를 열고 확인해야함 Loading Library #필요한 패키지 로딩 import time import requests from bs4 import BeautifulSoup >> 크롤링 하는데 필요한 라이브러리..
[KR_OCR] 한국어데이터셋(imageWIthBox) AI HUB에서 제공한 데이터를 바탕으로 GTUtilily와 pickle 파일을 생성한 뒤, 텍스트박스가 잘 어노테이션 되어있는지 확인 하는 작업을 진행한다. 1. Loading Library import matplotlib.pyplot as plt import PIL import pickle import os import cv2 import numpy as np from data_KSign import GTUtility - 한국어 데이터셋으로 만든 GTUtility를 import 한다 2. Making Function def getTextbox(data_path = 'data/K-Sign', su = 2, quality = 'high'): if quality == 'high': gt_util = GTU..
[네이버플레이스] 데이터 크롤링하기(셀레니움, ajax 활용) 셀레니움, Ajax를 활용한 네이버 플레이스 정보 크롤링 학습용으로 만든 자료. Introduction 기본 url을 네이버 맵으로 주고, 다양한 검색어를 검색하여 상세보기로 들어간 뒤, 해당하는 플레이스의 정보와, 예약자 리뷰, 블로그 리뷰를 가져오는 코드. Install_Library # 셀레니움 설치 pip install selenium - 라이브러리를 사용하려면 해당 라이브러리의 설치가 먼저 선행되어야함 # 크롬 드라이버 설치 https://sites.google.com/a/chromium.org/chromedriver/downloads Downloads - ChromeDriver - WebDriver for Chrome WebDriver for Chrome sites.google.com - 크롬..