한국어 (4) 썸네일형 리스트형 [NLP] 03. 자연어 처리 개요 - 텍스트 유사도 아래 내용은 텐서플로우와 머신러닝으로 시작하는 자연어처리 책을 바탕으로 작성 된 내용입니다. 텍스트 유사도( Text Similarity ) - 텍스트 유사도란, 말 그대로 텍스트가 얼마나 유사한지를 표현하는 방식 중 하나 - 유사도를 판단하는 척도가 주관적이기 대문에 데이터를 정량화하기 쉽지않고 한계가 있다. - 이를 최대한 정량화해서 모델을 만드는 것이 중요하다. - 자주 사용되는 유사도 측정 방법 자카드 유사도 / 유클리디언 유사도 / 맨하탄 유사도 / 코사인 유사도 # 단어 벡터화 - 우선 각 유사도를 측정하기 전 두가지 예시 문자을 확인 sentence = ( "휴일 인 오늘 도 서쪽 을 중심 으로 폭염 이 이어졌는데요, 내일 은 반가운 비 소식 이 있습니다.", "폭염 을 피해서 휴일 에 놀러.. [NLP] 03. 자연어 처리 개요 - 단어표현/단어임베딩/단어벡터 아래 내용은 텐서플로우와 머신러닝으로 시작하는 자연어처리 책을 바탕으로 작성 된 내용입니다. 단어 표현 - 어떤 방식으로 텍스트를 표현해야 자연어 처리 모델에 적용할 수 있을까에 대한 답을 찾는 것 - 단어표현 : 텍스트를 모델에 적용할 수 있게 언어적인 특성을 반영해서 단어를 수치화하는 방법을 찾는것 - 단어를 수치화할 때는 주로 벡터로 표현한다. - 따라서 단어 표현 = 단어 임베딩 = 단어 벡터 원-핫 인코딩 - 단어를 하나의 벡터로 표현하는 방법인데, 각 값은 0혹은 1만 갖는다. - 알 수 있는 벡터 값 가운데 하나만 1을 가지고, 나머지는 모두 0을 가지는 방식 - 여기서 1이 되는 것은 각 단어가 어떤 단어인지 알려주는 인덱스다. - 즉, 원-핫 인코딩 방식은 각 단어의 인덱스를 정한 후 각.. [NLP] 02.자연어 처리 개발 준비 - Tensorflow 자연어 처리 개발을 하는 데 있어서 사용되는 라이브러리에 대한 소개 첫 번째로는 텐서플로우이다. 텐서플로우 tf.keras.layers.Dense INPUT_SIZE = (20, 1) input = tf.placeholder(tf.float32, shape = INPUT_SIZE) hidden = tf.keras.layers.Dense(units = 10, activation = tf.nn.sigmoid)(input) output = tf.keras.layers.Dense(units = 2, activation = tf.nn.sigmoid)(hidden) - 10개의 노드를 가지는 은닉층이 있고, 최종 출력 값은 2개의 노드가 있는 신경망 구조 tf.keras.layers.Dropout INPUT_SIZ.. [KR_OCR] 한국어데이터셋(imageWIthBox) AI HUB에서 제공한 데이터를 바탕으로 GTUtilily와 pickle 파일을 생성한 뒤, 텍스트박스가 잘 어노테이션 되어있는지 확인 하는 작업을 진행한다. 1. Loading Library import matplotlib.pyplot as plt import PIL import pickle import os import cv2 import numpy as np from data_KSign import GTUtility - 한국어 데이터셋으로 만든 GTUtility를 import 한다 2. Making Function def getTextbox(data_path = 'data/K-Sign', su = 2, quality = 'high'): if quality == 'high': gt_util = GTU.. 이전 1 다음