본문 바로가기

데이터

(3)
[트위터API] 파이썬으로 트위터 크롤링하기 이번 포스팅은 트위터에서 크롤링하는 튜토리얼을 포스팅한 글입니다. 트위터 회원가입 후 개발자 등록 - 아래 링크로 들어가 회원가입 후 개발자 페이지에서 개발자 등록 https://developer.twitter.com Developer Tap into what's happening. Publish and analyze Tweets, optimize ads, and create unique customer experiences. developer.twitter.com - 개발자 신청 후 이메일로 가서 컨펌을 하면 개발자로 등록이 완료 - 다시 개발자 홈페이지로 접속하면 아래와 같이 get started 확인 가능 앱 등록 - create app으로 들어가서 새로운 앱을 생성한다 - 앱 생성을 완료한 후, ..
[Kafka] 카프카 튜토리얼_Quick Start 카프카를 처음 접했을 때 빠르게 시작할 수 있는 튜토리얼 입니다:) "공식문서를 바탕으로 작성 된 카프카 Quickstart" Kafka 다운로드 # Kafka 2.4.0 버전 다운로드 : https://www.apache.org/dyn/closer.cgi?path=/kafka/2.4.0/kafka_2.12-2.4.0.tgz Apache Download Mirrors Copyright © 2019 The Apache Software Foundation, Licensed under the Apache License, Version 2.0. Apache and the Apache feather logo are trademarks of The Apache Software Foundation. www.apach..
[ENG_OCR] 최종 Training(focal_ctc_loss로 변경) 처음에 작업한 training코드에서 한국어를 추가하면서 loss계산 방식을 변경. 변경 된 loss를 사용하여 다시 coco text english 데이터를 학습 시킴 데이터 준비 - 데이터 위치 : /data/COCO_TEXT/train2014/ - 데이터 갯수 : Train 데이터 (14,708장), Validation 데이터 (3,424장) - 데이터 출처 : coco-text - 어노테이션 파일 존재 (이미지 속 텍스트에대한 박스 정보) 재 학습 이유 - 현재 한국어 데이터가 라벨마다 데이터 불균형이 심하기 떄문에 이를 보완하기 위해 기존 loss 계산법 변경 - 데이터 불균형에 적합한 focal_ctc_loss 사용 - 처음과 달리 학습시키는 ..