앞으로 진행 할 CRNN 관련 포스팅에서

사용되는 논문과 코드에 대해 적어둔 포스팅입니다:)


1. 참고 논문 (Text Recognition)

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

>> CRNN에 BASE가 되는 논문 자료

>> 논문에서 사용 된 모델 구조



논문에 언급되어있는 CRNN에 사용 할 모델 구조 : Convolutional Layers + Recurrent Layers + Transcription Layers


  • Convolutional Layer : 입력 이미지로부터 특징 시퀀스를 추출.
  • Recurrent Layers : 각 프레임마다 라벨을 예측.
  • Transcription Layers : 프레임마다의 예측을 최종 라벨 시퀀스로 변경.


2. 참고 깃 허브 (Text Recognition)

>> 이번에 CRNN구현에 있어 BASE로 사용한 깃허브 코드

>> CRNN_train.ipynb,,,, 참고



3. 최종 코드 (Text Recognition)

>> 위의 2가지의 베이스 자료를 통해 수정 작업



  • COCO의 2014 Train, 2014 Val datasets을 사용하기 위해 pickle파일을 2개 생성
  • CRNN train 도중 발생되는 오류 해결



  • Data Augmentation을 사용하기 위한 Generator 코드 수정
  • 한국어 OCR을 위한 기본 Architecture 수정 


4. 사용한 데이터 셋 (Text Recognition)

COCO - Common Objects in Context

>> COCO에서 제공하는 2014Train / 2014Val data를 활용하여 학습

>> COCO-Text에서 제공하는 COCO-Text annotation을 사용  


COCO-Text data set은 용량이 크기 때문에 gsutil을 사용하여 다운로드 받는 것을 추천

  • Install gsutil via : curl | bash
  • Make local dir : mkdir train2014
  • Synchronize via : gsutil -m rsync gs:// train2014
  • Annotation : coco-text에서 다운받을 수 있다 (파일명은 COCO-Text.json)

# 위의 순서는 리눅스에서 사용하기때문에, 윈도우를 사용하는 경우에는 Google Cloud Platfrom을 설치 하고 gsutil 명령어를 사용해야 데이터를 다운 받을 수 있다.


# 이미지파일은 12G정도 되기때문에 다운받는데 시간이 꽤 소요되고, 어노테이션은 금방 다운받을 수 있다.




