6.OCR(Optical Character Recognition)

less than 1 minute read

OCR

  • Optical Character Recognition : 광학식 문자 판독
  • 사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환하는 것.

개요

  • 인간이 종이 위에 써 놓은 글씨를 인지하여 텍스트 데이터로 치환.
  • 존재하는 폰트와 대조하는 식으로 이미지를 인식하므로, 적어도 300dpi 이상의 해상도에 필기체보단 정자로 또박또박 잘 쓴 글씨가 인식률이 높음.
  • 인식률이 많이 올라간 상황이나, 100% 신뢰 불가능.

예시

  • 대한민국 여권 영문 이름 기재
  • 신용카드/체크카드 이름 기재
  • 모바일 구글 번역
  • 우체국 주소 판독

pytesseract

  • OCR 프로그램인 Tesseract의 파이썬 라이브러리
  • License: GPL v3.
    github
    source code

pyocr

  • OCR을 할 수 있는 파이썬 라이브러리
  • License: GPL v3+.
    github
    source code

한계

  • 영어는 인식이 잘되는 편이지만, 아직 한국어는 인식이 잘되지 않는다.

비교결과

  • 영문 이미지(pdf)파일을 텍스트화 하는 것은 정확도가 높고 비슷한 수준을 보였다.
  • 한글 이미지(pdf)파일을 텍스트화 할 때는 pyocr이 더 높은 수준을 보여주고있다. 하지만 아직까지 더 많은 학습이 이루어져야 높은 수준을 보일 것으로 예상된다.
    source code