6.OCR(Optical Character Recognition)
less than 1 minute read
OCR
- Optical Character Recognition : 광학식 문자 판독
- 사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환하는 것.
개요
- 인간이 종이 위에 써 놓은 글씨를 인지하여 텍스트 데이터로 치환.
- 존재하는 폰트와 대조하는 식으로 이미지를 인식하므로, 적어도 300dpi 이상의 해상도에 필기체보단 정자로 또박또박 잘 쓴 글씨가 인식률이 높음.
- 인식률이 많이 올라간 상황이나, 100% 신뢰 불가능.
예시
- 대한민국 여권 영문 이름 기재
- 신용카드/체크카드 이름 기재
- 모바일 구글 번역
- 우체국 주소 판독
pytesseract
pyocr
한계
- 영어는 인식이 잘되는 편이지만, 아직 한국어는 인식이 잘되지 않는다.
비교결과
- 영문 이미지(pdf)파일을 텍스트화 하는 것은 정확도가 높고 비슷한 수준을 보였다.
- 한글 이미지(pdf)파일을 텍스트화 할 때는 pyocr이 더 높은 수준을 보여주고있다. 하지만 아직까지 더 많은 학습이 이루어져야 높은 수준을 보일 것으로 예상된다.
source code