Jeong Min

한림대학교 영어영문학과, 디지털 인문예술전공 졸업생

6.OCR(Optical Character Recognition)

less than 1 minute read

OCR

Optical Character Recognition : 광학식 문자 판독
사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환하는 것.

개요

인간이 종이 위에 써 놓은 글씨를 인지하여 텍스트 데이터로 치환.
존재하는 폰트와 대조하는 식으로 이미지를 인식하므로, 적어도 300dpi 이상의 해상도에 필기체보단 정자로 또박또박 잘 쓴 글씨가 인식률이 높음.
인식률이 많이 올라간 상황이나, 100% 신뢰 불가능.

예시

대한민국 여권 영문 이름 기재
신용카드/체크카드 이름 기재
모바일 구글 번역
우체국 주소 판독

pytesseract

OCR 프로그램인 Tesseract의 파이썬 라이브러리
License: GPL v3.
github
source code

pyocr

OCR을 할 수 있는 파이썬 라이브러리
License: GPL v3+.
github
source code

한계

영어는 인식이 잘되는 편이지만, 아직 한국어는 인식이 잘되지 않는다.

비교결과

영문 이미지(pdf)파일을 텍스트화 하는 것은 정확도가 높고 비슷한 수준을 보였다.
한글 이미지(pdf)파일을 텍스트화 할 때는 pyocr이 더 높은 수준을 보여주고있다. 하지만 아직까지 더 많은 학습이 이루어져야 높은 수준을 보일 것으로 예상된다.
source code

Twitter Facebook LinkedIn

You May Also Enjoy

5.이력서 자동추천 시스템

1 minute read

이력서 자동추천 시스템 많은 양의 이력서 데이터를 사람이 모두 읽고 판단할 수 없다. 그렇기떄문에 이력서 데이터에 대해 AI가 미리 학습하고 사람에게 추천하는 시스템이 필요하다. 이력서 자동 추천 시스템 아이디어

4.Recommender_System

4 minute read

추천 시스템의 정의

3.Word_Embedding

1 minute read

Word Embedding 비교

2.Word2vec

3 minute read

Word2vec NLP 모델 중 하나