1. 이미지 업로드
상단의 표 이미지 업로드 드롭존에 PNG·JPG·WEBP 파일을 드래그하거나 클릭해서 고릅니다. 이미지는 절대 업로드되지 않으며, 브라우저 안의 tesseract.js WebAssembly 엔진이 한국어(kor) + 영어(eng) 모델로 인식합니다. 첫 1회는 한국어 모델 ~12MB + 영어 모델 ~8MB 가 다운로드되어 브라우저에 캐시됩니다.
2. 가장 정확하게 찍는 법
- 해상도 — 긴 변 기준 1600px 이상 권장. 자동으로 업스케일되지만 원본이 선명할수록 정확.
- 직각 — 카메라는 되도록 표와 직각. 4~5° 기울어짐은 엔진이 교정하지만 심하면 열 경계가 흩어집니다.
- 대비 — 내부 전처리에서 그레이스케일 + 히스토그램 스트레칭을 자동으로 수행합니다. 어두운 배경은 가급적 피하세요.
- 여백 — 표 주변에 30~50px 여백을 두고 잘라주세요. 표가 이미지 가장자리에 딱 붙으면 첫·끝 행이 잘릴 수 있습니다.
- 선 유무 — 표 내부 선(격자)은 있어도 되고 없어도 됩니다. 본 도구는 선을 사용하지 않고 단어의 바운딩 박스 좌표로 행·열을 추정합니다.
3. 자동 행·열 분리 원리
OCR 이 뱉어내는 단어별 바운딩 박스의 세로 중심 좌표로 행을, 왼쪽 X 좌표의 1-D 군집화로열 시작선을 찾습니다. 같은 행에서 같은 열 구간에 떨어진 단어들은 공백으로 이어붙입니다. 표가 완전히 비뚤어지거나 셀 내부 줄바꿈이 많으면 오인식이 늘 수 있으므로, 미리보기에서 셀을 직접 편집하거나 잘못된 행을 선택해 삭제하세요.
4. 편집 · 내보내기
- 셀 편집 — 아무 셀이나 더블클릭 하면 텍스트 입력이 열립니다. Enter 또는 포커스 이동으로 저장.
- 행 선택 — 왼쪽 체크박스로 여러 행을 선택한 뒤 "선택 행 삭제" 로 일괄 제거.
- 행 추가 — "행 추가" 로 같은 컬럼 수의 빈 행이 맨 아래에 추가됩니다.
- XLSX 다운로드 — 시트 한 장("OCR")에 모든 셀이 들어간 엑셀 파일.
- CSV 다운로드 — UTF-8 BOM 을 넣어 한글 헤더가 엑셀에서 깨지지 않도록 했습니다.
5. 한국어 특화 후처리
OCR 원문에 자주 나타나는 한국어 표 패턴을 셀 단위로 교정합니다:
12,345 원→12,345원(원·만원·억원·%·개·건·명·회 단위 공백 제거)- 전각 쉼표
,→, - "|" / "·" 단독 셀 제거 (표 선 오인식 정리)
단, OCR 원문이 기본적으로 깨진 경우(예: 스캔 품질 낮은 PDF) 는 교정으로 되살릴 수 없습니다. 이 경우 이미지 품질을 개선하거나, 셀을 수동 편집하세요.
6. 표·숫자·날짜 팁
- 숫자 천 단위 콤마는 원본 이미지에 있는 그대로 유지됩니다. 엑셀에서 숫자로 쓸 때는 컬럼을 선택 후 "텍스트 나누기" → 쉼표 제거.
- 날짜(예: 2025-03-01) 는 문자열로 추출됩니다. 엑셀에서
=DATEVALUE(A2)로 날짜화하거나, 엑셀 셀 서식 "날짜" 로 변환하세요. - 한글 단위가 혼재하면 숫자·단위를 분리하는 편이 스프레드시트 계산에 유리합니다.
7. 처리 속도
노트북 기준 1000x800 이미지는 3~8초, 1600px 이상은 10~20초 소요됩니다. 첫 실행 시에는 언어 모델 다운로드에 추가 10~20초가 필요합니다. 매우 큰 이미지(4000px 이상) 는 메모리 부담으로 느려지므로, 표 영역만 잘라서 올리는 것이 더 빠르고 정확합니다.
8. 프라이버시
이 도구는 S3 정적 호스팅이며, 이미지·텍스트를 받을 서버 엔드포인트가 존재하지 않습니다. 개발자도구 Network 탭을 열고 OCR 을 실행하면 업로드 트래픽이 0바이트인 것을 직접 확인할 수 있습니다. 한국 공공기관·기업의 "파일 업로드 금지" 보안 정책 아래에서도 안심하고 사용할 수 있습니다.
9. 사용 사례별 가이드 — 어떤 표를 가장 잘 인식하나
본 도구는 인쇄 품질이 균일하고 폰트 크기가 일정한 디지털 출력 문서에서 가장 정확합니다. 다음은 자주 들어오는 업무 사례별 권장 처리법입니다.
- 영수증·세금계산서 PDF: 한국 일반 사업자의 세금계산서는 표 구조가 단순하고 인쇄 품질이 균일하므로 정확도 95% 이상이 나옵니다. PDF 를 PNG 로 변환할 때 DPI 200 이상을 권장합니다.
- 은행 거래내역서 캡처: 인터넷 뱅킹의 거래내역 화면을 캡처한 PNG 가 가장 깔끔합니다. 모바일 앱 캡처는 폰트가 안티알리아싱 처리되어 어색하게 보일 수 있으나 본 도구는 잘 인식합니다.
- 주식 시세표·코인 가격 캡처: 색상 셀(빨강·파랑) 이 섞이면 콘트라스트가 떨어지므로 다크모드 캡처는 피하고 화이트 배경에서 캡처하세요.
- 학교 시험 성적표: 폰트가 작거나 손글씨가 섞인 경우 정확도가 60~80% 로 떨어집니다. 인쇄본을 1600px 이상으로 스캔하면 개선됩니다.
- 제품 매뉴얼 표: 영문·숫자 혼합이 많으므로 가능하면 영문 우선 모드로 실행하면 더 빠릅니다.
- 관공서 양식 표: 표 안에 체크박스·서명란이 있으면 해당 셀이 인식되지 않습니다. 후처리에서 빈 셀을 직접 입력하세요.
10. PDF 표를 처리하는 가장 빠른 방법
본 도구는 이미지(PNG·JPG·WEBP) 만 받지만, PDF 의 한 페이지를 이미지로 변환하면 그대로 사용할 수 있습니다. macOS·Windows 모두 별도 설치 없이 변환 가능합니다.
- macOS: 미리보기에서 PDF 열기 → 파일 → 내보내기 → 포맷 PNG → 해상도 200 dpi.
- Windows: Adobe Reader 또는 PDF24 Tools 로 페이지를 PNG 로 변환.
- iOS·Android: 갤러리 앱의 캡처 기능 또는 PDF Viewer 앱에서 페이지 캡처.
- 대량 PDF:
pdftoppm input.pdf output -png -r 200명령어로 한 번에 변환 (poppler-utils 필요).
변환된 PNG 한 장씩 본 도구에 올리면 각 페이지 결과가 누적되며, 마지막에 한 번에 엑셀로 내보낼 수 있습니다.
11. 한자·일본어·중국어 혼합 인식
본 도구는 기본적으로 한국어(kor) + 영어(eng) 모델을 로드합니다. 한자(한문)·일본어·중국어가 섞인 표는 다음과 같이 처리됩니다.
- 한자(漢字): 한국어 모델이 일부 상용 한자를 인식하지만, 정확도가 60% 정도. 인식 후 셀 편집으로 수정하세요.
- 일본어 가타카나·히라가나: 한국어 모델로는 거의 인식 불가. 별도 일본어 모델이 필요하나 현재 도구는 지원하지 않습니다.
- 중국어 간체·번체: 한국 한자와 글자 모양이 다르므로 별도 모델이 필요합니다.
- 다국어 혼합 권장 워크플로: 한국어/영어가 주이고 외국어가 일부면 본 도구로 80% 추출 후 외국어 부분만 수동 보정하는 것이 가장 빠릅니다.
12. 자주 발생하는 오인식 패턴과 해결법
- "0" 과 "O": 숫자 0 이 영문 O 로 인식되거나 반대 사례가 빈번합니다. 본 도구는 셀이 모두 숫자로 보이면 자동 교정하지만, 영문·숫자 혼합 셀에서는 수동 검토가 필요합니다.
- "1" 과 "l"·"I": 폰트에 따라 구분이 어렵습니다. 표의 다른 행과 비교해 패턴을 확인하세요.
- 음수 부호: 마이너스(-) 가 빠지거나 길이가 짧으면 무시될 수 있습니다. 금액 표에서 음수가 중요한 경우 결과를 한 번 더 검토하세요.
- 천 단위 콤마와 소수점: 한국 표기는 1,234.56, 유럽 표기는 1.234,56 입니다. OCR 결과는 원본 표기를 따르므로 엑셀에서 통일 변환을 수행하세요.
- 병합 셀: 두 줄을 차지하는 병합 셀은 첫 행에만 텍스트가 들어가고 둘째 행은 비어 보입니다. 본 도구는 병합 정보를 보존하지 않으므로 결과 수동 보정이 필요합니다.
- 그림자·페이지 접힘: 종이 문서를 휴대폰으로 찍을 때 페이지가 휘면 가장자리 텍스트가 누락됩니다. 평평한 곳에 놓고 직각으로 촬영하거나 스캔 앱(Adobe Scan·Microsoft Lens)을 사용하세요.
13. 엑셀 활용 팁 — VLOOKUP·피벗 테이블
OCR 결과를 엑셀로 내보낸 뒤 자주 사용하는 후속 작업을 정리합니다.
- 숫자 변환: OCR 은 모든 셀을 텍스트로 출력합니다. 데이터 → 텍스트 나누기 → 마침 으로 한 번에 숫자 변환하거나, 빈 셀에 1 을 입력하고 선택 → 복사 → 선택하여 붙여넣기 → 곱하기 로 일괄 숫자화하세요.
- VLOOKUP 매칭: 코드 ↔ 이름 매핑 표를 OCR 로 추출했다면 다른 시트에서
=VLOOKUP(A2, 시트1!A:B, 2, FALSE)로 즉시 조회 가능합니다. - 피벗 테이블: 분기별·항목별 집계가 필요하면 OCR 결과를 표 형식으로 변환 (Ctrl+T) 한 뒤 삽입 → 피벗 테이블 로 즉시 요약할 수 있습니다.
- Google Sheets 연동: CSV 다운로드 후 Google Sheets 에 import → "텍스트를 열로 분할" 로 즉시 처리. 한글 깨짐이 없도록 본 도구는 UTF-8 BOM 을 자동으로 부착합니다.
14. 모바일 사용 팁
모바일 브라우저에서도 본 도구가 동작합니다. 다만 다음 점을 유의하세요.
- 크롬 모바일: 가장 안정적. 사진 촬영 시 권한 허용 후 카메라 + 갤러리 모두 사용 가능.
- iOS Safari: HEIC 형식은 자동으로 JPG 변환되지만 일부 구버전 iOS 에서 변환 실패. 갤러리 저장 시 "가장 호환되는 형식" 으로 설정.
- 메모리 한계: 4000px 이상 사진은 모바일에서 처리 중 탭이 종료될 수 있습니다. 1600~2400px 권장.
- 네트워크: 모델 다운로드(20MB) 가 첫 1회 발생합니다. 데이터 사용량이 부담이면 와이파이 환경에서 첫 실행.
- 배터리: WebAssembly OCR 은 CPU 부하가 큽니다. 연속 30~50장 이상 처리 시 발열·배터리 소모가 빠릅니다.
15. 자주 묻는 질문 (FAQ)
- Q. 이미지가 정말로 외부로 전송되지 않나요?
A. 네. 모든 처리는 브라우저 안에서 일어납니다. 개발자도구 네트워크 탭에서 직접 확인 가능하며, 사이트 코드도 GitHub 등에 공개되어 있어 검증 가능합니다. - Q. 첫 실행이 너무 느려요.
A. 첫 1회만 한국어 모델 12MB + 영어 모델 8MB 다운로드가 발생합니다. 다음 실행부터는 캐시에서 즉시 로드됩니다. - Q. 표가 아닌 일반 글 OCR 도 되나요?
A. 동작하지만 본 도구의 후처리는 표 구조 위주로 최적화되어 있습니다. 단순 텍스트 OCR 은 다른 전용 도구가 더 적합합니다. - Q. 결과를 Google Drive 에 자동 저장할 수 있나요?
A. 본 도구는 외부 클라우드 연동이 없습니다. 다운로드한 XLSX 를 직접 업로드하세요. - Q. 표가 30행 이상인 경우도 처리 가능한가요?
A. 100행 정도까지는 무리 없이 처리합니다. 그 이상은 두 번에 나눠 처리하시면 모바일 환경에서도 안정적입니다. - Q. 손글씨도 인식되나요?
A. 정확도가 30~50% 로 낮습니다. 손글씨가 중요한 문서는 인쇄·스캔 후 다시 시도하세요. - Q. 회사 내부 자료를 외부 도구에 올려도 되나요?
A. 본 도구는 데이터를 외부로 보내지 않으므로 사내 보안 정책상 안전한 편입니다. 다만 회사 보안 규정에 따라 사전에 IT 팀 확인을 권장합니다.
16. 다른 OCR 도구와 비교
시중에는 Naver Clova OCR, Google Vision API, AWS Textract, Microsoft Azure OCR 등 다양한 OCR 서비스가 있습니다. 본 도구의 장단점을 객관적으로 정리합니다.
- 장점: (1) 완전 무료·무제한, (2) 이미지 외부 전송 없음, (3) API 키·회원가입 불필요, (4) 표 구조 자동 인식, (5) 한국어 단위·통화 후처리 내장.
- 단점: (1) 클라우드 API 대비 정확도 약 3~7%p 낮음 (Naver Clova 약 97%, 본 도구 약 90%), (2) 손글씨·복잡 레이아웃 약함, (3) 매우 큰 이미지에서 모바일 성능 한계.
- 권장 사용처: 개인·소규모 사업장의 일회성 표 처리, 보안 정책이 엄격한 사내 자료 처리, 외부 API 비용을 절감하고 싶은 경우.
- 비권장 사용처: 월 수천 건 이상 처리, 손글씨 다수 포함 문서, 매우 복잡한 다단 레이아웃.