이미지 표 → 엑셀(xlsx)·CSV 변환 — 한글 OCR, 브라우저에서 즉시

표 이미지를 브라우저 안에서 한국어 OCR로 엑셀·CSV로 바꾸는 실전 팁.

1. 이미지 업로드

상단의 표 이미지 업로드 드롭존에 PNG·JPG·WEBP 파일을 드래그하거나 클릭해서 고릅니다. 이미지는 절대 업로드되지 않으며, 브라우저 안의 tesseract.js WebAssembly 엔진이 한국어(kor) + 영어(eng) 모델로 인식합니다. 첫 1회는 한국어 모델 ~12MB + 영어 모델 ~8MB 가 다운로드되어 브라우저에 캐시됩니다.

2. 가장 정확하게 찍는 법

해상도 — 긴 변 기준 1600px 이상 권장. 자동으로 업스케일되지만 원본이 선명할수록 정확.
직각 — 카메라는 되도록 표와 직각. 4~5° 기울어짐은 엔진이 교정하지만 심하면 열 경계가 흩어집니다.
대비 — 내부 전처리에서 그레이스케일 + 히스토그램 스트레칭을 자동으로 수행합니다. 어두운 배경은 가급적 피하세요.
여백 — 표 주변에 30~50px 여백을 두고 잘라주세요. 표가 이미지 가장자리에 딱 붙으면 첫·끝 행이 잘릴 수 있습니다.
선 유무 — 표 내부 선(격자)은 있어도 되고 없어도 됩니다. 본 도구는 선을 사용하지 않고 단어의 바운딩 박스 좌표로 행·열을 추정합니다.

3. 자동 행·열 분리 원리

OCR 이 뱉어내는 단어별 바운딩 박스의 세로 중심 좌표로 행을, 왼쪽 X 좌표의 1-D 군집화로열 시작선을 찾습니다. 같은 행에서 같은 열 구간에 떨어진 단어들은 공백으로 이어붙입니다. 표가 완전히 비뚤어지거나 셀 내부 줄바꿈이 많으면 오인식이 늘 수 있으므로, 미리보기에서 셀을 직접 편집하거나 잘못된 행을 선택해 삭제하세요.

4. 편집 · 내보내기

셀 편집 — 아무 셀이나 더블클릭 하면 텍스트 입력이 열립니다. Enter 또는 포커스 이동으로 저장.
행 선택 — 왼쪽 체크박스로 여러 행을 선택한 뒤 "선택 행 삭제" 로 일괄 제거.
행 추가 — "행 추가" 로 같은 컬럼 수의 빈 행이 맨 아래에 추가됩니다.
XLSX 다운로드 — 시트 한 장("OCR")에 모든 셀이 들어간 엑셀 파일.
CSV 다운로드 — UTF-8 BOM 을 넣어 한글 헤더가 엑셀에서 깨지지 않도록 했습니다.

5. 한국어 특화 후처리

OCR 원문에 자주 나타나는 한국어 표 패턴을 셀 단위로 교정합니다:

12,345 원 → 12,345원 (원·만원·억원·%·개·건·명·회 단위 공백 제거)
전각 쉼표 ， → ,
"|" / "·" 단독 셀 제거 (표 선 오인식 정리)

단, OCR 원문이 기본적으로 깨진 경우(예: 스캔 품질 낮은 PDF) 는 교정으로 되살릴 수 없습니다. 이 경우 이미지 품질을 개선하거나, 셀을 수동 편집하세요.

6. 표·숫자·날짜 팁

숫자 천 단위 콤마는 원본 이미지에 있는 그대로 유지됩니다. 엑셀에서 숫자로 쓸 때는 컬럼을 선택 후 "텍스트 나누기" → 쉼표 제거.
날짜(예: 2025-03-01) 는 문자열로 추출됩니다. 엑셀에서 =DATEVALUE(A2) 로 날짜화하거나, 엑셀 셀 서식 "날짜" 로 변환하세요.
한글 단위가 혼재하면 숫자·단위를 분리하는 편이 스프레드시트 계산에 유리합니다.

7. 처리 속도

노트북 기준 1000x800 이미지는 3~8초, 1600px 이상은 10~20초 소요됩니다. 첫 실행 시에는 언어 모델 다운로드에 추가 10~20초가 필요합니다. 매우 큰 이미지(4000px 이상) 는 메모리 부담으로 느려지므로, 표 영역만 잘라서 올리는 것이 더 빠르고 정확합니다.

8. 프라이버시

이 도구는 S3 정적 호스팅이며, 이미지·텍스트를 받을 서버 엔드포인트가 존재하지 않습니다. 개발자도구 Network 탭을 열고 OCR 을 실행하면 업로드 트래픽이 0바이트인 것을 직접 확인할 수 있습니다. 한국 공공기관·기업의 "파일 업로드 금지" 보안 정책 아래에서도 안심하고 사용할 수 있습니다.

9. 사용 사례별 가이드 — 어떤 표를 가장 잘 인식하나

본 도구는 인쇄 품질이 균일하고 폰트 크기가 일정한 디지털 출력 문서에서 가장 정확합니다. 다음은 자주 들어오는 업무 사례별 권장 처리법입니다.

영수증·세금계산서 PDF: 한국 일반 사업자의 세금계산서는 표 구조가 단순하고 인쇄 품질이 균일하므로 정확도 95% 이상이 나옵니다. PDF 를 PNG 로 변환할 때 DPI 200 이상을 권장합니다.
은행 거래내역서 캡처: 인터넷 뱅킹의 거래내역 화면을 캡처한 PNG 가 가장 깔끔합니다. 모바일 앱 캡처는 폰트가 안티알리아싱 처리되어 어색하게 보일 수 있으나 본 도구는 잘 인식합니다.
주식 시세표·코인 가격 캡처: 색상 셀(빨강·파랑) 이 섞이면 콘트라스트가 떨어지므로 다크모드 캡처는 피하고 화이트 배경에서 캡처하세요.
학교 시험 성적표: 폰트가 작거나 손글씨가 섞인 경우 정확도가 60~80% 로 떨어집니다. 인쇄본을 1600px 이상으로 스캔하면 개선됩니다.
제품 매뉴얼 표: 영문·숫자 혼합이 많으므로 가능하면 영문 우선 모드로 실행하면 더 빠릅니다.
관공서 양식 표: 표 안에 체크박스·서명란이 있으면 해당 셀이 인식되지 않습니다. 후처리에서 빈 셀을 직접 입력하세요.

10. PDF 표를 처리하는 가장 빠른 방법

본 도구는 이미지(PNG·JPG·WEBP) 만 받지만, PDF 의 한 페이지를 이미지로 변환하면 그대로 사용할 수 있습니다. macOS·Windows 모두 별도 설치 없이 변환 가능합니다.

macOS: 미리보기에서 PDF 열기 → 파일 → 내보내기 → 포맷 PNG → 해상도 200 dpi.
Windows: Adobe Reader 또는 PDF24 Tools 로 페이지를 PNG 로 변환.
iOS·Android: 갤러리 앱의 캡처 기능 또는 PDF Viewer 앱에서 페이지 캡처.
대량 PDF: pdftoppm input.pdf output -png -r 200 명령어로 한 번에 변환 (poppler-utils 필요).

변환된 PNG 한 장씩 본 도구에 올리면 각 페이지 결과가 누적되며, 마지막에 한 번에 엑셀로 내보낼 수 있습니다.

11. 한자·일본어·중국어 혼합 인식

본 도구는 기본적으로 한국어(kor) + 영어(eng) 모델을 로드합니다. 한자(한문)·일본어·중국어가 섞인 표는 다음과 같이 처리됩니다.

한자(漢字): 한국어 모델이 일부 상용 한자를 인식하지만, 정확도가 60% 정도. 인식 후 셀 편집으로 수정하세요.
일본어 가타카나·히라가나: 한국어 모델로는 거의 인식 불가. 별도 일본어 모델이 필요하나 현재 도구는 지원하지 않습니다.
중국어 간체·번체: 한국 한자와 글자 모양이 다르므로 별도 모델이 필요합니다.
다국어 혼합 권장 워크플로: 한국어/영어가 주이고 외국어가 일부면 본 도구로 80% 추출 후 외국어 부분만 수동 보정하는 것이 가장 빠릅니다.

12. 자주 발생하는 오인식 패턴과 해결법

"0" 과 "O": 숫자 0 이 영문 O 로 인식되거나 반대 사례가 빈번합니다. 본 도구는 셀이 모두 숫자로 보이면 자동 교정하지만, 영문·숫자 혼합 셀에서는 수동 검토가 필요합니다.
"1" 과 "l"·"I": 폰트에 따라 구분이 어렵습니다. 표의 다른 행과 비교해 패턴을 확인하세요.
음수 부호: 마이너스(-) 가 빠지거나 길이가 짧으면 무시될 수 있습니다. 금액 표에서 음수가 중요한 경우 결과를 한 번 더 검토하세요.
천 단위 콤마와 소수점: 한국 표기는 1,234.56, 유럽 표기는 1.234,56 입니다. OCR 결과는 원본 표기를 따르므로 엑셀에서 통일 변환을 수행하세요.
병합 셀: 두 줄을 차지하는 병합 셀은 첫 행에만 텍스트가 들어가고 둘째 행은 비어 보입니다. 본 도구는 병합 정보를 보존하지 않으므로 결과 수동 보정이 필요합니다.
그림자·페이지 접힘: 종이 문서를 휴대폰으로 찍을 때 페이지가 휘면 가장자리 텍스트가 누락됩니다. 평평한 곳에 놓고 직각으로 촬영하거나 스캔 앱(Adobe Scan·Microsoft Lens)을 사용하세요.

13. 엑셀 활용 팁 — VLOOKUP·피벗 테이블

OCR 결과를 엑셀로 내보낸 뒤 자주 사용하는 후속 작업을 정리합니다.

숫자 변환: OCR 은 모든 셀을 텍스트로 출력합니다. 데이터 → 텍스트 나누기 → 마침 으로 한 번에 숫자 변환하거나, 빈 셀에 1 을 입력하고 선택 → 복사 → 선택하여 붙여넣기 → 곱하기 로 일괄 숫자화하세요.
VLOOKUP 매칭: 코드 ↔ 이름 매핑 표를 OCR 로 추출했다면 다른 시트에서 =VLOOKUP(A2, 시트1!A:B, 2, FALSE)로 즉시 조회 가능합니다.
피벗 테이블: 분기별·항목별 집계가 필요하면 OCR 결과를 표 형식으로 변환 (Ctrl+T) 한 뒤 삽입 → 피벗 테이블 로 즉시 요약할 수 있습니다.
Google Sheets 연동: CSV 다운로드 후 Google Sheets 에 import → "텍스트를 열로 분할" 로 즉시 처리. 한글 깨짐이 없도록 본 도구는 UTF-8 BOM 을 자동으로 부착합니다.

14. 모바일 사용 팁

모바일 브라우저에서도 본 도구가 동작합니다. 다만 다음 점을 유의하세요.

크롬 모바일: 가장 안정적. 사진 촬영 시 권한 허용 후 카메라 + 갤러리 모두 사용 가능.
iOS Safari: HEIC 형식은 자동으로 JPG 변환되지만 일부 구버전 iOS 에서 변환 실패. 갤러리 저장 시 "가장 호환되는 형식" 으로 설정.
메모리 한계: 4000px 이상 사진은 모바일에서 처리 중 탭이 종료될 수 있습니다. 1600~2400px 권장.
네트워크: 모델 다운로드(20MB) 가 첫 1회 발생합니다. 데이터 사용량이 부담이면 와이파이 환경에서 첫 실행.
배터리: WebAssembly OCR 은 CPU 부하가 큽니다. 연속 30~50장 이상 처리 시 발열·배터리 소모가 빠릅니다.

15. 자주 묻는 질문 (FAQ)

Q. 이미지가 정말로 외부로 전송되지 않나요?
A. 네. 모든 처리는 브라우저 안에서 일어납니다. 개발자도구 네트워크 탭에서 직접 확인 가능하며, 사이트 코드도 GitHub 등에 공개되어 있어 검증 가능합니다.
Q. 첫 실행이 너무 느려요.
A. 첫 1회만 한국어 모델 12MB + 영어 모델 8MB 다운로드가 발생합니다. 다음 실행부터는 캐시에서 즉시 로드됩니다.
Q. 표가 아닌 일반 글 OCR 도 되나요?
A. 동작하지만 본 도구의 후처리는 표 구조 위주로 최적화되어 있습니다. 단순 텍스트 OCR 은 다른 전용 도구가 더 적합합니다.
Q. 결과를 Google Drive 에 자동 저장할 수 있나요?
A. 본 도구는 외부 클라우드 연동이 없습니다. 다운로드한 XLSX 를 직접 업로드하세요.
Q. 표가 30행 이상인 경우도 처리 가능한가요?
A. 100행 정도까지는 무리 없이 처리합니다. 그 이상은 두 번에 나눠 처리하시면 모바일 환경에서도 안정적입니다.
Q. 손글씨도 인식되나요?
A. 정확도가 30~50% 로 낮습니다. 손글씨가 중요한 문서는 인쇄·스캔 후 다시 시도하세요.
Q. 회사 내부 자료를 외부 도구에 올려도 되나요?
A. 본 도구는 데이터를 외부로 보내지 않으므로 사내 보안 정책상 안전한 편입니다. 다만 회사 보안 규정에 따라 사전에 IT 팀 확인을 권장합니다.

16. 다른 OCR 도구와 비교

시중에는 Naver Clova OCR, Google Vision API, AWS Textract, Microsoft Azure OCR 등 다양한 OCR 서비스가 있습니다. 본 도구의 장단점을 객관적으로 정리합니다.

장점: (1) 완전 무료·무제한, (2) 이미지 외부 전송 없음, (3) API 키·회원가입 불필요, (4) 표 구조 자동 인식, (5) 한국어 단위·통화 후처리 내장.
단점: (1) 클라우드 API 대비 정확도 약 3~7%p 낮음 (Naver Clova 약 97%, 본 도구 약 90%), (2) 손글씨·복잡 레이아웃 약함, (3) 매우 큰 이미지에서 모바일 성능 한계.
권장 사용처: 개인·소규모 사업장의 일회성 표 처리, 보안 정책이 엄격한 사내 자료 처리, 외부 API 비용을 절감하고 싶은 경우.
비권장 사용처: 월 수천 건 이상 처리, 손글씨 다수 포함 문서, 매우 복잡한 다단 레이아웃.