수십만 건의 HWP 표를 엑셀로 변환해 데이터베이스화
라이트스택의 (HWP) SDK 를 통해 수십만 건의 아래한글 파일의 표 데이터를 유형별로 분류하고 이를 엑셀 데이터로 변환하는 프로젝트를 수행했습니다. 고객은 이를 통해 그간 수년간 누적된 비정형 데이터의 데이터베이스 전환을 마치고, 데이터 분석·예측을 위한 기반 마련에 성공했습니다.
검색·미리보기 같은 전통적 활용부터 빅데이터 분석, AI 데이터 전처리까지 — 모든 문서에서 구조를 보존한 채 텍스트와 표, 메타데이터를 빠르고 정확하게 추출합니다. 클라우드 네이티브로 가볍게 동작하고, REST API · JSON 으로 어디든 붙습니다.
검색이든, RAG 든, 데이터 파이프라인이든 — 모두 깨끗한 텍스트를 전제로 합니다. 그러나 현실의 문서는 HWP, 보안 PDF, 다양한 오피스 포맷, 압축 파일까지 형태가 천차만별이에요.
Docpler 는 그 천차만별을 한 인터페이스로 받아 정제된 데이터로 인도합니다. 큰 파일도 빠르고 정확하게, 표는 표 그대로, 메타데이터는 Dublin Core 표준 그대로.
클라우드 네이티브로 만들어 컨테이너 환경에서 가볍게 동작합니다. 헬스체크와 업타임 모니터링도 내장되어 있습니다.
빠른 추출, 표준 인터페이스, 그리고 컨테이너 환경에 어울리는 가벼운 아키텍처.
큰 문서도 끊김 없이, 오류 없이 처리합니다. 추출 속도와 정확성을 함께 잡았습니다.
대부분의 프로그래밍 언어와 자동화 도구에서 그대로 호출할 수 있습니다. 별도 SDK 없이도 표준 HTTP 만으로 충분합니다.
문서 안의 표를 구조 그대로 추출합니다. CSV · Excel · 데이터베이스에 그대로 적재할 수 있는 형태로 인도합니다.
모든 추출 결과는 JSON 으로 인도됩니다. 후속 시스템과의 통합이 자연스럽고, 스크립트 처리도 간편해요.
컨테이너 환경에 최적화되어 있고, 헬스체크와 업타임 모니터링이 내장되어 있습니다. Kubernetes 환경에서 그대로 운영할 수 있습니다.
오피스 문서, iWork, PDF, EPUB, 그리고 주요 압축 포맷까지 — 한 엔진으로 다룹니다. 메타데이터는 Dublin Core 표준으로 추출됩니다.
오피스 문서, iWork, 일반 문서, 그리고 압축 포맷까지 — 한 엔진에서 모두 처리합니다.
새로운 포맷이 필요하면 도메인 요구에 맞춰 추가 확장도 가능합니다.
Word
.doc · .docx · .dot · .dotx
PowerPoint
.ppt · .pptx · .pps · .ppsx
Excel
.xls · .xlsx · .xlt · .xltx
HWP
한글
HWP Office
Pages
Numbers
Keynote
iWork '13 제외
RTF
EPUB
Compression
ZIP · GZ · XZ · BZIP2 · 7Z · TAR · CPIO · AR
파일의 메타데이터는 표준화된 DC (Dublin Core) 메타데이터로 추출합니다. 또한 문서의 특성에 맞게 구조화된 형태로 데이터를 추출할 수 있습니다.
{
"name": "한글문서파일형식3.0_HWPML_revision1.2.hwp",
"basename": "한글문서파일형식3.0_HWPML_revision1.2",
"ext": "hwp",
"mimeType": "application/x-hwp-v5",
"metadata": {
"dc:title": "개요",
"dc:creator": "heyzard",
"dcterms:created": "2014-10-04T05:49:27Z",
"dcterms:modified": "2014-11-05T08:22:30Z"
},
"content": {
"text": "개요 저작권 (주)한글과컴퓨터(이하 ‘한컴’)는 문서 형식의 개방성과 표준화에 대하여 적극 찬성합니다. 한컴은 ᄒᆞᆫ글 97의 문서 형식을 무상으로 지원한 바 있으며, ᄒᆞᆫ글 2002~2010 문서의 XML 형식은 HwpML에 대해서도 문서 형식을 공개한 바 있습니다. 개방형 문서 표준화 및 코드 관련 위원회에도 적극적으로 참여하여 파일 형식의 표준화와 개방성을 위해 노력해 왔습니다. 또한, 한컴오피스에서 기록물 장기보존 표준 포맷인 PDF/A-1의 지원과 ISO 국제 문서 형식인 ODF와 OOXML 파일 형식의 불러오기와 저장하기를 적극적으로 지원하였습니다. 본 문서를 열람하고자 하는 자라면 누구에게나 제공되는 것이며, 본 문서를 열람하는 것 외에 복사, 배포, 게재 및 본 문서에 기재되어 있는 내용을 사용하고자 하는 자는 한글과컴퓨터의 본 저작권을 충분히 인식하고 동의하여야 합니다. 본 문서를 누구나 열람, 복사, 배포, 게재 및 ..."
},
"rendering-options": {
"output": "json"
}
} 라이트스택의 (HWP) SDK 를 통해 수십만 건의 아래한글 파일의 표 데이터를 유형별로 분류하고 이를 엑셀 데이터로 변환하는 프로젝트를 수행했습니다. 고객은 이를 통해 그간 수년간 누적된 비정형 데이터의 데이터베이스 전환을 마치고, 데이터 분석·예측을 위한 기반 마련에 성공했습니다.
ElasticSearch 와의 손쉬운 통합으로 고가의 라이선스 구매 없이도 문서 파일 검색 기능을 제공할 수 있었습니다. 안내원은 게시글, 사내 Knowledge Base, 첨부 파일, 각종 문서들을 한 곳에서 검색하여 빠르게 고객 응대를 할 수 있었습니다.
파일 업로드 시점에 실시간으로 탐지할 수 있도록 SDK 로 제공, 기존 게시판 기능에 적용하여 사용자 편의성을 유지하면서 개인정보 보호 정책을 반영했습니다. 아울러 서비스 운영자가 정기·비정기적으로 개인정보 탐지 현황을 파악할 수 있게 대시보드를 제공하고, 오탐 여부를 확인할 수 있도록 탐지된 정보를 제공하는 등 편의 기능도 함께 제공했습니다.
시스템 내의 문서를 실시간 혹은 배치로 분석하여 개인정보를 탐지해야 하는 시스템에서 SDK 형태의 텍스트 추출 도구가 유용하게 도입되었습니다.