수십만 건의 HWP 표를 엑셀로 변환해 데이터베이스화
라이트스택의 (HWP) SDK 를 통해 수십만 건의 아래한글 파일의 표 데이터를 유형별로 분류하고 이를 엑셀 데이터로 변환하는 프로젝트를 수행했습니다. 고객은 이를 통해 그간 수년간 누적된 비정형 데이터의 데이터베이스 전환을 마치고, 데이터 분석·예측을 위한 기반 마련에 성공했습니다.
HWP, PDF, 오피스 문서, 이미지, 압축 파일까지 — 한 인터페이스에서 받아 정제된 데이터로 인도합니다. 검색·미리보기 같은 전통적 활용부터 빅데이터 분석, AI 데이터 전처리, 개인정보 탐지까지 동일 파이프라인 위에서 수행됩니다.
검색이든, RAG 든, 데이터 파이프라인이든 — 모두 깨끗한 텍스트를 전제로 합니다. 그러나 현실의 문서는 HWP, 보안 PDF, 다양한 오피스 포맷, 압축 파일까지 형태가 천차만별입니다.
라이트스택의 문서 텍스트 추출 도구는 그 다양성을 한 인터페이스로 받아 정제된 데이터로 인도합니다. 큰 파일도 빠르고 정확하게, 표는 표 그대로, 메타데이터는 Dublin Core 표준으로.
추출 엔진(Docpler) 위에 데이터 엔지니어링 경험과 운영 노하우를 더해, 검색 색인, RAG, 개인정보 탐지, 빅데이터 적재까지 — 도입 단계에서 운영까지 한 자리에서 책임집니다.
다양한 포맷, 표준 인터페이스, 그리고 운영 환경까지 모두 고려한 통합 솔루션.
한글(HWP), PDF, Word, Excel, PowerPoint, iWork, EPUB, RTF, 그리고 ZIP·GZ·7Z·TAR 같은 압축 포맷까지 한 엔진으로 다룹니다.
문서 안의 표를 구조 그대로 추출합니다. CSV·Excel·데이터베이스에 그대로 적재할 수 있는 형태로 인도합니다.
표준 HTTP 와 JSON 만으로 어떤 언어·자동화 도구에서도 호출할 수 있습니다. 별도 SDK 없이도 시스템 통합이 자연스럽습니다.
파일의 메타데이터를 표준화된 DC (Dublin Core) 형식으로 추출합니다. 자산 관리·분류 시스템과 자연스럽게 호환됩니다.
컨테이너 환경에 최적화되어 있고, 헬스체크와 업타임 모니터링이 내장되어 있습니다. Kubernetes 환경에서 그대로 운영할 수 있습니다.
ElasticSearch 색인, RAG 전처리, 개인정보(PII) 탐지·마스킹까지 — 추출 결과를 후속 시스템과 자연스럽게 연결합니다.
자체 추출 엔진과 데이터 엔지니어링 노하우가 함께 들어갑니다.
라이트스택의 (HWP) SDK 를 통해 수십만 건의 아래한글 파일의 표 데이터를 유형별로 분류하고 이를 엑셀 데이터로 변환하는 프로젝트를 수행했습니다. 고객은 이를 통해 그간 수년간 누적된 비정형 데이터의 데이터베이스 전환을 마치고, 데이터 분석·예측을 위한 기반 마련에 성공했습니다.
ElasticSearch 와의 손쉬운 통합으로 고가의 라이선스 구매 없이도 문서 파일 검색 기능을 제공할 수 있었습니다. 안내원은 게시글, 사내 Knowledge Base, 첨부 파일, 각종 문서들을 한 곳에서 검색하여 빠르게 고객 응대를 할 수 있었습니다.
파일 업로드 시점에 실시간으로 탐지할 수 있도록 SDK 로 제공, 기존 게시판 기능에 적용하여 사용자 편의성을 유지하면서 개인정보 보호 정책을 반영했습니다. 운영자가 정기·비정기적으로 개인정보 탐지 현황을 파악할 수 있게 대시보드를 제공하고, 오탐 여부를 확인할 수 있도록 탐지된 정보를 제공하는 등 편의 기능도 함께 제공했습니다.
시스템 내의 문서를 실시간 혹은 배치로 분석하여 개인정보를 탐지해야 하는 시스템에서 SDK 형태의 텍스트 추출 도구가 유용하게 도입되었습니다.