문서 텍스트 추출 도구
텍스트 추출 도구의 기능들
Developer-Friendly Features
REST API
Table Extraction
Cloud Native
JSON Support
JSON 형태로 데이터를 제공합니다. JSON 포맷은 이해하기 쉽고 개발자가 다루기 편하며 다른 시스템과 쉽게
연동할 수 있습니다.
다양한 포맷 지원
Microsoft Office
Word
→
doc(x), dot(x)
PowerPoint
→
ppt(x), pps(x)
Excel
→
xls(x), xlsx, xlt(x)
한컴오피스
HWP [1]
Apple iWork (iWork '13은 지원하지 않습니다)
pages
numbers
keys
일반 문서 포맷
rft
epub
압축 포맷
zip, gz, xz, bzip2, 7z
tar, tar.bz2, tar.gz, tar.xz, etc.
cpio, ar 등
Case Study
문제 해결 중심 데이터 파이프라인 구축 사례
수십만건의 HWP 문서 내용을 데이터베이스화 하기 위해 표를 엑셀로 변환
라이트스택의 (HWP) SDK 를 통해 수십만건의 아래한글 파일의 표 데이터를 유형별로 분류하고 이를 엑셀 데이터로 변환하는 프로젝트를 수행했습니다.
고객은 이를 통해 그간 수년간 누적된 비정형테이터의 데이터베이스 전환을
마치고 데이터 분석, 예측을 위한 기반 마련에 성공했습니다.
Big Data
Data Migration
기업, 서비스 내 문서를 검색하기 위한 검색엔진 통합
ElasticSearch 와의 손쉬운 통합으로 고가의 라이선스 구매 없이도 문서 파일 검색 기능을 제공할 수 있었습니다. 안내원은 게시글, 사내 Knowledge Base, 첨부 파일, 각종 문서들을 한 곳에서 검색하여 빠르게 고개 응대를 할 수 있었습니다.
Search Engine
ElasticSearch
사용자가 업로드한 문서 내 텍스트를 추출, 실시간으로
개인정보를 탐지
파일 업로드 시점에 실시간으로 탐지할 수 있도록 SDK 로 제공, 기존 게시판 기능에 적용하여 사용자 편의성을 유지하면서 개인정보보호 정책을 반영했습니다. 아울러 서비스 운영자가 정기, 비정기적으로 개인정보 탐지 현황을 파악할 수 있게 대시보드를 제공하고 오탐 여부를 확인할 수 있도록 탐지된 정보를 제공하는 등 편의 기능도 함께 제공했습니다.
Privacy Filtering
Realtime
원문공개시스템의 문서 내 개인정보를 탐지
시스템 내의 문서를 실시간, 혹은 배치로 분석하여 개인정보를 탐지해야 하는 시스템에서 SDK 형태의 텍스트 추출 도구가 유용하게 도입되었습니다.
Privacy Filtering