문서 텍스트 추출 도구

모든 문서에서 텍스트, 표, 기타 데이터를
자동으로 추출

모든 문서에서 텍스트, 표, 기타 데이터를 자동으로 추출

→ 문서의 텍스트를 구조화된 형태로 추출합니다. 검색, 미리보기, 빅데이터 분석 등 전통적인 Use-Case 부터 AI 를 위한 데이터 확보까지 다양한 부분에서 활용 가능합니다. Modern Architecture 기반으로 설계되어 귀하의 플랫폼에

최적으로 배포할 수 있습니다.

→ 문서의 텍스트를 구조화된 형태로 추출합니다. 검색, 미리보기, 빅데이터 분석 등 전통적인 Use-Case 부터 AI 를 위한 데이터 확보까지 다양한 부분에서 활용 가능합니다. Modern Architecture 기반으로

설계되어 귀하의 플랫폼에 최적으로 배포할 수 있습니다.

→ 문서의 텍스트를 구조화된 형태로 추출합니다. 검색, 미리보기, 빅데이터 분석 등 전통적인 Use-Case 부터 AI 를 위한 데이터 확보까지 다양한 부분에서 활용 가능합니다. Modern Architecture 기반으로

설계되어 귀하의 플랫폼에 최적으로 배포할 수 있습니다.

텍스트 추출 도구의 기능들

Developer-Friendly Features

빠르고 정확한
텍스트 추출

빠르고 정확한 텍스트 추출

문서 내의 텍스트를 오류 없이 빠르게
추출할 수 있습니다. 큰 크기의 파일도 문제 없습니다. 추출한 데이터는
데이터베이스, 파일 시스템, 다른 여러 저장소나 시스템으로 쉽게 전달할 수
있습니다.

문서 내의 텍스트를 오류 없이
빠르게 추출할 수 있습니다.
큰 크기의 파일도 문제 없습니다. 추출한 데이터는 데이터베이스,
파일 시스템, 다른 여러 저장소나 시스템으로 쉽게 전달할 수
있습니다.

REST API

텍스트 추출 기능은 REST API 로
제공되어 대부분의 프로그래밍 언어,
플랫폼과 연동할 수 있으며 자동화
도구와도 쉽게 통합할 수 있습니다.

텍스트 추출 기능은 REST API 로
제공되어 대부분의 프로그래밍
언어, 플랫폼과 연동할 수 있으며 자동화 도구와도 쉽게 통합할 수
있습니다.

Table Extraction

문서 내 테이블을 그대로 추출합니다.
테이블로 작성된 회계 보고서, 의료 기록 등 데이터를 CSV, 엑셀로 저장할 수
있으며 미리 정의된 스키마에 맞추어
데이터베이스에 저장할 수도 있습니다.

문서 내 테이블을 그대로
추출합니다. 테이블로 작성된 회계 보고서, 의료 기록 등 데이터를 CSV, 엑셀로 저장할 수 있으며
미리 정의된 스키마에 맞추어
데이터베이스에 저장할 수도
있습니다.

Cloud Native

API 서버는 경량 아키텍처로 설계되어 컨테이너 환경에 효율적으로 배포할 수 있습니다. Health Check, Uptime 등 정보를 제공하여 Container Orchestration 에 용이합니다.

API 서버는 경량 아키텍처로
설계되어 컨테이너 환경에
효율적으로 배포할 수 있습니다. Health Check, Uptime 등
정보를 제공하여 Container Orchestration 에 용이합니다.

JSON Support

JSON 형태로 데이터를 제공합니다. JSON 포맷은 이해하기 쉽고 개발자가 다루기 편하며 다른 시스템과 쉽게
연동할 수 있습니다.

다양한 포맷 지원

아래한글, 마이크로소프트 오피스 문서 등
다양한 문서 파일 뿐만 다양한 압축 포맷 내의
파일에서도 쉽게 텍스트를 추출할 수 있습니다.


[1] 본 제품은 한글과컴퓨터의 HWP 문서 파일(.hwp) 공개 문서를 참고하여 개발하였습니다.

아래한글, 마이크로소프트 오피스 문서 등 다양한 문서 파일 뿐만 다양한 압축 포맷 내의 파일에서도 쉽게 텍스트를 추출할 수 있습니다.


[1] 본 제품은 한글과컴퓨터의 HWP 문서 파일(.hwp) 공개 문서를 참고하여 개발하였습니다.

Microsoft Office

Word

doc(x), dot(x)

PowerPoint

ppt(x), pps(x)

Excel

xls(x), xlsx, xlt(x)

한컴오피스

HWP [1]

Apple iWork (iWork '13은 지원하지 않습니다)

pages

numbers

keys

일반 문서 포맷

pdf

rft

epub

압축 포맷

zip, gz, xz, bzip2, 7z

tar, tar.bz2, tar.gz, tar.xz, etc.

cpio, ar 등

표준 메타데이터 제공 및
구조화된 형태의
텍스트 추출

표준 메타데이터 제공 및
구조화된 형태의
텍스트 추출

파일의 메타데이터는 표준화된 DC (Dublin Core)
메타데이터로 추출합니다. 또한 문서의 특성에 맞게 구조화된 형태로 데이터를 추출할 수 있습니다.

파일의 메타데이터는 표준화된 DC (Dublin Core)
메타데이터로 추출합니다. 또한 문서의 특성에 맞게 구조화된 형태로 데이터를 추출할 수 있습니다.

HWP

PowerPoint

Word

Excel

PDF

EPUB

{
    "name": "한글문서파일형식3.0_HWPML_revision1.2.hwp",
    "basename": "한글문서파일형식3.0_HWPML_revision1.2",
    "ext": "hwp",
    "mimeType": "application/x-hwp-v5",
    "metadata": {
        "dc:title": "개요",
        "dc:creator": "heyzard",
        "dcterms:created": "2014-10-04T05:49:27Z",
        "dcterms:modified": "2014-11-05T08:22:30Z"
    },
    "content": {
        "text": "개요 저작권 (주)한글과컴퓨터(이하 ‘한컴’)는 문서 형식의 개방성과 표준화에 대하여 적극 찬성합니다. 한컴은 ᄒᆞᆫ글 97의 문서 형식을 무상으로 지원한 바 있으며, ᄒᆞᆫ글 2002~2010 문서의 XML 형식은 HwpML에 대해서도 문서 형식을 공개한 바 있습니다. 개방형 문서 표준화 및 코드 관련 위원회에도 적극적으로 참여하여 파일 형식의 표준화와 개방성을 위해 노력해 왔습니다. 또한, 한컴오피스에서 기록물 장기보존 표준 포맷인 PDF/A-1의 지원과 ISO 국제 문서 형식인 ODF와 OOXML 파일 형식의 불러오기와 저장하기를 적극적으로 지원하였습니다. 본 문서를 열람하고자 하는 자라면 누구에게나 제공되는 것이며, 본 문서를 열람하는 것 외에 복사, 배포, 게재 및 본 문서에 기재되어 있는 내용을 사용하고자 하는 자는 한글과컴퓨터의 본 저작권을 충분히 인식하고 동의하여야 합니다. 본 문서를 누구나 열람, 복사, 배포, 게재 및 ..."
    },
    "rendering-options": {
        "output": "json"
    }
}

Case Study

문제 해결 중심 데이터 파이프라인 구축 사례

수십만건의 HWP 문서 내용을 데이터베이스화 하기 위해 표를 엑셀로 변환

라이트스택의 (HWP) SDK 를 통해 수십만건의 아래한글 파일의 표 데이터를 유형별로 분류하고 이를 엑셀 데이터로 변환하는 프로젝트를 수행했습니다.
고객은 이를 통해 그간 수년간 누적된 비정형테이터의 데이터베이스 전환을
마치고 데이터 분석, 예측을 위한 기반 마련에 성공했습니다.

Big Data

Data Migration

기업, 서비스 내 문서를 검색하기 위한 검색엔진 통합

ElasticSearch 와의 손쉬운 통합으로 고가의 라이선스 구매 없이도 문서 파일 검색 기능을 제공할 수 있었습니다. 안내원은 게시글, 사내 Knowledge Base, 첨부 파일, 각종 문서들을 한 곳에서 검색하여 빠르게 고개 응대를 할 수 있었습니다.

Search Engine

ElasticSearch

사용자가 업로드한 문서 내 텍스트를 추출, 실시간으로
개인정보를 탐지

파일 업로드 시점에 실시간으로 탐지할 수 있도록 SDK 로 제공, 기존 게시판 기능에 적용하여 사용자 편의성을 유지하면서 개인정보보호 정책을 반영했습니다. 아울러 서비스 운영자가 정기, 비정기적으로 개인정보 탐지 현황을 파악할 수 있게 대시보드를 제공하고 오탐 여부를 확인할 수 있도록 탐지된 정보를 제공하는 등 편의 기능도 함께 제공했습니다.

Privacy Filtering

Realtime

원문공개시스템의 문서 내 개인정보를 탐지

시스템 내의 문서를 실시간, 혹은 배치로 분석하여 개인정보를 탐지해야 하는 시스템에서 SDK 형태의 텍스트 추출 도구가 유용하게 도입되었습니다.

Privacy Filtering

제품이 더 궁금하신가요?

기능, 구매 방법, 가격 등 제품에 대해서 궁금하신 점이 있으면 편하게 문의해 보세요.