비정형 데이터 추출·분석 손쉽게… 효율·정확도는 UP
비정형 데이터 추출·분석 손쉽게… 효율·정확도는 UP
  • 김하늬 기자
  • 승인 2024.05.03 08:58
  • 댓글 0
이 기사를 공유합니다

[공학저널 김하늬 기자] AI 비즈니스가 각광받으면서 데이터 분석은 점차 중요한 요소가 되고 있다.

그간 이미지와 영상, 문서처럼 형태와 구조가 복잡한 비정형 데이터는 정형 데이터보다 분석이 까다로워 한동안 데이터로서의 가치를 인정받지 못했다.

하지만 최근 AI 기술의 발달로 비정형 데이터를 손쉽게 분석하고 이를 활용할 수 있는 데이터로 가공하는 것이 가능해졌다.

다양한 기술 중 대표적으로 이미지 형식의 문자를 인식해 기계가 읽을 수 있는 포맷으로 변환하는 광학 문자 인식(OCR) 기술은 오랜 기간 발전돼 왔으며, 최근 들어 AI 기술을 바탕으로 큰 기술적 진보를 이루고 있다.

특히 이러한 OCR을 기반으로 개발된 ㈜젠티의 문서 내 데이터 추출기술은 이제 단순한 디지털 변환을 넘어, 자연어처리기술을 활용해 텍스트 간의 의미 있는 관계를 파악하고 문서에서 주요 데이터를 추출할 수 있다는 점에서 주목받고 있다.

이와 함께, 젠티는 다양한 Key-Value 추출모델을 활용해 데이터 추출 작업에서 높은 정확도를 제공하며, 이를 통해 복잡한 데이터 집합 속에서도 가장 중요한 정보를 효과적으로 파악할 수 있다.

이 기술은 이미지 내의 텍스트 위치를 파악하고 해당 글자를 읽어내며 각 텍스트 간의 관계를 파악해 원하는 형태의 구조화된 데이터(Structured text)로 변환해 준다.

또한, 문서의 구성요소 중 대표적인 비정형 데이터인 도표(차트), 표 내의 정보를 컴퓨터가 이해할 수 있는 구조화된 데이터로 변환할 수 있다. 100 페이지가 넘는 복수의 문서들도 한 번에 데이터 추출이 가능하도록 최적화된 방법으로 문서 데이터를 처리할 수 있다는 점도 장점으로 손꼽힌다.

이러한 젠티의 기술력은 문서 내 데이터 추출기술뿐만 아니라 자연어 처리기술 또한 눈여겨볼 만하다.

젠티는 한국어 언어모델을 자체적으로 개발하고 학습하는 기술을 보유하고 있으며, 이를 위해 다양한 학습 단계를 거쳐 자체 언어모델을 구축했다는 점이 차별화되고 있다.

학습 단계는 사전 학습, 도메인 특화 학습, 그리고 미세 조정 학습 등 단계로 구성된다.

우선 영어와 한국어로 구성된 대규모 말뭉치 데이터를 기반으로 ‘사전 학습 모델(Foundation Model)’이 구축되며, 이 단계는 모델이 광범위한 지식을 습득하는 단계라고 할 수 있다.

‘도메인에 따른 산업 특화 모델’은 건설, 엔지니어링, 금융, 법률 등 특정 산업에 대한 데이터를 활용해 학습한다. 이는 해당 분야에서 최고 수준의 모델(GPT 4 등)과 비교했을 때 90% 이상의 성능을 제공하며, 이러한 모델들은 비용 대비 우수한 성능을 제공함으로써 높은 효율을 자랑한다.

또한, 젠티는 객관식 답안을 선택하거나 특정 어투로 응답하게 하는 등의 특정 작업을 수행할 수 있도록 ‘미세 조정(Fine tuning) 기술’을 활용하고 있다. 이를 통해 국내에서 최고 수준의 On-premise 기업 전용 거대언어모델을 제공하는 것이 특징으로 손꼽힌다.

젠티는 이러한 언어모델을 활용해 정확한 응답을 제공하는 챗봇을 개발하거나, 특정 문서(규정, 매뉴얼 등)를 기반으로 답변하는 서비스를 구현하고 있다.

이밖에도 인간의 언어(자연어)를 이해해 컴퓨터가 처리할 수 있는 언어로 변환해 주는 기술 Text2SQL 기술을 보유하고 있으며, 이러한 기술은 많은 양의 데이터베이스를 인간의 언어(자연어)로 정확하게 조회할 수 있는 강력한 기능이라고 할 수 있다.

이러한 기술들을 바탕으로 현재 젠티는 문서 내 데이터 추출기술을 기반으로 한 지능형 문서처리 솔루션 ‘DOCUN(도쿤)’과 거대언어모델 및 관련 솔루션을 개발하는 ‘JALLAM(잘남)’서비스에 주력하고 있다.

젠티는 DOCUN(도쿤)을 주력으로 사업을 확장해 나가고 있으며, 과학기술정보통신부에서 주최한 ‘인공지능 그랜드 챌린지(AGC)’에서 문자인지, 자연어처리 분야에서 지속적으로 1위를 석권하며 3년 연속 과학기술정보통신부 장관상을 수상한 국내 최고 수준의 AI 기술력을 지닌 인공지능 연구개발 스타트업이다.

젠티 최은진 대표이사(사진)는 “현재 필요로 하는 정보 추출기술과 거대언어모델에 관한 최신 연구를 진행 중이다. 더 나아가, 거대언어모델을 기반으로 한 논리 엔진을 실제 업무에 적용하고자 하는 연구도 수행하고 있다”며 “이는 GPT 4에 수리 엔진을 결합해 성능을 대폭 향상한 것과 유사하며, 이러한 접근 방식은 거대언어모델이 가지는 한계를 보완할 수 있을 것으로 기대한다”고 말했다.

그는 이어 “인공지능 기술은 예상보다 훨씬 빠른 속도로 발전하고 있다. 당사의 강점은 솔루션 개발과 동시에 최신 기술 연구를 지속하는 것”이라며 “작은 중소기업에 연구와 서비스를 함께 제공하기는 쉽지 않지만, 이러한 노력이 스타트업이 시장에서 살아남는 데 필수적이라고 믿고 있다”고 덧붙였다.

이를 위해 젠티는 현대엔지니어링과 고난도의 엔지니어링 비정형 문서를 자동 변환해 주는 프로젝트를 2021년부터 진행해왔으며 올해 사내 상용화를 목표로 하고 있다. 또한, 작년 4월 고성능 컴퓨팅 자원을 확보해 거대언어모델 학습을 시작할 때부터 플랜트 특화 거대언어모델 개발 관련 공동연구를 하며 지속적인 협업을 진행 중이다.

젠티는 지금까지 특정 도메인이나 기업 고객에 맞는 맞춤형 모델들로 고객의 니즈를 충족시켜 왔지만, 이제는 통합형 업무 혁신 AI 서비스 개발을 목표로 하고 있다. 그리고 이러한 전환의 핵심은 거대언어모델이 될 전망이다.

최 대표는 “젠티는 AI 기술의 발전을 통해 업무 혁신의 변곡점이 되는 의미 있는 제품을 만들어 산업발전에 이바지하고 싶다. 특히 올해는 거대언어모델 및 관련 서비스 개발로 의미 있는 성장을 이룰 수 있을 것”이라며 “투자금 없이 자체 솔루션 개발로 지속적인 수익을 내고 있으며 이 수익을 직원들과 나누며 고객사와 개발사 임직원 모두가 행복한 ‘스타트업의 새로운 본보기’를 만드는 것을 목표로 하고 있다”고 전했다.

 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.