음성인식 비서 넘어선 영상인식 비서 나오나?

[공학저널 김하영 기자] 최근 음성비서 서비스의 인기는 계속해서 상승하고 있다. 그러나 음성 지원을 기반으로 하는 서비스는 청각 장애인이 이용하기에는 어려움이 따른다. 청각 장애인 사용자의 리듬을 인식하기가 어렵고, 음성 보조 장치와 의사소통에도 문제가 있기 때문이다.

하지만 곧 음성인식 비서를 넘어선 영상인식 비서의 등장을 기대해볼 수 있게 됐다. 국내 최초로 인공지능(AI) 기술 기반의 수어 인식 기술이 개발된 것이다.

기존 수어 번역 기술과 달리 머신러닝 기술을 기반으로 AI가 수어의 문장 구조를 이해한 다음 수어 구현자의 손, 얼굴, 입 등에서 특징을 추출해 한국어 문장으로 해석해주는 기술이다.

기존 수어 인식기술은 국어와 수어 간 서로 다른 어순을 고려하지 않고 단순히 수어를 단어로 대체하는 형태로 개발됐다. 즉 ‘어디에 갑니까’라는 문장을 수어로 표현하면 ‘가다 곳 어디’ 순이 되는데 어순 그대로 번역한 것이다.

전자부품연구원(KETI)이 개발한 기술은 청각장애인의 수어 자체를 학습하고 이해하는 AI 기술로 청각장애인이 실생활에 활용할 수 있다는 점에서 차별 점을 갖는다.

기존 기술은 적외선을 이용한 카메라를 사용해 태양광을 차단하거나 수어 제공자의 몸에 센서를 부착해야 하는 등 별도 디바이스가 필요했다.

이와 달리 KETI 기술은 웹캠 같은 일반 카메라만으로도 구동이 가능해 장소에 제약이 없고 저렴한 비용으로 활용할 수 있다.

순환신경망의 일종인 양방향 LSTM(Long Short-Term Memory)을 기반으로 머신러닝을 수행하고 수어 구현자의 손·얼굴·입 등에서 특징점을 추출해 한국어 문장으로 해석해준다. 타 기술 대비 높은 ‘실용성’과 ‘간편성’, ‘정확성’을 자랑한다.

특히 KETI의 기술은 96%까지 정확도를 끌어 올렸다. 비전문가의 수어도 인지하는 정밀한 기술로 어느 누가 수어를 하더라도 인식 수준이 높다. KETI는 이번 기술개발을 위해 수어통역 연구의 국내 최고 기관인 나사렛대학과 협력해 2017년부터 인공지능 학습을 위한 수어 데이터 구축을 진행했다.

현재 인공지능 수어 인식 엔진 개발, 인공지능 수어 데이터 설계인공지능 학습용 수어 데이터셋을 구축‧검증을 마쳤으며 청각장애인의 안전과 관련한 112, 119 신고, 기타 도움 요청에 필요한 필수 단어 419개와, 문장 105개를 대상으로 10명의 수어 구현자를 다각도에서 촬영해 11.5시간 분량의 동영상 10480개를 구축한 상태다.

세계에서 가장 많은 수어 데이터를 확보한 나라인 독일은 DGS말뭉치 프로젝트를 통해 560단어를 5명의 화자가 녹화한 2800개 샘플 데이터와, 7명의 날씨방송 수어영상 45760개의 비디오클립을 확보하고 있다. 미국 또한 약 2700단어 9800샘플 데이터 분량 ASLLVD 구축했고 중국의 경우 수어구현자 8명, 2000단어, 총 24000샘플 동영상 데이터를 포함한 DEVISIGN 구축했다.

또한 영상과 음성처럼 단순한 알고리즘으로 인식과 분류가 어려운 데이터를 분석하기 위해서는 고성능·고전력의 온라인 시스템이 필요하다. 하지만 저전력 플랫폼과 시스템에서도 분석이 가능하도록 기존 저전력 시스템에 저전력 인공지능 모듈을 추가함으로써 복잡한 데이터 분석과 처리가 가능해졌다.

인공지능 수어 통역 기술. 수어는 기존 기술 만 아니라 인공지능도 매우 풀기 어려운 문제에 속한다. KETI 인공지능연구센터는 인공지능 기반의 수어 인식 기술에 있어서는 세계 최고 수준을 자랑한다. 이에 한국공항공사와 협력해 공항 내 안내 시스템에도 적용할 예정이다.

인공지능연구센터는 지난 2017년, 4차 산업혁명에 따라 인공지능과 관련 연구원 차원의 대응을 위해 신설됐다. 인공지능 원천 기술 개발을 통한 원내 타 센터와의 협업·기술 제공을 목적으로 하는 인공지능연구센터는 2017년 시작한 과학기술정보통신부의 지능정보 플래그십 사업(자율지능 디지털 동반자)의 총괄 수행기관으로서 역량을 집중하고 있다.

지능정보 플래그십 사업을 통해 국가적 인공지능 기술 집약적 연구 개발, 특히 데이터, 소스코드를 전면 공개하며 국가 인공지능 기술 발전을 위한 토대를 마련했다는 평가를 받고 있다.

센터에서는 인공지능 원천, 중장기 연구 개발 수행으로 인공지능 원천 기술 개발에 집중하고 있으며 사람의 이해, 인공지능과 사람의 협력 등을 기반으로 한 인공지능 기술의 실생활 적용에 주력하고 있다. 이에 시각, 청각, 언어이해 및 추론 등의 단일지능을 뛰어넘는 복합 인공지능 연구도 함께 진행 중이다.

정혜동 센터장(사진)은 “해당 기술개발을 통해 인공지능이 누구나 불편함이 없도록 세상을 연결하는 가교 역할을 하길 기대한다”며, “앞으로 AI 기반 행동 인식 기술을 지능형 CCTV에 확대 적용해 도시안전에 활용하거나 자율주행차에 탑재해 경찰관 수신호까지 인지할 수 있도록 하는 등 ‘언행’ 모두를 이해하는 고지능 AI 기술로 업그레이드할 계획”이라고 밝혔다.

김하영 기자 다른기사 보기