UPDATED. 2019-06-27 12:39 (목)
ETRI, AI 서비스 개발 돕는 한국어 최첨단 언어모델 공개…"구글 기술보다 성능 4.5% 우수"
ETRI, AI 서비스 개발 돕는 한국어 최첨단 언어모델 공개…"구글 기술보다 성능 4.5% 우수"
  • 윤종현 기자
  • 승인 2019.06.11 11:51
  • 댓글 0
이 기사를 공유합니다

AI 비서, AI 질의응답 등 한국어 처리 다수 분야 활용 가능

한국어를 더 잘 알아듣는 인공지능(AI) 서비스 기술이 국내 연구진에 의해 개발됐다.

이에 따라 AI 비서, AI 질의응답, 지능형 검색 등 한국어를 활용한 인공지능 서비스 개발이 한층 고도화될 것으로 전망된다.

한국전자통신연구원(ETRI)은 한국어의 의미를 최소 단위까지 고려하는 자연어 처리 모델‘코버트(KorBERT)’를 홈페이지를 통해 11일 공개했다.

연구진이 공개한 모델은 두 종류다. 구글의 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만든 언어모델과 한국어의‘교착어’특성까지 반영해 만든 버전이다.

특히 이 기술은 올해 3월 한컴오피스 지식검색 베타버전에 탑재됐다. 하반기에는 ETRI의 언어모델을 활용한‘법령분야 질의응답 API’를 추가 공개하고‘유사 특허 지능형 분석 기술’도 출시를 목표하고 있다.

언어처리를 위한 딥러닝 기술을 개발하기 위해서는 텍스트에 기술된 어절을 숫자로 표현해야 한다. 이를 위해 그동안 언어를 활용한 서비스를 개발하는 기관에서는 주로 구글의 다국어 언어모델‘버트’(BERT)를 사용했다.

버트는 문장 내 어절을 한 글자씩 나눈 뒤 앞뒤로 자주 만나는 글자끼리 단어로 인식한다. 이 방식은 지난해 11월 처음 공개됐을 때 언어처리 11개 분야에서 많은 성능 향상을 이뤄 주목을 받았다.

구글은 40여 만 건의 위키백과 문서 데이터를 사용해 한국어 언어모델을 개발했다. 그러나 약 512개 이상의 한국어 단어가 들어간 문서를 한 번에 처리하지 못하는 한계가 있었다.

ETRI 연구진은 여기에 23GB에 달하는 지난 10년간의 신문기사와 백과사전 정보를 더해 45억개의 형태소를 학습시켜 구글보다 많은 한국어 데이터를 기반으로 언어모델을 개발했다.

단순히 입력한 데이터 양만을 늘리는 것은 언어모델 고도화에 한계가 있다. 아울러, 한글은 다른 언어와 달리 어근에 조사가 붙는 교착어다. 이에 연구진은 한국어의 의미 최소 단위인 형태소까지 고려해 한국어특성을 최대한 반영한 언어모델을 만드는데 심혈을 기울였다.

(좌측부터) 배용진 연구원, 임준호 선임연구원 등 ETRI 연구진이 코버트(KorBERT) 작동 원리를 설명하고 있다.
(왼쪽부터) 배용진 연구원, 임준호 선임연구원 등 ETRI 연구진이 코버트(KorBERT) 작동 원리를 설명하고 있다.

연구진은 이번 한국어에 최적화된 언어모델이 전처리 과정에서 형태소를 분석한 언어모델, 한국어에 최적화된 학습 파라미터, 방대한 데이터 기반 등이 구글과 차별성 있는 특징이라고 설명했다.

개발된 언어모델은 성능을 확인하는 5가지 기준에서 구글이 배포한 한국어 모델보다 성능이 평균 4.5% 가량 우수했다. 특히 단락 순위화(Passage Ranking) 기준에서는 7.4%나 높은 수치를 기록했다.

연구진의 언어모델을 활용하면 서비스 성능 및 경쟁력을 높일 수 있어 딥러닝 연구, 교육 등의 목적으로 대학, 기업, 기관의 개발자들의 많은 활용이 이뤄질 것으로 예측된다.

개발된 언어모델은 대표적인 딥러닝 프레임워크인 파이토치(PyTorch)와 텐서플로우(Tensorflow) 환경 모두에서 사용 가능하며 공공인공지능 오픈 API‧데이터 서비스 포털에서 쉽게 찾아볼 수 있다.

엑소브레인 사업의 총괄책임자인 ETRI 김현기 박사는“한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답 등의 다양한 한국어 딥러닝 기술의 고도화가 가능할 것으로 기대된다”고 말했다.

김지원 과학기술정보통신부 인공지능정책팀 팀장도“AI 허브를 통해 정부 R&D를 통해 개발되는 양질의 인공지능 SW API 및 데이터를 공개함으로써 개방형 혁신을 촉진할 수 있도록 노력하겠다”고 밝혔다.

ETRI 정보통신전시관에서 연구진들이 가상 엑소브레인 퀴즈대결 기술을 시연하는 모습
ETRI 정보통신전시관에서 연구진들이 가상 엑소브레인 퀴즈대결 기술을 시연하는 모습

 

현재 구글과 연구진이 언어모델 개발에 활용한 BERT 방식은 약 512개 이상의 단어가 들어간 문서를 한 번에 처리하지 못한다. 향후 연구진은 한 번에 더욱 많은 언어 데이터를 처리하고 검증 방법을 고도화한 모델을 개발할 계획이다.

이번 연구개발에 근간이 된‘엑소브레인 사업’은 2016년 EBS 장학퀴즈 우승, 기술이전 및 사업화 39건, 국내외 표준화 44건, 특허출원 70건 등의 성과를 낸 바 있다.

특히 ETRI는 2017년도부터 언어지능 기술 오픈 API 및 기계학습 데이터를 공개했다. 지금까지 1300만 건 이상 활용됐고 산업체(42%), 대학교(34%), 개인(20%), 기타(4%)의 개발자들이 사용하고 있다. 또 은행권·지자체를 대상으로 인공지능 대국민 서비스 등을 개발하며 국내 인공지능 분야의 산업화 촉진을 추진하고 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • 서울시 영등포구 여의서로 43 (여의도동 한서리버파크 빌딩) 916호
  • 대표전화 : 02-780-8101~2
  • 팩스 : 02-780-8103
  • 청소년보호책임자 : 윤 종현
  • 법인명 : 테크데일리 주식회사
  • 제호 : 테크데일리(TechDaily)
  • 등록번호 : 서울 아 05225
  • 등록일 : 2018-06-01
  • 발행일 : 2018-06-01
  • 발행인 : 문 창남
  • 편집인 : 문 창남
  • 테크데일리(TechDaily) 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다.
  • Copyright © 2019 테크데일리(TechDaily). All rights reserved. mail to news@techdaily.co.kr
ND소프트