세계적인 IT 자문기관인 가트너는 2019년 인공지능(AI) 사용을 통해 발생하는 기업 이익이 1조9000억 달러(약 2160조5000억 원)에 이를 것으로 전망했다.

실제로 AI 기술은 이미 스마트 스피커, 스마트홈 등 실생활은 물론이고, 자동차에서부터 운송 및 통신에 이르기까지 다양한 산업 및 지역에 걸쳐 적용돼 다양한 비즈니스에서 사용되고 있다.

이러한 수준 높은 인공지능 서비스를 구현하기 위해서는 우수한 인공지능 알고리즘은 물론이고 대량의 학습데이터가 필수적이다. 기존 정부기관에서 제공하는 데이터와 민간에서 보유중인 데이터는 이러한 조건을 만족시키기에는 아직 많이 부족한 것이 사실이다. 기존의 학습데이터 수집 방식은 작업 시간과 비용이 많이 필요하기 때문에, 한정된 예산과 물리적으로 한정된 시간안에서 학습데이터를 충분히 확보하기가 어렵기 때문이다.

이제 인공지능을 위한 학습데이터 확보를 위해 온라인 크라우드 방식을 통해 비용과 작업시간을 절감할 수 있는 AI 학습데이터 수집 가공 서비스를 활용하거나, 각 기관에서 다년간 데이터 전문가들에 의해 확보한 데이터를 각 기관의 합리적인 방식의 협업과 데이터교환을 통해 빠른 시간에 고품질의 학습데이터를 생산하여 서로 공유하는 방안등을 적극적으로 고려해야 한다.

예를 들어, 딥러닝기반 한글 자연어처리를 위한 알고리즘 구현을 위해서는 한글 말뭉치가 어마어마하게 많은 양이 필요하다. 영어는 2000억개 이상, 일본어 200억개 이상 확보된 말뭉치DB로 이제 자연어 처리기반의 의미 분석과 해석에 대해 월등한 인식률을 보이고 있다. 그러나 컴퓨터 기준으로 영어보다 훨씬 학습하기 어려운 한글은 이들에 비해 말뭉치가 현저하게 적은 상태이다. 이를 극복하기 위해서는 한글말뭉치를 보유한 기관, 업체들이 서로 협업하여 말뭉치DB를 공유해야 학습속도와 정확도를 단기간에 끌어올릴 수가 있어야 AI선진국들의 서비스를 따라잡을 수가 있다.

물론 각 기관들은 이런 방법을 통해 확보한 데이터들을 전처리 자동화 시스템(Data preprocessing)을 통해 개발자가 사용하기 쉬운 도구를 제공하여 데이터작업자들이 단시간에 기존 대비 많은 학습데이터를 생산할 수 있게 하고 자동화된 검수 시스템을 통해 데이터 작업 결과물에 대한 품질을 높여 검수 전문가를 통해 검증된 객관적이고 클린한 데이터만 AI학습에 활용되도록 해야 한다.

또한, 더욱 중요한 것은 기관 내 철저한 보안 프로세스로 고객 정보 등의 정보보호를 최우선으로 해야 하며 학습데이터가 외부로 유출되지 않도록 인공지능 프로젝트 완료 후에는 완전히 폐기하는 프로세스를 따르도록 가이드해야 한다.

이제 데이터는 AI의 근본이며 반드시 공유되어야 한다. 더 늦기 전에.

김남현 대표 컨설턴트
김남현 대표 컨설턴트

 

저작권자 © 테크데일리(TechDaily) 무단전재 및 재배포 금지