적용 후 유해 콘텐츠 탐지율 38% 업, 오탐지율은 19.4% 다운

구글이 스팸 메일과 피싱, 부적절한 덧글과 사기 등 유해 콘텐츠를 자동 필터링하는 기술 RETVec(Resilient & Efficient Text Vectorizer)를 공개했다.

구글 RETVec는 문자 인코더와 증강 기반 훈련 체계, 매트릭 학습 프로그램을 활용해서 텍스트 기반 유해 콘텐츠를 구분하고 분류한다. 피싱이나 사기 문자는 대부분 사용자를 그럴싸하게 속일 만한 문구로 만든다. 스팸 메일은 메일 시스템의 필터링을 막으려고 무의미한 문자 혹은 일반 문자 속에 교묘하게 메시지를 넣어 만든다.

 

구글 RETVec이 지메일에서 스팸 메일을 걸러낸 결과. 출처=구글 블로그
구글 RETVec이 지메일에서 스팸 메일을 걸러낸 결과. 출처=구글 블로그

 

구글 RETVec는 기존 필터링 기술에 문자 특화 기계학습 모델을 더해 유해 콘텐츠 감지 확률을 높였다. 동시에 소모 자원을 줄여 애플리케이션이나 웹 서비스, 기기 자체에 펌웨어 방식으로 적용 가능하도록 개선했다.

구글은 RETVec 적용 후 유해 콘텐츠 탐지율을 38% 높였고, 오탐지율은 19.4% 줄였다고 밝혔다. 연산 장치의 사용량도 83% 줄었다. 구글은 이 결과와 RETVec를 오픈 소스화, 깃허브에서 공개했다.

저작권자 © 테크데일리(TechDaily) 무단전재 및 재배포 금지