연구팀에서 개발한 '관계 보존 학습' 방법론. 기존 방법론과 달리 데이터 증강 기법을 통해 생성된 두 개의 그래프를 기반으로 노드들 사이의 관계를 보존하면서 모델이 학습된다.
연구팀에서 개발한 '관계 보존 학습' 방법론. 기존 방법론과 달리 데이터 증강 기법을 통해 생성된 두 개의 그래프를 기반으로 노드들 사이의 관계를 보존하면서 모델이 학습된다.

소셜 네트워크 분석, 추천시스템 등 최근 다양한 분야에서 그래프 데이터 의 중요성이 대두되면서 그래프 신경망(Graph Neural Network) 기술 활용 서비스가 급속히 증가하고 있다.

이를 위해 심층 학습 모델 훈련이 필요한데 모델 훈련 시 데이터가 충분하지 않은 상황을 효과적으로 타개하는 방법의 필요성이 대두되고 있다.

KAIST는 산업및시스템공학과 박찬영 교수 연구팀이 데이터의 레이블이 없는 상황에서도 높은 예측 정확도를 달성할 수 있는 새로운 그래프 신경망 모델 훈련 기술을 개발했다고 25일 밝혔다.

연구팀이 개발한 기술은 그래프 신경망 모델에서 정점들 사이의 관계를 보존해 정점의 레이블이 없는 상황에서 모델을 훈련시켜 높은 예측 정확도를 달성할 수 있게 해준다.

이번 연구는 최고권위 국제학술대회 `정보지식관리 콘퍼런스(CIKM) 2022'에서 올 10월 발표될 예정이다.

기존 연구에서는 정점의 레이블이 없는 상황에서 정점에 대한 표상을 훈련하기 위해 표상 공간 내에서 자기 자신을 제외한 다른 정점들과의 유사도가 작아지도록 훈련을 한다.

예를 들어 소셜 네트워크에 A, B, C 라는 사용자가 존재할 때 A, B와 C가 표상 공간에서 서로 간의 유사도가 모두 작아지도록 모델을 훈련하는 것이다.

이때 박 교수팀이 착안한 점은 그래프 데이터가 정점 간의 관계를 나타내는 데이터이므로 정점 간의 관계를 포착하도록 정점의 표상을 훈련할 필요가 있다는 점이었다.

즉 A, B와 C 서로 간의 유사도가 모두 작아지게 하는 훈련 메커니즘과는 달리 실제 그래프상에서는 이들이 연관이 있을 수 있다는 점이다.

연구팀이 제안하는 관계 보존 학습 모델의 구조
연구팀이 제안하는 관계 보존 학습 모델의 구조

따라서 A, B와 C 사이의 관계를 긍정/부정의 이진 분류를 통해 표상 공간에서 유사도가 작아지도록 훈련을 하는 것이 아닌 이들의 관계를 정의해 그 관계를 보존하도록 학습하는 모델을 연구팀은 개발했다.

연구팀은 정점 간 관계를 기반으로 정점의 표상을 훈련함으로써 기존 연구가 갖는 엄격한 규제들을 완화해 그래프 데이터를 더 유연하게 모델링했다.

연구팀은 이 학습 방법론을 `관계 보존 학습'이라고 명명했으며, 그래프 데이터 분석의 주요 문제(정점 분류, 간선 예측)에 적용했다.

그 결과 최신 연구 방법론과 비교했을 때 정점 분류 문제에서 최대 3% 예측 정확도를 향상했고, 간선 예측 문제에서 6%의 성능 향상, 다중 연결 네트워크의 정점 분류 문제에서 3%의 성능 향상을 보였다.

박찬영 교수도 "이번 기술은 그래프 데이터상에 레이블이 부재한 상황에서 표상 학습 모델을 훈련하는 기존 모델들의 단점들을 `관계 보존`이라는 개념을 통해 보완해 새로운 학습 패러다임을 제시하여 학계에 큰 파급효과를 낼 수 있다ˮ고 말했다.

저작권자 © 테크데일리(TechDaily) 무단전재 및 재배포 금지