최대 1분 분량…여러 캐릭터와 다양한 움직임, 배경 결합한 생생 장면 생성
레트팀 등 대상 테스트 시작...성적 표현 차단 유명인 초상권 보호 등 조치

오픈AI가 텍스트 입력으로 영상을 만드는 새로운 인공지능(AI) 모델 ‘소라(Sora)’를 공개했다.

15일(현지시간) 오픈AI는 홈페이지를 통해 텍스트투비디오(T2V) AI 모델 ‘소라’는 텍스트 프롬프트로 최대 1분 분량의 동영상을 제작할 수 있다고 밝혔다.

동영상은 사용자의 텍스트 입력에 충실하면서도 높은 시각적 품질을 유지한 영상이라는 것이 오픈AI측의 설명이다. 실제 이날 오픈AI는 소라를 통해 만든 수십개의 동영상 샘플을 입력한 프롬프트 문구와 함께 공개했다.

 

오픈AI의 비디오 생성 AI모델 '소라'가 만들어 낸 영상의 스틸 캡처. 스타일리시한 여성이 도쿄 거리를 거니는 모습을 표현하라는 프롬프트로 생성된 영상이다. 출처=오픈AI
오픈AI의 비디오 생성 AI모델 '소라'가 만들어 낸 영상의 스틸 캡처. 스타일리시한 여성이 도쿄 거리를 거니는 모습을 표현하라는 프롬프트로 생성된 영상이다. 출처=오픈AI

 

오픈AI는 “이번 AI모델 소라는 취약분석을 하는 레드팀과 비주얼 아티스트, 디자이너 및 영화 제작자 등을 대상으로 피드백을 얻기 위한 테스트가 진행된다”고 밝혔다.

소라는 여러 캐릭터와 특정 유형의 움직임, 피사체 및 배경의 정확한 묘사가 이뤄지는 복잡한 장면을 만들어 내며, 특히 언어에 대한 깊은 이해를 바탕으로 프롬프트를 정확하게 해석해 낸다. 이를 통해 생생한 감정을 표현하는 매력적인 인물 등의 캐릭터를 생성해 낸다는 것이다.

오픈AI는 소라의 약점도 함께 언급했다. 대표적인 것이 복잡한 장면의 물리적인 현상을 정확하게 표현하지 못한다는 것으로, 예를 들어 쿠키를 한 입 베어 물었을 때 쿠키에 남아 있어야 하는 물린 자국이 없다는 점 등이다.

또한 새로운 AI모델인 소라는 프롬프트가 제시한 세부 공간정보, 예를 들어 왼쪽과 오른쪽에 대한 혼동을 일으키기도 하며, 특정 카메라 궤적을 따라가는 것과 같은 시간의 흐름을 표현하는 데도 어려움이 있다고 오픈AI측은 설명했다.

 

오픈AI가 '소라'의 단점으로 제시한 물리적인 공간 해석의 오류의 예로 제시한 영상 화면. 출처=오픈AI
오픈AI가 '소라'의 단점으로 제시한 물리적인 공간 해석의 오류의 예로 제시한 영상 화면. 출처=오픈AI

 

그럼에도 이번 홈페이지를 통해 공개된 영상은 매우 사실적이며, 놀라운 영상 품질을 보여주고 있어 소라가 정식 출시될 경우 큰 반향을 일으킬 것으로 보인다.

오픈AI는 최근 AI 합성 영상 배포의 문제점으로 떠오른 안전 문제에 대해서도 몇 가지 중요한 조치를 취하고 있다.

우선, 텍스트 분류기를 통해 극단적인 폭력이나 성적인 콘텐츠, 혐오스러운 이미지, 유명인 초상 등을 요청하는 프롬프트는 거부된다. 생성하는 모든 동영상의 프레임을 검토해 사용자에게 영상을 생성해 주기 전에 이 같은 안전정책을 준수했는지도 확인한다.

오픈AI는 ‘콘텐츠 출처 및 진위 확인을 위한 연합(C2PA)’의 메타데이터를 영상내에 내장시켜 AI를 통해 만들어진 영상임을 명확하게 표시할 계획임도 다시 한번 밝혔다.

이와 함께 오픈AI는 기술적 향상과 관련 “AI 모델이 한 번에 많은 프레임을 미리 볼 수 있도록 해, 피사체가 일시적으로 시야에서 벗어나도 동일하게 유지되도록 하는 어려운 문제를 해결했다”고 밝혔다.

새로운 AI모델 소라는 기존 스틸 이미지는 물론 비디오를 가져와 확장하거나 누락된 프레임을 채운다.

관련기사

저작권자 © 테크데일리(TechDaily) 무단전재 및 재배포 금지