1024X576 해상도의 비디오 생성 '스테이블 비디오 디퓨전'
이미지 생성AI 스테이블 디퓨전에서 동영상으로 영역 확대

사진 생성 인공지능(AI) 스테이블 디퓨전(Stable Diffusion)을 개발한 영국 스테빌리티AI(Stability AI)가 동영상 생성 인공지능 ‘스테이블 비디오 디퓨전’(Stable Video Diffusion)을 공개했다. 이미지에서 동영상 생성 AI로 영역을 확대한 것이다.

현재 스테이블 비디오 디퓨전은 일반 버전과 XT 버전 두 개로 나뉜다. 일반 버전은 1초에 14프레임 동영상을, XT 버전은 영화나 드라마 수준의 25프레임 동영상을 만든다. 해상도는 두 버전 모두 1024 x 576이다. 풀 HD보다는 해상도가 다소 떨어진다.

 

동영상 생성 AI도구인 '스테이블 비디오 디퓨전'의 예시. 출처=스테빌리티AI 홈페이지
동영상 생성 AI도구인 '스테이블 비디오 디퓨전'의 예시. 출처=스테빌리티AI 홈페이지

 

스테이블디퓨전의 스테이블 비디오 디퓨전 예제. 출처=스테이블디퓨전

이번에 공개된 스테이블 비디오 디퓨전은 기존 스테이블 디퓨전 수준의 인공지능 성능을 갖고 있다. 스테이블 디퓨전으로 만든 사진이 움직인다고 연상하면 된다.

다만, 한계는 역력하다. 스테이블 비디오 디퓨전은 현재 동영상을 최대 4초까지만 만든다. 카메라 이동은 패닝(옆 방향)으로만 가능하며, 사람의 경우 간혹 얼굴이 선명히 묘사되지 않는다.

이는 스테빌리티 AI가 이번 스테이블 비디오 디퓨전을 연구 목적임을 명확히 밝히고 있는 이유다. 즉, 상업적 활용이 가능한 수준으로의 발전은 좀더 많은 학습을 통한 진전이 필요하다는 것이다.

스테이블 디퓨전은 텍스트 입력만으로 관련 이미지를 손쉽게 생성해주는 AI 도구로 큰 주목을 받아 왔다. 지난해 스테빌리티AI는 벤처캐피탈로부터 1억 달러 규모의  투자를 유치하며, 기업 가치 1조 달러의 유니콘 기업에 올라섰다.

 

저작권자 © 테크데일리(TechDaily) 무단전재 및 재배포 금지