마이크로소프트는 바사-1(VASA-1)이라는 동영상 생성 AI를 공개했는데요.
이는 얼굴 스틸 사진 한 장과 음성 오디오 파일로 사람의 말하고 말할 때 표정 등 얼굴 움직임을 실감 나게 보여줄 수 있는 동영상을 만들어내는 인공지능입니다.
바사-1(VASA-1) 주요 특징
마이크로소프트의 동영상 생성 AI인 바사-1은 사진 속의 사람 얼굴, 머리 움직임, 입 모양, 눈동자 움직임 등을 정교하게 구현하여 자연스럽고 사실적으로 영상을 제작할 수 있어요.
사람의 음성 파일을 제공하면 음성에 맞춰 입 움직임을 동기화하여 마치 실제로 말하는 것처럼 보이게 합니다. 심지어 노래하는 영상도 제작 가능해요.
바사-1은 6,000명 정도의 사람 얼굴 영상을 학습하여 다양한 표정, 입 모양, 눈동자 움직임을 적용했다고 하는데요.
마이크로소프트 바사-1은 512 x 512 해상도 및 초당 45 프레임 속도로 사실적인 영상을 제공한다고 합니다.
바사-1은 가상 교육, 원격 회의, 게임, 엔터테인먼트 등 다양한 분야에 활용될 수 있을 것으로 보입니다.
바사-1(VASA-1) 작동 방식
바사-1 기술 작동 방식은 사용자가 사진을 업로드하면 바사-1은 방대한 양의 얼굴 영상 데이터를 기반으로 학습된 AI 모델에 의해 업로드된 사진을 분석합니다.
바사-1 AI 모델은 사진 분석 시 얼굴, 머리 움직임, 입 모양 등을 생성하여 영상을 제작해 냅니다.
사용자가 본인의 음성 파 일도 업로드할 경우 해당 AI 모델은 음성과 입 움직임을 동기화하여 자연스럽게 보일 수 있도록 영상을 생성합니다.
결론적으로 정리하면,
마이크로소프트에 의하면 바사-1(VASA-1) 동영상 생성 AI를 개발한 이유는 가상 AI 아바타의 시각적이고 정서적인 기술을 생성하는 데 중점을 두고 있다고 전했는데요.
즉 실제 인물을 대상으로 오해의 소지가 있거나 이러한 AI 기술을 악용하는 행위에 대해 반대한다고 강조했습니다.
위조된 딥페이크 같은 영상에 대해 첨단 위조 탐지 기술을 적용해 오고 있다고 하네요. 이러한 위조 탐지 기술이 제대로 적용될 때까지 출시하지 않는다고 합니다.
마이크로소프트와 같이 AI 기술을 개발하는 기업들과 단체 및 개인은 AI에 대한 책임의식 등의 AI 운영 마인드를 갖는 것은 당연한 것 같습니다.