소라 AI vs 빙 AI 동일한 텍스트 프롬프트 입력으로 결과 비교했더니?

오픈 AI가 개발한 동영상 만들어주는 소라(Sora) AI 공개 이후 뜨거운 관심이 집중되고 있어 보입니다. 소라 AI로 만들어진 애니메이션 등 동영상 결과물이 진짜 사람이 만든 결과물처럼 보인다는 것이죠.

소라(Sora) AI는 텍스트-비디오 모델(Text-to-Video)인데요. 즉 텍스트 프롬프트를 입력하면 최대 1분 길이의 동영상을 생성할 수 있습니다.

물론 텍스트 프롬프트에 메시지가 얼마나 자세하게 작성되었냐에 따라 결과물의 정교함이 달라지겠죠.

소라(Sora) AI와 빙(Bing) AI에 동일한 텍스트 프롬프트를 입력하여 결과물을 한 번 비교해 보았습니다.

엄밀히 말하면 빙(Bing) AI 즉 빙 이미지 크리에이터를 통해 소라 AI가 예제 비디오를 만들어낸 동일한 텍스트 프롬프트를 그대로 입력하여 이미지 생성을 해 보았습니다.

참고로 마이크로소프트 빙 이미지 크리에이터는 달리 3(DALL-E 3) 기반으로 구축된 인공지능이죠. 달리 3(DALL-E 3) 또한 오픈 AI가 개발한 이미지 생성 AI입니다.

그래서 이 둘의 AI 엔진이 유사한 부분이 있을 것이라고 저자는 생각했죠.

소라(Sora) AI vs. 빙(Bing) 이미지 크리에이터 AI 결과물 비교

소라(Sora) AI는 동영상을 만들어내는 AI이고 빙(Bing) 이미지 크리에이터는 이름에서 알 수 있듯이 이미지를 생성해 내는 AI입니다.

소라(Sora) AI 공식 홈페이지 및 유튜브에 보면 예제 동영상이 꽤 업로드되어 있는데요. 각각의 동영상 결과물 아래에는 어떤 텍스트 프롬프트로 입력하여 이러한 결과물이 나오게 되었는지 기재되어 있습니다.

위의 4개 사진은 오픈AI 소라 AI 홈페이지에서 게재되어 있는 예제 동영상 중에서 달마시안 관련 비디오, 몬스터 애니메이션, 찻 잔 속 해적선, 언론에서 가장 많이 배포되어 잘 알려진 도쿄 거리의 여인 비디오의 일부를 캡처한 것인데요.

아래 빙(Bing) 이미지 크리에이터 AI가 생성한 이미지를 보면 얼추 비슷해 보이죠?

위의 달마티안 사진은 소라 AI가 만들어낸 달마티안 비디오에 적용한 동일한 텍스트 프롬프트로 생성해 낸 이미지입니다.

텍스트 프롬프트는 소라 AI 홈페이지에 기재된 대로 영어 텍스트를 입력하여 나온 결과물인데요.

한국어로 번역을 하면 다음과 같은 텍스트 프롬프트를 통해 얻어낸 비디오인 것이죠.

'카메라가 이탈리아 부라노의 화려한 건물들을 정면으로 바라보고 있고 사랑스러운 달마티안이 1층 건물의 창문을 통해 바라고 보고 있는 장면입니다. 많은 사람들이 건물 앞의 운하 거리를 따라 걷고 자전거를 타고 있습니다.'

위의 몬스터 이미지 또한 빙(Bing) 이미지 크리에이터 AI를 통해 나온 결과 이미지인데요. 텍스트 프롬프트는 다음과 같아요.

'애니메이션 장면에는 녹는 빨간 양초 옆에 무릎을 꿇고 있는 짧고 푹신한 몬스터가 클로즈업되어 있습니다. 아트 스타일은 조명과 질감에 초점을 맞춘 3D이며 사실적입니다.

괴물이 눈을 크게 뜨고 입을 벌린 채 불꽃을 바라보는 모습이 그림의 분위기를 경이로움과 호기심으로 가득 채우고 있습니다. 그 포즈와 표정은 마치 처음으로 주변 세계를 탐험하는 것처럼 순수함과 장난기를 전달합니다.

따뜻한 색상과 드라마틱한 조명의 사용은 이미지의 아늑한 분위기를 더욱 돋보이게 합니다.'

위의 몬스터 관련 비디오를 만들어낸 텍스트 프롬프트를 보면 아주 디테일하게 묘사하기 위한 메시지를 입력했네요.

위의 찻 잔 속 해적선은 소라 AI 홈페이지에서 영상 보면 아시겠지만 그와 상당히 유사하게 빙 AI가 위의 이미지를 만들어냈습니다. 본 원래 텍스트 프롬프트는 다음과 같습니다.

'두 척의 해적선이 커피 한 잔 속에서 항해하면서 서로 싸우는 모습을 사실적으로 클로즈업한 영상입니다.'

이는 다소 짧은 듯한 메시지이지만 말 그대로 사실적으로 표현해 냈습니다. 놀랍죠?

위의 이미지는 많은 분들이 언론매체를 통해 본 소라 AI가 만들어낸 도쿄 거리를 걷고 있는 여인 비디오와 거의 동일해 보이기도 합니다.

다만 실제 소라 AI가 만든 동영상에는 동양인으로 보이지만 빙(Bing) AI가 만든 위의 이미지를 보면 서양인으로 보이죠? 이런 정도의 차이가 있네요.

본 영상을 만들어낸 텍스트 프롬프트는 다음과 같습니다.

'스타일리시한 여성이 따뜻하고 빛이 나는 네온사인과 애니메이션 도시 간판으로 가득한 도쿄 거리를 걷고 있습니다. 그녀는 검은색 가죽 재킷, 빨간색 긴 드레스, 검은색 부츠를 신고 검은색 지갑을 들고 있습니다.

그녀는 선글라스와 빨간 립스틱을 착용하고 있습니다. 그녀는 자신감 있고 자연스럽게 거리를 걷고 있습니다. 거리는 축축하고 반사되어 다채로운 조명의 거울 효과를 만들어내고 있으며 많은 보행자들이 주변에서 걷고 있습니다.'

결론적으로 정리하면,

오픈 AI가 개발한 소라(Sora) AI는 Text-to-Video AI 모델로 텍스트 프롬프트를 통해 현실적이고 상상력이 풍부한 비디오를 만들어 낼 수 있습니다.

소라(Sora) AI와 빙(Bing) 이미지 크리에이터 AI의 결과물을 위와 같이 비교해 보았는데요. 각각의 동영상과 이미지 내의 개체들은 조금씩 다르지만 전체적인 아트 분위기가 비슷하다고 느꼈습니다.

참고로 빙(Bing) 이미지 크리에이터 AI는 달리 3(DALL-E 3) 기반으로 구축된 AI 모델로 이 또한 오픈 AI가 개발한 엔진입니다.

오픈AI 동영상 만들어주는 소라(Sora) 어떤 AI일까?

오픈 AI가 개발한 소라(Sora)는 텍스트 프롬프트를 기반으로 사실적이고 상상력이 풍부한 동영상을 만들어주는 AI 모델입니다. 동영상 생성 AI 소라(Sora)는 딥러닝 기술을 사용하여 텍스트 설명을

8terabyte.com

애플 동영상 만들어주는 AI 도구 키프레이머(Keyframer) 주요 기술 및 특징

키프레이머(Keyframer)는 애플이 개발한 동영상을 만들어주는 AI 도구입니다. 엄밀히 말하면 대형 언어 모델(LLM)을 활용하여 단순한 텍스트 프롬프트만으로 이미지를 애니메이션으로 만들어주는

8terabyte.com

캔바(Canva) 동영상 생성 AI 도구 어떤 AI인가?

캔바(Canva)의 AI 동영상 제작 도구는 텍스트를 입력하면 AI가 자동으로 동영상을 만들어 줍니다. 캔바 동영상 생성 AI는 오픈 AI 소라(Sora)와는 다르게 일반 사용자가 모두 쉽게 무료로 사용할 수 있

8terabyte.com

이미지 생성 AI 달리(DALL-E) 2 vs 달리(DALL-E) 3 비교

달리(DALL-E)는 오픈 AI에서 개발한 이미지 생성 AI를 말합니다. 달리 3이 챗GPT에 통합되어 챗GPT가 더욱 강력해졌고 다양한 기능을 선보이게 됐다고 하는데요. 달리 2와 비교했을 때 달리 3의 새로운

8terabyte.com

저작자표시 비영리 변경금지 (새창열림)

소라 AI vs 빙 AI 동일한 텍스트 프롬프트 입력으로 결과 비교했더니?

소라(Sora) AI vs. 빙(Bing) 이미지 크리에이터 AI 결과물 비교

티스토리툴바