본문 바로가기
카테고리 없음

진화하는 멀티 모달 AI 이해하기

by tech블로거 2023. 9. 27.

멀티 모달 AI가 무엇일까요? 멀티 모달 AI가 진화하고 있습니다. 즉 이 말은 AI가 인간의 두뇌와 비슷해지고 있다는 것입니다. 멀티 모달 AI, 멀티 모달 기능 탑재된 AI, 멀티 모달 LLM 등 이 모든 말들이 AI가 인간이 느끼고 생각하고 말하는 것에 점점 가까워지고 있다는 것을 의미합니다. 멀티 모달 AI에 대해 좀 더 정리해 보겠습니다.

 

 

진화하는 멀티 모달 AI 이해하기

 

멀티 모달 AI란 무엇인가?

 

멀티 모달은 여러 가지 형태와 의미로 컴퓨터와 대화하는 환경을 의미합니다. 모달은 모달리티(modality)를 뜻하는데 모달리티란 사용자가 특정 행동한 것에 대해 컴퓨터가 반응하는 과정에서 사용되는 의사소통을 말합니다.

 

 

 

 

즉 멀티 모달은 사용자가 텍스트, 이미지, 영상, 음성, 제스처 등의 행동, 시선 및 표정, 생체 신호, 시간적 감각, 지리적 위치 감각, 냄새 및 맛 감각 등 여러 가지 형태로 입력하면 컴퓨터가 이에 반응하는 결과를 보여주는 기술입니다. 인간과 컴퓨터의 자연스러운 커뮤니케이션이 가능하도록 하는 기술인 것이죠.

 

냄새와 맛 감각의 경우는 IoT 장치와 응용 프로그램을 통해 냄새와 맛을 디지털로 전송하여 데이터를 통합하여 반응하는 것입니다. 현재로서는 이런 감각을 AI가 직접 처리하는 데는 한계가 있습니다.

 

 

 

 

멀티 모달 AI는 어떻게 작동하나?

 

멀티 모달 AI는 텍스트, 이미지, 영상, 음성, 생체 신호 등 다양한 데이터 모달리티를 함께 고려하여 상호 관계성을 학습하고 표현하는 기술로서 멀티 모달 AI는 하나의 모달리티를 활용하는 것보다 다양한 작업을 수행할 수 있다는 것입니다.

 

멀티 모달 AI는 사진을 보고 텍스트를 생성하거나 입력된 텍스트를 기반으로 이미지를 그려낼 수 있습니다. 또한 사용자의 음성을 듣고 텍스트로 인식하여 반응하고 사용자의 텍스트를 보고 음성으로 인식하여 반응합니다.

 

 

 

 

예를 들어 사용자가 오늘 밖에서 야구를 할 건데 날씨 어때?라고 멀티 모달 AI에게 음성으로 물어보면 야구하기에 좋은 날씨라고 음성으로 반응하며 오전 및 오후 날씨에 대한 상세한 정보를 알려줍니다.

 

또한 나는 지금 일본 오사카 여행을 할 건데 오사카에서 유명한 맛집을 알려줘 그리고 그 맛집으로 갈 수 있는 지도를 그려줘라고 멀티 모달 AI에게 물어보면 해당 맛집 정보와 리뷰 등을 알려주고 해당 맛집을 찾아가는 법과 지도를 그려줍니다.

 

 

 

 

멀티 모달 AI 서비스 어떤 것이 있나?

 

멀티 모달 AI 서비스는 앞으로 더 많은 서비스가 선보일 것으로 보입니다. 멀티 모달 AI 서비스로 국내의 경우 대표적으로 LG 엑스원 2.0, 네이버 크로버 X, 카카오 i 등이 있습니다.

 

해외의 경우 마이크로소프트 애저, 챗GPT, 구글 바드, IBM 와슨 어시스턴트, 아마존 레코그니션 등이 있습니다. 물론 멀티 모달 AI를 적용했다고 하지만 지속적으로 업그레이드가 필요한 현황입니다.

 

사실 멀티 모달 AI 서비스라고 하면 텍스트와 음성 두 가지 모달리티만 적용을 해도 멀티 모달 AI라고도 할 수 있습니다. 멀티 모달 기술이 얼마나 적용되었냐에 따라 멀티 모달 AI의 진화 범위를 판단할 수 있겠죠. 

 

 

 

 

결론적으로 정리하면,

 

멀티 모달 AI는 여러 가지 형태와 의미로 컴퓨터와 대화하는 환경을 만들어주는 기술입니다. 모달은 모달리티(modality)를 뜻하는데 모달리티란 사용자가 특정한 행동에 대해 컴퓨터가 반응하는 과정에서 사용되는 커뮤니케이션을 말합니다.

 

즉 멀티 모달 AI, 멀티 모달 기능 탑재된 AI, 멀티 모달 LLM 등 이 모든 말들은 AI가 인간이 느끼고 생각하고 말하는 것과 같이 인간의 두뇌 기능과 점점 비슷해지고 있다는 것을 의미합니다.

 

 

구글 멀티 모달 LLM 제미니(Gemini) 무엇인지 정리해보기

구글 LLM 제미니(Gemini)는 구글에서 처음으로 선보이게 될 멀티 모달 LLM(대형언어모델)입니다. 구글 LLM 제미니는 GPT-4와 유사한 수준의 기능을 가지고 있다고 하는데요. 그렇다면 여기서 멀티 모달

8terabyte.com

 

구글 바드 AI 최신 기술 및 업그레이드 된 기능 무엇인가?

구글 바드 AI가 최근 업그레이드되었습니다. 구글 바드 AI가 챗GPT의 결과물과 비교했을 때 다소 실망감을 주기도 했었죠. 그런데 이번에 바드 AI가 새로운 기술을 적용하여 업그레이드된 기능을

8terabyte.com

 

Meta Llama 2는 어떤 AI인가? 챗GPT와 다른 점은?

Llama 2(라마 2)는 페이스북 모기업인 Meta(메타)에서 개발한 대규모 언어 모델인 LLM입니다. Meta Llama 2는 3가지 종류의 모델로 구분됩니다. 대규모 언어 모델인 LLM은 매개변수 즉 파라미터 개수가 많

8terabyte.com