멀티 모달 AI가 무엇일까요? 멀티 모달 AI가 진화하고 있습니다. 즉 이 말은 AI가 인간의 두뇌와 비슷해지고 있다는 것입니다. 멀티 모달 AI, 멀티 모달 기능 탑재된 AI, 멀티 모달 LLM 등 이 모든 말들이 AI가 인간이 느끼고 생각하고 말하는 것에 점점 가까워지고 있다는 것을 의미합니다. 멀티 모달 AI에 대해 좀 더 정리해 보겠습니다.
멀티 모달 AI란 무엇인가?
멀티 모달은 여러 가지 형태와 의미로 컴퓨터와 대화하는 환경을 의미합니다. 모달은 모달리티(modality)를 뜻하는데 모달리티란 사용자가 특정 행동한 것에 대해 컴퓨터가 반응하는 과정에서 사용되는 의사소통을 말합니다.
즉 멀티 모달은 사용자가 텍스트, 이미지, 영상, 음성, 제스처 등의 행동, 시선 및 표정, 생체 신호, 시간적 감각, 지리적 위치 감각, 냄새 및 맛 감각 등 여러 가지 형태로 입력하면 컴퓨터가 이에 반응하는 결과를 보여주는 기술입니다. 인간과 컴퓨터의 자연스러운 커뮤니케이션이 가능하도록 하는 기술인 것이죠.
냄새와 맛 감각의 경우는 IoT 장치와 응용 프로그램을 통해 냄새와 맛을 디지털로 전송하여 데이터를 통합하여 반응하는 것입니다. 현재로서는 이런 감각을 AI가 직접 처리하는 데는 한계가 있습니다.
멀티 모달 AI는 어떻게 작동하나?
멀티 모달 AI는 텍스트, 이미지, 영상, 음성, 생체 신호 등 다양한 데이터 모달리티를 함께 고려하여 상호 관계성을 학습하고 표현하는 기술로서 멀티 모달 AI는 하나의 모달리티를 활용하는 것보다 다양한 작업을 수행할 수 있다는 것입니다.
멀티 모달 AI는 사진을 보고 텍스트를 생성하거나 입력된 텍스트를 기반으로 이미지를 그려낼 수 있습니다. 또한 사용자의 음성을 듣고 텍스트로 인식하여 반응하고 사용자의 텍스트를 보고 음성으로 인식하여 반응합니다.
예를 들어 사용자가 오늘 밖에서 야구를 할 건데 날씨 어때?라고 멀티 모달 AI에게 음성으로 물어보면 야구하기에 좋은 날씨라고 음성으로 반응하며 오전 및 오후 날씨에 대한 상세한 정보를 알려줍니다.
또한 나는 지금 일본 오사카 여행을 할 건데 오사카에서 유명한 맛집을 알려줘 그리고 그 맛집으로 갈 수 있는 지도를 그려줘라고 멀티 모달 AI에게 물어보면 해당 맛집 정보와 리뷰 등을 알려주고 해당 맛집을 찾아가는 법과 지도를 그려줍니다.
멀티 모달 AI 서비스 어떤 것이 있나?
멀티 모달 AI 서비스는 앞으로 더 많은 서비스가 선보일 것으로 보입니다. 멀티 모달 AI 서비스로 국내의 경우 대표적으로 LG 엑스원 2.0, 네이버 크로버 X, 카카오 i 등이 있습니다.
해외의 경우 마이크로소프트 애저, 챗GPT, 구글 바드, IBM 와슨 어시스턴트, 아마존 레코그니션 등이 있습니다. 물론 멀티 모달 AI를 적용했다고 하지만 지속적으로 업그레이드가 필요한 현황입니다.
사실 멀티 모달 AI 서비스라고 하면 텍스트와 음성 두 가지 모달리티만 적용을 해도 멀티 모달 AI라고도 할 수 있습니다. 멀티 모달 기술이 얼마나 적용되었냐에 따라 멀티 모달 AI의 진화 범위를 판단할 수 있겠죠.
결론적으로 정리하면,
멀티 모달 AI는 여러 가지 형태와 의미로 컴퓨터와 대화하는 환경을 만들어주는 기술입니다. 모달은 모달리티(modality)를 뜻하는데 모달리티란 사용자가 특정한 행동에 대해 컴퓨터가 반응하는 과정에서 사용되는 커뮤니케이션을 말합니다.
즉 멀티 모달 AI, 멀티 모달 기능 탑재된 AI, 멀티 모달 LLM 등 이 모든 말들은 AI가 인간이 느끼고 생각하고 말하는 것과 같이 인간의 두뇌 기능과 점점 비슷해지고 있다는 것을 의미합니다.