LMM이란 대형멀티모달모델을 말합니다. 즉 Large Multimodal Models의 약자를 말하는데요. LMM는 이미지, 사진 등으로 AI에게 명령을 하면 AI가 이미지나 사진을 이해하고 분석하여 답변을 할 수 있는 것입니다.
AI가 이렇게 급속도로 진화하고 있는 것인데요. 생성형 AI로 잘 알려진 오픈 AI의 GPT-4 버전을 비롯하여 구글의 제미니, 라바 1.5 버전까지 모두 LMM이라고 할 수 있어요.
이제는 AI가 언어 학습 이상으로 이미지, 사진까지도 학습하면서 지속적으로 성장하고 있습니다. 마치 천재 아이가 급속도로 학습 능력이 발달하는 것처럼요.
LMM은 이미지, 사진을 학습하여 답변을 할 수 있기 때문에 프롬프트 란에 이미지나 사진을 입력하면 AI는 이를 이해하고 분석하여 답변을 합니다.
사실 멀티모달은 텍스트 이상으로 이미지, 사진만 학습하는 것으로 끝나지 않아요.
영상, 생체인식, 사람의 제스처 등 지속적으로 학습 요소들이 추가되어 이 이상을 AI가 이해하고 분석하는 기술입니다.
LMM 대표 AI기술인 라바 1.5는 여러 생성 AI 구성 요소를 결합하고 정확도를 높여 다양한 작업을 수행하도록 업그레이드되었습니다.
결론적으로 정리하면,
AI시대가 기존 LLM(Large Language Model)을 기점으로 시작하여 이제는 LMM(Large Multimodal Model)으로 넘어오는 시점이라고 볼 수 있겠어요.
AI는 지속적으로 성장하고 있고 앞으로도 계속 진화할 것입니다. LMM으로 학습하는 AI의 진화된 모습을 조만간 제대로 경험할 수 있을 것입니다.
아직까지는 AI가 이미지나 사진을 학습하여 이해하는 정도까지이겠지만 향후 영상을 제대로 분석하고 이해하며 사람의 감정을 이해하는 시점이 반드시 올 것입니다.