AI와 이미지로 대화하세요. LLM 보다 더 진화한 LMM 무엇인가?

LMM이란 대형멀티모달모델을 말합니다. 즉 Large Multimodal Models의 약자를 말하는데요. LMM는 이미지, 사진 등으로 AI에게 명령을 하면 AI가 이미지나 사진을 이해하고 분석하여 답변을 할 수 있는 것입니다.

AI가 이렇게 급속도로 진화하고 있는 것인데요. 생성형 AI로 잘 알려진 오픈 AI의 GPT-4 버전을 비롯하여 구글의 제미니, 라바 1.5 버전까지 모두 LMM이라고 할 수 있어요.

이제는 AI가 언어 학습 이상으로 이미지, 사진까지도 학습하면서 지속적으로 성장하고 있습니다. 마치 천재 아이가 급속도로 학습 능력이 발달하는 것처럼요.

LMM은 이미지, 사진을 학습하여 답변을 할 수 있기 때문에 프롬프트 란에 이미지나 사진을 입력하면 AI는 이를 이해하고 분석하여 답변을 합니다.

사실 멀티모달은 텍스트 이상으로 이미지, 사진만 학습하는 것으로 끝나지 않아요.

영상, 생체인식, 사람의 제스처 등 지속적으로 학습 요소들이 추가되어 이 이상을 AI가 이해하고 분석하는 기술입니다.

LMM 대표 AI기술인 라바 1.5는 여러 생성 AI 구성 요소를 결합하고 정확도를 높여 다양한 작업을 수행하도록 업그레이드되었습니다.

결론적으로 정리하면,

AI시대가 기존 LLM(Large Language Model)을 기점으로 시작하여 이제는 LMM(Large Multimodal Model)으로 넘어오는 시점이라고 볼 수 있겠어요.

AI는 지속적으로 성장하고 있고 앞으로도 계속 진화할 것입니다. LMM으로 학습하는 AI의 진화된 모습을 조만간 제대로 경험할 수 있을 것입니다.

아직까지는 AI가 이미지나 사진을 학습하여 이해하는 정도까지이겠지만 향후 영상을 제대로 분석하고 이해하며 사람의 감정을 이해하는 시점이 반드시 올 것입니다.

이미지 생성 AI 달리(DALL-E) 2 vs 달리(DALL-E) 3 비교

달리(DALL-E)는 오픈 AI에서 개발한 이미지 생성 AI를 말합니다. 달리 3이 챗GPT에 통합되어 챗GPT가 더욱 강력해졌고 다양한 기능을 선보이게 됐다고 하는데요. 달리 2와 비교했을 때 달리 3의 새로운

8terabyte.com

진화하는 멀티 모달 AI 이해하기

멀티 모달 AI가 무엇일까요? 멀티 모달 AI가 진화하고 있습니다. 즉 이 말은 AI가 인간의 두뇌와 비슷해지고 있다는 것입니다. 멀티 모달 AI, 멀티 모달 기능 탑재된 AI, 멀티 모달 LLM 등 이 모든 말

8terabyte.com

구글 멀티 모달 LLM 제미니(Gemini) 무엇인지 정리해보기

구글 LLM 제미니(Gemini)는 구글에서 처음으로 선보이게 될 멀티 모달 LLM(대형언어모델)입니다. 구글 LLM 제미니는 GPT-4와 유사한 수준의 기능을 가지고 있다고 하는데요. 그렇다면 여기서 멀티 모달

8terabyte.com

구글 바드 AI 최신 기술 및 업그레이드 된 기능 무엇인가?

구글 바드 AI가 최근 업그레이드되었습니다. 구글 바드 AI가 챗GPT의 결과물과 비교했을 때 다소 실망감을 주기도 했었죠. 그런데 이번에 바드 AI가 새로운 기술을 적용하여 업그레이드된 기능을

8terabyte.com

Meta Llama 2는 어떤 AI인가? 챗GPT와 다른 점은?

Llama 2(라마 2)는 페이스북 모기업인 Meta(메타)에서 개발한 대규모 언어 모델인 LLM입니다. Meta Llama 2는 3가지 종류의 모델로 구분됩니다. 대규모 언어 모델인 LLM은 매개변수 즉 파라미터 개수가 많

8terabyte.com

티스토리툴바