본문 바로가기
카테고리 없음

구글 멀티 모달 LLM 제미니(Gemini) 무엇인지 정리해보기

by tech블로거 2023. 9. 18.

구글 LLM 제미니(Gemini)는 구글에서 처음으로 선보이게 될 멀티 모달 LLM(대형언어모델)입니다. 구글 LLM 제미니는 GPT-4와 유사한 수준의 기능을 가지고 있다고 하는데요. 그렇다면 여기서 멀티 모달은 무엇이고 구글 LLM 제미니는 무엇인지 정리해보도록 하겠습니다.

 

 

구글 GPT-4 유사한 멀티 모달 LLM 제미니(Gemini) 무엇인가

 

 

구글 LLM 제미니는 최신 버전인 GPT-4와 유사하게 멀티 모달 기능을 갖춘 LLM이라고 하는데 여기서 멀티 모달이 무엇일까요? 멀티 모달은 멀티(Multi)와 방식(Modality)의 합성어입니다. 멀티 모달은 사람과 컴퓨터가 대화하는 방식의 기술을 말합니다.

 

예전에는 컴퓨터와 소통을 위해 키보드나 마우스를 통해 데이터를 입력하면 그에 대해 컴퓨터가 결과 데이터를 출력하는 방식이었습니다.

 

 

 

 

반면에 최근에는 스마트폰, 스마트 워치, 태블릿 등 작은 디바이스와 같은 컴퓨터와 소통할 때는 키보드 등을 통해 데이터를 입력하는 것뿐만 아니라 음성, 제스처, 표정, 생체인식 등 여러가지 입력 방식을 통해 컴퓨터와 커뮤니케이션하는 것을 멀티 모달 AI기술이라고 합니다.

 

멀티 모달 기술은 1인칭 게임, 롤플레잉 등의 게임에 이미 적용되어 사물인터넷과 연동된 기술로 사용되고 있습니다.

 

 

 

 

구글은 멀티 모달 AI 기술의 LLM 제미니를 일부 기업을 통해 기능 테스트 중에 있습니다. 조만간 정식으로 출시될 것으로 보여집니다.

 

구글 멀티 모달 LLM 제미니는 GPT-4와 같이 대화형 AI 기능을 포함하고 이를 넘어 미드저니 등과 같은 AI 이미지를 생성하는 기능도 갖추고 있다고 합니다.

 

또한 제미니는 차트를 분석하여 그래픽을 생성하고 텍스트나 음성 명령으로 소프트웨어를 통제하는 기능을 제공할 수 있도록 검토 중에 있다고 합니다.

 

 

 

 

구글 제미니는 바드(Bard) AI 챗봇부터 구글 docs 등 엔터프라이즈 애플리케이션들에도 적용할 것으로 보입니다. 또한 구글 클라우드를 통해 제미니를 활용할 수 있도록 개발자에게 유료로 제공하는 것을 검토 중에 있다고 합니다.

 

구글 제미니가 출시되면 방대한 유튜브 영상의 데이터를 학습할 수 있는 멀티 모달 LLM이 될 것이라고 합니다. 하지만 이 부분은 정식으로 출시되어야 확인할 수 있을 듯 합니다.

 

 

 

 

결론적으로 정리하면,

 

구글 LLM 제미니(Gemini)는 생성형 AI인 최신 버전인 GPT-4와 유사한 기능을 포함하고 여기에 미드저니와 같은 AI 이미지도 생성할 수 있는 기능을 가진 멀티 모달 LLM입니다.

 

멀티 모달은 사람과 컴퓨터가 대화하는 방식의 기술을 말합니다. 멀티 모달 기술이 음성, 제스처, 생체인식 등 지속적으로 확대되고 있는 기술입니다. 이는 AI 진화와도 직결되는 부분인 것입니다.