AI 시장이 점점 뜨거워지면서 AI 학습을 위한 데이터도 점점 고갈되고 있어 보입니다. 그동안 일부 전문적인 콘텐츠와 온라인에 무작위로 배포되어 있는 콘텐츠로 AI를 학습시켜 왔는데요.
AI 서비스 중 가장 대표적이고 대중에게 알려진 오픈 AI의 GPT-3.5와 GPT-4.0은 주로 위키피이다 무료 콘텐츠와 테크전문가들이 많이 사용하는 온라인 플랫폼 깃허브의 코드 등을 수집하여 학습되었는데요.
특히 오픈 AI는 유튜브 일부 영상과 팟캐스트 오디오 콘텐츠를 수집하는 프로그램을 개발해 이를 통해 수집된 텍스트 콘텐츠를 활용해 GPT-4.0 버전에 학습시킨 것으로 알려져 있습니다.
오픈 AI 뿐만 아니라 메타, 구글 테크기업 역시 AI 학습 데이터를 유튜브 영상을 비롯하여 페이스북, 인스타그램 게시물, 레딧 콘텐츠 및 기타 창작물 등으로부터 수집을 무작위로 해왔는데요.
그만큼 AI 학습을 위한 데이터가 부족하다는 것입니다.
애플의 경우 AI 학습 데이터를 확보하기 위해 한화로 대략 1300억 원을 투자한다고 밝혔는데요.
애플의 AI 학습용 데이터로 셔터스톡에서 제공하는 사진 및 영상, 보그 및 NBC뉴스 등 다양한 미디어 업체들이 제공하는 콘텐츠를 활용할 것으로 보입니다.
결론적으로 정리하면,
AI 기업의 현재 당면 과제는 제대로 검증된 학습 데이터일 것입니다.
온라인에 무작위로 배포된 방대한 양의 콘텐츠를 활용해 AI 학습용으로 사용하는 것도 필요하겠지만 AI 환각 현상 즉 AI 할루시네이션 현상을 줄이기 위해서는 엄선된 양질의 콘텐츠가 필요하다고 생각합니다.
이로 인해 AI 기업은 별도의 AI 학습용 데이터를 취급하는 공급기업과 협력을 할 필요가 있을 것입니다. 이렇게 국내 스타트업 중 하나인 AI 학습용 데이터 공급기업인 셀렉트스타 같은 기업들이 당분간 인공지능 업계 내에서 집중될 것으로 보여요.
어쩌면 고객 맞춤형 및 전문적인 AI 서비스 개발을 위해서는 제대로 된 AI 학습 데이터 전문 공급 기업이 지속적으로 필요할 것입니다.