본문 바로가기

인간처럼 '보고 듣고 말하고'를 한번에... 오픈AI, 옴니모델 GPT-4o 출시

2024.05.14. 오전 5:42

무라 미라티 오픈AI CTO (출처 : OpenAI)

[오픈AI 스프링 업데이트 이벤트] 최초의 옴니모델 등장

사람처럼 보고 듣고 말할 수 있는 인공지능

텍스트, 이미지, 음성 데이터를 동시에 입력해서 추론

실시간 통역도 자연스러워... 영상 보며 수학문제도 풀어


오픈AI가 13일 진행한 스프링 제품 업데이트 라이브 스트리밍 이벤트에서 GPT-4o라는 새로운 AI 모델을 발표했다. GPT-4o는 음성 인식과 스피치-투-텍스트 기능을 통합한 대화형 인터페이스 형태의 멀티모달 모델로, 실시간으로 자연스러운 상호작용이 가능하다. 또한, GPT-4 터보에 비해 2배 빠른 API를 제공한다. [AI요약 by 구버]


오픈AI는 13일(현지시각) 진행한 스프링 제품 업데이트 라이브 스트리밍 이벤트에서 새로운 AI 모델 GPT-4o를 공개했다.

GPT-4o는 음성 인식, 스피치-투-텍스트(Speech to text), 이미지 인식 기능 등이 통합돼 대화형 인터페이스 형태로 자연스러운 실시간 상호작용이 가능한 멀티모달(Multimodal, 다중 모드) 모델이다.

기존 GPT 모델이 프롬프트를 데스크톱이나 모바일을 통해 글자(텍스트)를 입력하는 것에 그쳤다면 GPT-4o는 음성, 텍스트, 시각 등 다양한 인간의 활동을 입력, AI가 추론하고 그 결과를 거의 실시간으로 내놓을 수 있도록 한 것이다. GPT-4o의 o는 모든 것을 아우른다는 의미인 ‘옴니(omni)’에 따왔다.

발표를 맡은 미라 무라티 오픈AI CTO(최고기술책임자)는 “GPT-4o는 GPT-4 터보 대비 2배 빠른 API(애플리케이션 프로그래밍 인터페이스)를 제공한다”고 밝혔다. 전 세계 인구 97%가 사용하는 50개 언어를 지원하며 텍스트 및 이미지 기능은 무료로 사용할 수 있다.

GPT4o는 새로운 데스크톱 UI(사용자 인터페이스)를 통해 마치 '코파일럿' 처럼 작동할 수 있게 했다. 기존 GPT4 터보에 비해 2배 빠르고 50% 저렴하며 글자 제한도 5배나 높였다. 또 사람의 감정과 얼굴 표정도 인식하면서 현장에 참석한 오픈AI 직원들의 큰 박수를 받았다.

이날 발표는 샘 알트만 CEO가 아닌 미라 무라티 CTO가 무대에 올라 주요 기능을 설명했다.

https://www.youtube.com/watch?v=DQacCB9tDaw&t=97s

GPT-4o의 특징

-무료 챗GPT 사용자에게도 텍스트 및 이미지 기능 제공

-다중 모드로 설계. 이미지, 텍스트 및 음성을 동시에 분석

-인간과 유사한 실시간 음성 상호작용을 지원. 말 끊기 가능

-음성 및 비전 기능을 갖춘 챗GPT 데스크톱 앱 출시

-향후 몇 주에 걸쳐 점진적으로 배포

(출처 : OpenAI)

AI, 인간처럼 보고 듣고 말하다

AI와 실시간 대화와 통역

GPT-4o의 가장 큰 업그레이드는 실시간 대화 기능이었다. 기존 챗GPT는 몇 초간 기다려야 하는 지연이 있었으나 GPT-4o는 음성으로 궁금한 것을 입력하면 실시간으로 음성 답변을 들을 수 있다.

GPT-4o는 대답이 자연스러울 뿐 아니라 심지어 감정까지 표현할 수 있었다. 잠잘 때 동화를 만들어달라는 요청부터 로봇 소리로 바꿔달라, 강렬한 드라마처럼 표현해달라는 요청에 즉각 반응했다.

또 실시간 '통역'도 시연했다. 오픈AI 팀은 실시간 통역 도구 역할을 하는 챗GPT 보이스의 기능을 시연했는데 미라 무라티가 이탈리아어로 얘기하면 영어로 변환한 다음 바로 영어로 응답을 받아 이탈리아어로 대화하는 높은 수준의 통번역 기능을 소개했다.

AI에 눈이 생겼다

AI가 스마트폰 카메라를 통해 대상을 해석하고 대답을 할 수 있게 됐다. 시연에서 오픈AI 팀은 종이에 실시간으로 작성한 수학 방정식을 GPT에 보여주고 AI에게 문제 해결을 도와달라고 요청했다. 챗GPT는 답을 주는 것이 아니라, 조언을 해주고 단계별로 문제를 풀어 나갔다.

코드와 그래프를 실시간으로 분석

GPT-4o는 작성 중인 코드를 보고 코드를 분석했다. 잠재적인 문제를 발견할 수 있었으며 현재 데스크톱에서 작업 중인 내용도 설명할 수 있었다. 데모 중에 그래프를 보고 실제 피드백과 정보를 제공하는 놀라운 장면을 연출했다.

미라 무라티 오픈AI CTO(사진 왼쪽)과 연구원들이 옴니모델인 GPT-4o를 시연하고 있다 (출처 : 유튜브 캡쳐)

해당 콘텐츠는 프리미엄 구독자 공개(유료) 콘텐츠로 무단 캡쳐 및 불법 공유시 법적 제재를 받을 수 있습니다.

본 콘텐츠는 무료로 제공중입니다.
콘텐츠가 마음에 드셨나요?

더밀크 구독으로 더 많은 콘텐츠를 만나보세요!