GPT-4o모델 Cookbook 예제문서 기반 API 코딩--(2)






openA에서 배포하는 cookbook 예제에 GPT-4o모델이 나오자마자 DeepL로 초벌번역을 했다.

GPT-4o(“옴니”의 “o”는 “OMNI”를 의미)는 텍스트, 오디오 및 비디오 입력을 조합하여 처리하도록 설계되었으며 텍스트, 오디오 및 이미지 형식의 출력을 생성할 수 있다.


배경

​GPT-4o 이전에는 사용자가 세 가지 개별 모델로 작동하는 보이스 모드를 사용해 ChatGPT와 상호작용할 수 있었습니다. GPT-4o는 이러한 기능을 텍스트, 시각, 오디오에 걸쳐 학습된 단일 모델로 통합한다. 이러한 통합 접근 방식은 텍스트, 시각, 청각 등 모든 입력이 동일한 신경망에 의해 일관되게 처리되도록 보장한다.


MoviePy 패키지를 사용한 오디오 비디오 모달리티를 다루는 예제샘플이다.

승우님의 <스티브잡스가 스타벅스에 장난전화하는걸 컷편집해줘> 라는 영상에서 쓰인 것과 동일한 패키지가 사용되었다.



ulsancding.com

or

https://blog.naver.com/ulsancoding/22344648312

4

(채용) 콘텐츠 마케터, AI 엔지니어, 백엔드 개발자

지피터스의 수 천개 AI 활용 사례 데이터를 AI로 재가공 할 인재를 찾습니다

👉 이 게시글도 읽어보세요