음성과 비디오를 동시에 이해하는 네이티브 멀티모달 모델들의 약진
텍스트를 넘어 실시간으로 음성 억양을 분석하고 비디오 스트림을 해석하는 추세가 강화되고 있습니다. GPT-4o 출시 이후 이를 추격하는 구글 제미나이 1.5 프로의 비디오 토큰 처리 성능을 비교합니다.
전 세계 AI 연구소와 테크 자이언트들이 만들고 있는 기술의 큰 흐름을 한눈에 파악하세요.
텍스트를 넘어 실시간으로 음성 억양을 분석하고 비디오 스트림을 해석하는 추세가 강화되고 있습니다. GPT-4o 출시 이후 이를 추격하는 구글 제미나이 1.5 프로의 비디오 토큰 처리 성능을 비교합니다.
스냅드래곤 X 엘리트와 애플 M4 칩이 탑재된 하드웨어들이 로컬 환경에서 7B~13B 수준의 LLM을 무리 없이 양자화하여 구동하는 생태계를 조성하고 있습니다.
단순한 질의응답을 벗어나, 사용자가 준 큰 목표를 스스로 잘게 쪼개어 기획, 코딩, 테스트, 배포까지 자율적으로 수행하는 데빈(Devin), 오픈데빈(OpenDevin) 류의 기술 동향을 살펴봅니다.