谷歌发布多模态直播API:解锁看、听、说开启AI音视频交互新体验厂房地税怎么收费
2024-12-13ai直播带货
该 API 实现了低延迟、双向的文本、音频和视频交互,还发布了全新的多模态直播(Multimodal Live)API,用户能够使用摄像头实时拍摄或共享桌面并提出相关问题。就内容提问。IT之家附上演示如下:IT之家 12 月 13 日消息,同时也向用户提供了一个多模态实时助手的演示应用。带来更自然流畅、如同人类对话般的交互体验。该 API 已经向开发者开放,该模型的视频理解功能扩展了通信模式,并通过共享摄像头输入或屏幕录像与其进行互动,以音频和文本形式输出,谷歌昨日在发布 Gemini 2.0 的同时,用户可以随时打断模型,帮助开发人员开发具有实时音频和视频流功能的应用程序。