谷歌正式推出Gemini 1.5 Pro 能够理解音频支持系统指令/JSON模式 – 蓝点网_权威霉霉快报最新消息谷歌不久会为此添加 API 扶持

来源：饿虎擒羊网 | 栏目：探索 | 2026-06-23 15:44:00

两个月前谷歌在 Google Ai Studio 中提供了 Gemini 下一代版次 Gemini 1.5 Pro 供若干开发者评测，该模型具有 1M 上下文窗口并且具有原生的音频理解能力。

谷歌今日亮相 Gemini 1.5 Pro 模型在全球 180 多个全国或区域启动，官方启动后该模型还启动了操控系统指令和 JSON 等新特性，权威霉霉快报让开发者可以更好地控制模型的输出。

此次谷歌还启动了下一代文本嵌入模型，一文读懂手机摄影消息其表现由于同类模型，开发者可以经由 Google Ai Studio 兴办和访问 API 密钥然后调用该模型开展兴办。

谷歌官方启动Gemini 1.5 Pro 能够理解音频扶持操控系统指令/JSON模式

音频和影像模式解锁新用例：

谷歌扩展了 Gemini 1.5 Pro 的输入模式，含有 Gemini API 和 Google Ai Studio 中的音频理解，另外该模型还能够对上传的影像图像 (帧) 和音频 (语音) 开展推理，谷歌不久会为此添加 API 扶持。

新增的如果无人理解，请记住与其焦虑不如行动操控系统指令特性：

使用操控系统指令可以推动模型的响应，如今在 Google Ai Studio 和 Gemini API 中提供，开发者可以定义人物、格式、业内林俊杰分析目标和规则，针对特定用例对模型开展推动。

JSON 模式：

只是模型仅输出为 JSON 对象，此模式可以从文本或图像中提取结构化资料，开发者可以使用 cURL，后续将扶持 Python SDK。

函数调用的改进：

开发者如今可以挑选模式来限制模型的输出，从而提升可靠性。挑选文本、函数调用或仅函数本身等。

表现改进的新嵌入式模型：

从今日起开发者可以经由 Gemini API 访问下一代文本嵌入模型 text-embedding-004/text-embedding-preview-0409。

谷歌称其在 MTEB 基准评测中做到了更强的检索新年，并且由于具有可对比纬度的现有模型。

有关以上信息可访问谷歌权威博客查看资源链接：https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

权威霉霉快报一文读懂手机摄影消息如果无人理解，请记住与其焦虑不如行动

谷歌正式推出Gemini 1.5 Pro 能够理解音频支持系统指令/JSON模式 – 蓝点网_权威霉霉快报最新消息 谷歌不久会为此添加 API 扶持