>>返回【卡城华人网】主页




卡城新闻   加国新闻   即时新闻   娱乐八卦    最新科技   读者文摘   养生保健   美食饮品    居家生活   移民茶馆   艺术中心   风筝专辑   
房屋租赁   求职招聘   便民广告   定居指南    城市介绍   房产动态   留学移民   华人故事    教育话题   财经信息   精华旅游   难得一笑   

>>返回【卡城华人网】主页





卡城新闻  加国新闻  即时新闻  娱乐八卦
最新科技  读者文摘  养生保健  美食饮品
居家生活  移民茶馆  艺术中心  风筝专辑
房屋租赁  求职招聘  便民广告  定居指南
城市介绍  房产动态  留学移民  华人故事
教育话题  财经信息  精华旅游  难得一笑

最新科技
 卡城华人网信息中心
 最新科技
     Google 首款多模态嵌入模型释出,大幅简化AI 复杂处理

Google 首款多模态嵌入模型释出,大幅简化AI 复杂处理

【卡城华人网 www.calgarychina.ca】  2026-03-11 13:23
  免责声明: 本消息未经核实,不代表网站的立场、观点,如有侵权,请联系删除。
【卡城华人网】Google 首款多模态嵌入模型释出,大幅简化AI 复杂处理

Google 10 日发表Gemini Embedding 2,这是Google 第一款以Gemini 架构为基础打造、完全多模态的嵌入模型。



Gemini Embedding 2 将文字、图像、影像、音讯及文件对应到统一的嵌入空间,能在超过100 种语言之间捕捉语义意图。这不仅简化复杂的处理流程,也能强化各种多模态的任务,从检索增强生成(RAG)、语义搜寻再到情绪分析与资料分群等。

Google 在官方部落格文章指出,Gemini Embedding 2 利用一流的多模态理解能力,建立高品质的跨模态嵌入:

文字:支援最多8,192 个输入token 的扩展上下文。
图像:每次请求最多可处理6 张图像,支援PNG 和JPEG 格式。
影像:支援最长120 秒的MP4 和MOV 格式影像输入。
音讯:原生支援音讯资料的汇入和嵌入,无需中间的文字转录。
文件:直接嵌入最多6 页的PDF 文件。

除了处理单一模态资料以外,Gemini Embedding 2 也能原生理解交错输入,也就是说,你可以在单一请求输入同时多种模态的资料(比方说影像+文字)。这让模型能捕捉不同媒体类型之间复杂且细微的关系,更能准确理解真实世界中的复杂资料。

Gemini Embedding 2 也采用Matryoshka Representation Learning(MRL)技术,透过动态缩减向量维度来保留关键语义。这使得输出维度可以从预设的3072 向下弹性缩减,让开发者能在性能与储存成本之间取得平衡。

Gemini Embedding 2 不仅提升旧有模型的能力,更为多模态嵌入建立新的性能标准。它新增了强大的语音能力,在文字、图像、影像任务上超越多个领先模型。这种可量化的性能提升,加上独特的多模态覆盖能力,让开发者能在各种嵌入需求获得更强大的工具。

嵌入(embedding)技术是许多Google 产品体验背后的核心技术,从RAG 在上下文脉络工程所扮演的重要角色,到大规模资料管理与传统搜寻/分析系统,都离不开嵌入技术。 Gemini Embedding 2 透过Gemini API 与Vertex AI,以公开预览形式推出,而部分合作伙伴也已开始使用Gemini Embedding 2,打造高价值的多模态应用。

过去AI 若要处理图像、影像、音讯等,需要利用不同模型做预处理,如今借助Gemini Embedding 2,直接简化成一款模型、一个嵌入空间就能搞定。

来源:科技新报

编辑(Edit)     删除(Delete)







>>返回【卡城华人网】主页




版权所有(C), 2002-2026, 卡城华人网中国版 www.calgarychina.ca

版权所有(C), 2002-2026, 卡城华人网中国版 www.calgarychina.ca