|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
卡城新闻 加国新闻 即时新闻 娱乐八卦
最新科技 读者文摘 养生保健 美食饮品
居家生活 移民茶馆 艺术中心 风筝专辑 房屋租赁 求职招聘 便民广告 定居指南 城市介绍 房产动态 留学移民 华人故事 教育话题 财经信息 精华旅游 难得一笑 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
卡城新闻 加国新闻 即时新闻 娱乐八卦 最新科技 读者文摘 养生保健 美食饮品 居家生活 移民茶馆 艺术中心 风筝专辑 房屋租赁 求职招聘 便民广告 定居指南 城市介绍 房产动态 留学移民 华人故事 教育话题 财经信息 精华旅游 难得一笑 |
| 最新科技 |
 卡城华人网信息中心![]()  最新科技
     ![]()  Google 首款多模态嵌入模型释出,大幅简化AI 复杂处理
|
|
【卡城华人网 www.calgarychina.ca】  2026-03-11 13:23   免责声明: 本消息未经核实,不代表网站的立场、观点,如有侵权,请联系删除。 |
|
Google 10 日发表Gemini Embedding 2,这是Google 第一款以Gemini 架构为基础打造、完全多模态的嵌入模型。
Gemini Embedding 2 将文字、图像、影像、音讯及文件对应到统一的嵌入空间,能在超过100 种语言之间捕捉语义意图。这不仅简化复杂的处理流程,也能强化各种多模态的任务,从检索增强生成(RAG)、语义搜寻再到情绪分析与资料分群等。 Google 在官方部落格文章指出,Gemini Embedding 2 利用一流的多模态理解能力,建立高品质的跨模态嵌入: 文字:支援最多8,192 个输入token 的扩展上下文。 图像:每次请求最多可处理6 张图像,支援PNG 和JPEG 格式。 影像:支援最长120 秒的MP4 和MOV 格式影像输入。 音讯:原生支援音讯资料的汇入和嵌入,无需中间的文字转录。 文件:直接嵌入最多6 页的PDF 文件。 除了处理单一模态资料以外,Gemini Embedding 2 也能原生理解交错输入,也就是说,你可以在单一请求输入同时多种模态的资料(比方说影像+文字)。这让模型能捕捉不同媒体类型之间复杂且细微的关系,更能准确理解真实世界中的复杂资料。 Gemini Embedding 2 也采用Matryoshka Representation Learning(MRL)技术,透过动态缩减向量维度来保留关键语义。这使得输出维度可以从预设的3072 向下弹性缩减,让开发者能在性能与储存成本之间取得平衡。 Gemini Embedding 2 不仅提升旧有模型的能力,更为多模态嵌入建立新的性能标准。它新增了强大的语音能力,在文字、图像、影像任务上超越多个领先模型。这种可量化的性能提升,加上独特的多模态覆盖能力,让开发者能在各种嵌入需求获得更强大的工具。 嵌入(embedding)技术是许多Google 产品体验背后的核心技术,从RAG 在上下文脉络工程所扮演的重要角色,到大规模资料管理与传统搜寻/分析系统,都离不开嵌入技术。 Gemini Embedding 2 透过Gemini API 与Vertex AI,以公开预览形式推出,而部分合作伙伴也已开始使用Gemini Embedding 2,打造高价值的多模态应用。 过去AI 若要处理图像、影像、音讯等,需要利用不同模型做预处理,如今借助Gemini Embedding 2,直接简化成一款模型、一个嵌入空间就能搞定。 来源:科技新报 编辑(Edit)     删除(Delete) |
|
|
|
| 版权所有(C), 2002-2026, 卡城华人网中国版 www.calgarychina.ca |
| 版权所有(C), 2002-2026, 卡城华人网中国版 www.calgarychina.ca |