>>返回【卡城华人网】主页




卡城新闻   加国新闻   即时新闻   娱乐八卦    最新科技   读者文摘   养生保健   美食饮品    居家生活   音乐诗画   艺术中心   风筝专辑   
房屋租赁   求职招聘   便民广告   定居指南    城市介绍   房产动态   留学移民   华人故事    教育话题   财经信息   精华旅游   难得一笑   

>>返回【卡城华人网】主页





卡城新闻  加国新闻  即时新闻  娱乐八卦
最新科技  读者文摘  养生保健  美食饮品
居家生活  音乐诗画  艺术中心  风筝专辑
房屋租赁  求职招聘  便民广告  定居指南
城市介绍  房产动态  留学移民  华人故事
教育话题  财经信息  精华旅游  难得一笑

最新科技
 卡城华人网信息中心
 最新科技
     Google 新模型释出,AI 模仿人类使用浏览器、填写表单

Google 新模型释出,AI 模仿人类使用浏览器、填写表单

【卡城华人网 www.calgarychina.ca】  2025-10-09 13:46
  免责声明: 本消息未经核实,不代表网站的立场、观点,如有侵权,请联系删除。
【卡城华人网】Google 新模型释出,AI 模仿人类使用浏览器、填写表单

Google 推出Gemini 2.5 Computer Use 模型,以Gemini 2.5 Pro 的视觉理解和推理能力为基础所开发的专用模型,可支援代理程式在原本为人类设计的网路介面上进行操作,目前透过Gemini API 提供预览版本。



尽管AI 模型可以透过结构化API 与软体互动、完成指令,但许多任务仍需要与图形使用者介面互动,例如填写表单并送出。要完成这样的任务,代理程式必须像人类一样浏览网站或应用程式,过程中有点击、输入等动作。对于打造强大且通用的代理程式而言,能够做到填写表单、操作下拉选单与筛选器等互动元素,并在需要身分登入的情况下进行操作,是关键的一步。

于是Gemini 2.5 Computer Use 模型为此而生,它的核心能力透过Gemini API 新增的「computer_use」工具公开,并在一个回圈内运行,该工具的输入在于使用者请求、环境的截图以及近期操作的历史纪录。这款模型可用于网路介面测试,或在无API 或其他直接连接的情况下操作仅供人类使用的网路介面。



▲ Gemini 2.5 Computer Use 模型运作流程。

Gemini 2.5 Computer Use 模型推出时间点恰好碰上OpenAI 开发者大会,而OpenAI已打造一套自主代理系统ChatGPT Agent,另一竞争对手Anthropic去年已释出具备computer use 功能的Claude 模型版本,看来都走上开发通用代理程式的必经之路。

但与OpenAI、Anthropic 做法不同的是,Google 的Gemini 2.5 Computer Use 模型只能存取浏览器,而非整个电脑使用环境。 Google 指出这款模型目前尚未最佳化至桌面作业系统层级的控制,仅支援13 种浏览器操作,包括开启浏览器、输入文字等。 Google 还强调,这款模型在多项Web 和行动控制的基准测试展现强大性能。

(图片来源:Google Blog)

作者 陈 冠荣

编辑(Edit)     删除(Delete)







>>返回【卡城华人网】主页




版权所有(C), 2002-2025, 卡城华人网中国版 www.calgarychina.ca

版权所有(C), 2002-2025, 卡城华人网中国版 www.calgarychina.ca