![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
卡城新闻 加国新闻 即时新闻 娱乐八卦
最新科技 读者文摘 养生保健 美食饮品
居家生活 音乐诗画 艺术中心 风筝专辑 房屋租赁 求职招聘 便民广告 定居指南 城市介绍 房产动态 留学移民 华人故事 教育话题 财经信息 精华旅游 难得一笑 |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
卡城新闻 加国新闻 即时新闻 娱乐八卦 最新科技 读者文摘 养生保健 美食饮品 居家生活 音乐诗画 艺术中心 风筝专辑 房屋租赁 求职招聘 便民广告 定居指南 城市介绍 房产动态 留学移民 华人故事 教育话题 财经信息 精华旅游 难得一笑 |
最新科技 |
![]() ![]() ![]()      ![]() ![]() |
【卡城华人网 www.calgarychina.ca】  2025-10-09 13:46   免责声明: 本消息未经核实,不代表网站的立场、观点,如有侵权,请联系删除。 |
Google 推出Gemini 2.5 Computer Use 模型,以Gemini 2.5 Pro 的视觉理解和推理能力为基础所开发的专用模型,可支援代理程式在原本为人类设计的网路介面上进行操作,目前透过Gemini API 提供预览版本。 ![]() 尽管AI 模型可以透过结构化API 与软体互动、完成指令,但许多任务仍需要与图形使用者介面互动,例如填写表单并送出。要完成这样的任务,代理程式必须像人类一样浏览网站或应用程式,过程中有点击、输入等动作。对于打造强大且通用的代理程式而言,能够做到填写表单、操作下拉选单与筛选器等互动元素,并在需要身分登入的情况下进行操作,是关键的一步。 于是Gemini 2.5 Computer Use 模型为此而生,它的核心能力透过Gemini API 新增的「computer_use」工具公开,并在一个回圈内运行,该工具的输入在于使用者请求、环境的截图以及近期操作的历史纪录。这款模型可用于网路介面测试,或在无API 或其他直接连接的情况下操作仅供人类使用的网路介面。 ![]() ▲ Gemini 2.5 Computer Use 模型运作流程。 Gemini 2.5 Computer Use 模型推出时间点恰好碰上OpenAI 开发者大会,而OpenAI已打造一套自主代理系统ChatGPT Agent,另一竞争对手Anthropic去年已释出具备computer use 功能的Claude 模型版本,看来都走上开发通用代理程式的必经之路。 但与OpenAI、Anthropic 做法不同的是,Google 的Gemini 2.5 Computer Use 模型只能存取浏览器,而非整个电脑使用环境。 Google 指出这款模型目前尚未最佳化至桌面作业系统层级的控制,仅支援13 种浏览器操作,包括开启浏览器、输入文字等。 Google 还强调,这款模型在多项Web 和行动控制的基准测试展现强大性能。 (图片来源:Google Blog) 作者 陈 冠荣 编辑(Edit)     删除(Delete) |
![]() |
![]() |
![]() |
版权所有(C), 2002-2025, 卡城华人网中国版 www.calgarychina.ca |
版权所有(C), 2002-2025, 卡城华人网中国版 www.calgarychina.ca |