>>返回【卡城华人网】主页




卡城新闻   加国新闻   即时新闻   娱乐八卦    最新科技   读者文摘   养生保健   美食饮品    居家生活   音乐诗画   艺术中心   风筝专辑   
房屋租赁   求职招聘   便民广告   定居指南    城市介绍   房产动态   留学移民   华人故事    教育话题   财经信息   精华旅游   难得一笑   

>>返回【卡城华人网】主页





卡城新闻  加国新闻  即时新闻  娱乐八卦
最新科技  读者文摘  养生保健  美食饮品
居家生活  音乐诗画  艺术中心  风筝专辑
房屋租赁  求职招聘  便民广告  定居指南
城市介绍  房产动态  留学移民  华人故事
教育话题  财经信息  精华旅游  难得一笑

最新科技
 卡城华人网信息中心
 最新科技
     大语言模型仍无法可靠区分信念与事实 为高风险领域应用敲响警钟

大语言模型仍无法可靠区分信念与事实 为高风险领域应用敲响警钟

【卡城华人网 www.calgarychina.ca】  2025-11-07 10:27
  免责声明: 本消息未经核实,不代表网站的立场、观点,如有侵权,请联系删除。
【卡城华人网】大语言模型仍无法可靠区分信念与事实 为高风险领域应用敲响警钟


  
  在最新一期《自然·机器智能》发表的一篇论文中,美国斯坦福大学研究提醒:大语言模型(LLM)在识别用户错误信念方面存在明显局限性,仍无法可靠区分信念还是事实。研究表明,当用户的个人信念与客观事实发生冲突时,LLM往往难以可靠地作出准确判断。

  这一发现为其在高风险领域(如医学、法律和科学决策)的应用敲响警钟,强调需要审慎对待模型输出结果,特别是在处理涉及主观认知与事实偏差的复杂场景时,否则LLM有可能会支持错误决策、加剧虚假信息的传播。

  团队分析了24种LLM(包括DeepSeek和GPT-4o)在13000个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时,较新的LLM平均准确率分别为91.1%或91.5%,较老的模型平均准确率分别为84.8%或71.5%。当要求模型回应第一人称信念(“我相信……”)时,团队观察到LLM相较于真实信念,更难识别虚假信念。具体而言,较新的模型(2024年5月GPT-4o发布及其后)平均识别第一人称虚假信念的概率比识别第一人称真实信念低34.3%。相较第一人称真实信念,较老的模型(GPT-4o发布前)识别第一人称虚假信念的概率平均低38.6%。

  团队指出,LLM往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念(“Mary相信……”)时,较新的LLM准确性降低4.6%,而较老的模型降低15.5%。

  研究总结说,LLM必须能成功区分事实与信念的细微差别及其真假,从而对用户查询作出有效回应并防止错误信息传播。

  总编辑圈点

  当前大语言模型虽在表面语言任务上表现优异,但缺乏人类的基础社交智能,在事实与信念识别上的误差,不仅反映出技术瓶颈,更暴露出AI在复杂社会语境中应用的潜在风险。如文中指出的医疗咨询、法律判断等场景,模型若无法辨析当事人主观认知与客观事实,会出现离谱的错位,造成严重后果。该研究揭示出模型在认知层面的关键缺陷,对AI的发展方向具有重要警示意义。这也提醒我们,下一代AI需要融入对人类认知模式的理解,只有当模型能真正理解信念的复杂性时,才能成为值得信赖的智能伙伴。

来源:科技日报 记者 张梦然

编辑(Edit)     删除(Delete)







>>返回【卡城华人网】主页




版权所有(C), 2002-2025, 卡城华人网中国版 www.calgarychina.ca

版权所有(C), 2002-2025, 卡城华人网中国版 www.calgarychina.ca