查看更多资讯

查看更多市场

182023-08

升级10项配置！私+车探体验奔驰EQE新“标准”

182023-08

信息量巨大！央行发布重要报告

182023-08

新时达涨停机构净买入1.46亿元

182023-08

中小学生游学：名校vs大厂

您当前位置：首页-行情 > -正文

大语言模型谁最会“睁眼说瞎话”？最新报告揭示答案

来源：财联社2023-08-18 21:23:21

随着ChatGPT火爆全球，很多科技公司都相继推出了自己的大语言模型。大语言模型的应用范围非常广泛，可以为各种行业提供智能化解决方案，但有时这些大模型也会凭空捏造答案，这一点成为人们最大的担忧之一。

根据机器学习监控平台Arthur AI的研究人员周四发布的一份报告，在顶级AI模型中，Cohere的大语言模型最能“说瞎话”，并且“能够自信地给出不正确的答案”。

(相关资料图)

报告比较了OpenAI的GPT-4、Meta的Llama 2、Anthropic的Claude 2，以及Cohere的Command“产生幻觉”的能力。

Cohere是一家位于加拿大的初创公司，6月刚获2.7亿美元的融资，英伟达、甲骨文、Salesforce Ventures等公司参与投资。而Anthropic是一家美国创业公司，几天前刚获韩国SK电信的1亿美元融资，谷歌也是其投资人。

这两家公司均以OpenAI为主要竞争对手。

总体而言，OpenAI的GPT-4在所有测试模型中表现最好，研究人员发现，它的幻觉发生率比之前的版本GPT-3.5少——在数学问题上，它的幻觉发生率减少了33%到50%。

研究人员还发现，Meta的Llama 2比GPT-4和Anthropic的Claude 2更易产生幻觉。

在实验中，研究人员用组合数学、美国总统和摩洛哥政治领导人等不同类别的问题考察AI模型，“旨在包含导致大语言模型犯错的关键因素，需要它们对信息进行多个推理步骤。”

Arthur的联合创始人兼首席执行官Adam Wenchel表示，这是第一份“全面研究（AI模型）幻觉发生率的报告”。

报告发布之际，随着AI进入发展快车道，人们比以往任何时候都更关注AI系统产生的错误信息。

“AI幻觉”（hallucinations）指的是大型语言模型完全捏造信息，并表现得好像他们在滔滔不绝地讲事实。

举例来说，在谷歌 2 月份为巴德拍摄的宣传视频中，这个聊天机器人对詹姆斯・韦伯太空望远镜做出了不真实的陈述；今年6月，ChatGPT 在纽约联邦法院的一份文件中引用了“虚假”案例，涉案的纽约律师可能面临制裁。

其它能力对比

这份报告还对AI模型的其它“能力”进行了对比，发现OpenAI的GPT-4最擅长数学，Meta的Llama 2各方面能力较为中规中矩，Anthropic的Claude 2最擅长了解自身局限性。

在另一个实验中，研究人员还测试了AI模型会在多大程度上用警告短语来“对冲”它们给出的答案的风险，常见警告语包括“作为一个人工智能模型，我无法提供意见”。

研究人员发现，GPT-4比GPT-3.5的警告语相对增加了50%。而Cohere的AI模型在任何回应中都没有提供规避风险的警示语。相比之下，Anthropic的Claude-2在“自我意识”方面最可靠，即能够准确地判断自己知道什么、不知道什么，并且只回答有训练数据支持的问题。

（来源：财联社）

标签：

查看更多滚动

2023-08-18

艺评丨谢雨：妲己的是非与质子的死活——评电影《封神：朝歌风云》

2023-08-18

广东“新高考”落地三年，专业冷热如何“洗牌”？

2023-08-18

商务部：中美正就雷蒙多访华有关安排保持密切沟通

2023-08-18

河南：漯河市出台高层次创新人才“六可选”服务保障措施

2023-08-18

光威复材：上半年净利润4.13亿元同比降18.25%

2023-08-18

记者探访｜违停车占道长达300余米，骑行人被挤进机动车道！

2023-08-18

苏州市商务局召开数字人民币促消费工作会议尝试探索白名单商户机制

2023-08-18

「西街观察」互联网稳住了自己的基本盘

2023-08-18

大行评级丨大摩：维持腾讯目标价450港元评级“增持”

2023-08-18

Coficoli可菲可丽六极射频美容仪，让我重拾青春，成为逆龄女神！

升级10项配置！私+车探体验奔驰EQE新“标准”

信息量巨大！央行发布重要报告

新时达涨停 机构净买入1.46亿元

中小学生游学：名校vs大厂

大语言模型谁最会“睁眼说瞎话”？最新报告揭示答案

新时达涨停机构净买入1.46亿元