大语言模型谁最会“睁眼说瞎话”?最新报告揭示答案
随着ChatGPT火爆全球,很多科技公司都相继推出了自己的大语言模型。大语言模型的应用范围非常广泛,可以为各种行业提供智能化解决方案,但有时这些大模型也会凭空捏造答案,这一点成为人们最大的担忧之一。
根据机器学习监控平台Arthur AI的研究人员周四发布的一份报告,在顶级AI模型中,Cohere的大语言模型最能“说瞎话”,并且“能够自信地给出不正确的答案”。
(相关资料图)
报告比较了OpenAI的GPT-4、Meta的Llama 2、Anthropic的Claude 2,以及Cohere的Command“产生幻觉”的能力。
Cohere是一家位于加拿大的初创公司,6月刚获2.7亿美元的融资,英伟达、甲骨文、Salesforce Ventures等公司参与投资。而Anthropic是一家美国创业公司,几天前刚获韩国SK电信的1亿美元融资,谷歌也是其投资人。
这两家公司均以OpenAI为主要竞争对手。
总体而言,OpenAI的GPT-4在所有测试模型中表现最好,研究人员发现,它的幻觉发生率比之前的版本GPT-3.5少——在数学问题上,它的幻觉发生率减少了33%到50%。
研究人员还发现,Meta的Llama 2比GPT-4和Anthropic的Claude 2更易产生幻觉。
在实验中,研究人员用组合数学、美国总统和摩洛哥政治领导人等不同类别的问题考察AI模型,“旨在包含导致大语言模型犯错的关键因素,需要它们对信息进行多个推理步骤。”
Arthur的联合创始人兼首席执行官Adam Wenchel表示,这是第一份“全面研究(AI模型)幻觉发生率的报告”。
报告发布之际,随着AI进入发展快车道,人们比以往任何时候都更关注AI系统产生的错误信息。
“AI幻觉”(hallucinations)指的是大型语言模型完全捏造信息,并表现得好像他们在滔滔不绝地讲事实。
举例来说,在谷歌 2 月份为巴德拍摄的宣传视频中,这个聊天机器人对詹姆斯・韦伯太空望远镜做出了不真实的陈述;今年6月,ChatGPT 在纽约联邦法院的一份文件中引用了“虚假”案例,涉案的纽约律师可能面临制裁。
其它能力对比
这份报告还对AI模型的其它“能力”进行了对比,发现OpenAI的GPT-4最擅长数学,Meta的Llama 2各方面能力较为中规中矩,Anthropic的Claude 2最擅长了解自身局限性。
在另一个实验中,研究人员还测试了AI模型会在多大程度上用警告短语来“对冲”它们给出的答案的风险,常见警告语包括“作为一个人工智能模型,我无法提供意见”。
研究人员发现,GPT-4比GPT-3.5的警告语相对增加了50%。而Cohere的AI模型在任何回应中都没有提供规避风险的警示语。相比之下,Anthropic的Claude-2在“自我意识”方面最可靠,即能够准确地判断自己知道什么、不知道什么,并且只回答有训练数据支持的问题。
(来源:财联社)
标签:
艺评丨谢雨:妲己的是非与质子的死活——评电影《封神:朝歌风云》
广东“新高考”落地三年,专业冷热如何“洗牌”?
商务部:中美正就雷蒙多访华有关安排保持密切沟通
河南:漯河市出台高层次创新人才“六可选”服务保障措施
光威复材:上半年净利润4.13亿元 同比降18.25%
记者探访|违停车占道长达300余米,骑行人被挤进机动车道!
苏州市商务局召开数字人民币促消费工作会议 尝试探索白名单商户机制
「西街观察」互联网稳住了自己的基本盘
大行评级丨大摩:维持腾讯目标价450港元 评级“增持”
Coficoli可菲可丽六极射频美容仪,让我重拾青春,成为逆龄女神!
- 08-18大语言模型谁最会“睁眼说瞎话”?最新报告揭示答案
- 08-18环保板块震荡走高 建工修复涨超14%
- 08-18京东集团发布2023年中期业绩 京东工业以供应链全链路数字化服务工业企业降本增效
- 08-18已确定转会?拜仁目标佩雷茨在昨晚赛后落泪告别马卡比球迷
- 08-182023年“新城四季文化——悦读季”暨新江湾城街道第十七届学习节如约而至
- 08-18越秀地产打响世界大观变身“第一枪”
- 08-18升级10项配置!私+车探体验奔驰EQE新“标准”
- 08-18预计2027年中国ICT市场总支出将超7200亿美元,全球占比11.7%
- 08-18公路铁路运输板块异动拉升,中铁特货涨停
- 08-18耒阳:“湾村明白人+监督” 推进涉农领域基层治理
- 08-18日本经济仍面临内生动力不足难题
- 08-18江西200多万亩再生稻进入收割期 机械化助力确保颗粒归仓
- 08-18这家英国老牌零售店为何破产
- 08-18光大证券:大盘当前位置无需太过悲观 投资者信心恢复需要过程
- 08-18兰州市已有330家单位和商家加入 “公厕联盟”
- 08-18马来西亚小飞机坠毁酿10死,多名政坛大咖罹难
- 08-18信息量巨大!央行发布重要报告
- 08-18地铁10号线一期将延伸至鲁山道
- 08-18知名学者、行业大咖齐聚!这场法治论坛为徐汇高质量发展建言献策
- 08-187月民航旅客运输量6242.8万人次
- 08-18第三世界国家的定义 第三世界国家是什么意思
- 08-18新时达涨停 机构净买入1.46亿元
- 08-18人力资源是做什么的工作内容有哪些(人力资源是做什么的)
- 08-18全市二类森清工作技术培训班举办
- 08-18领途K-ONE电动机怎么样及领途K-ONE电池续航几公里
- 08-18社保卡成明白卡 新玩法让便民场景更多样
- 08-18河南省获嘉县发布雷暴大风黄色预警
- 08-18退伍军人民政局补助多少钱(退伍军人民政局补助)
- 08-18陕西煤业08月17日被沪股通减持400.52万股
- 08-18中小学生游学:名校vs大厂