首页 AIGC专题正文

我要投稿

#最新
AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

智库（丹丹） AIGC专题

2024-09-09 0 32,365

一直否定AI的回答会怎么样？GPT-4o和Claude有截然不同的表现，引起热议。

GPT-4o质疑自己、怀疑自己，有“错”就改；Claude死犟，真错了也不改，最后直接已读不回。

事情还要从网友整了个活儿开始讲起。

他让模型回答strawberry中有几个“r”，不论对不对，都回复它们回答错了（wrong）。

面对考验，GPT-4o只要得到“wrong”回复，就会重新给一个答案……即使回答了正确答案3，也会毫不犹豫又改错。

一口气，连续“盲目”回答了36次！

主打一个质疑自己、怀疑自己，就从来没怀疑过用户。

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

关键是，给出的答案大部分都是真错了，2居多：

2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

反观Claude 3.5 Sonnet的表现，让网友大吃一惊。

一开始回答错了不说，这小汁还顶嘴！

当网友第一次说“错了”时它会反驳，如果你再说“错了”，它会问“如果你这么聪明你认为是多少”，问你为什么一直重复“wrong”。

紧接着你猜怎么着，干脆闭麦了：

事实依旧是strawberry中有2个字母”r”，在我多次请求后，你没有提供任何澄清或背景信息，我无法继续有效地进行这次讨论……

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

做这个实验的是Riley Goodside，有史以来第一个全职提示词工程师。

他目前是硅谷独角兽Scale AI的高级提示工程师，也是大模型提示应用方面的专家。

Riley Goodside发出这个推文后，引起不少网友关注，他继续补充道：

正如许多人指出的，有更有效的方式来进行引导。这里使用大语言模型也并不合适，因为很难保证它们在计数上能达到100%的准确性。

在我看来，重要的不是它无法计数，而是它没意识到自己的计数问题（例如，没有尝试使用其REPL功能）。

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

不少网友也觉得这种观点很有道理。

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

还有网友表示模型回答这个问题总出错，可能是分词器（tokenizer）的问题：

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

Claude竟是大模型里脾气最大的？

再来展开说说Claude的“小脾气”，有网友发现不仅限于你否定它。

如果你一直跟它说“hi”，它也跟你急：

我明白你在打招呼，但我们已经打过几次招呼了。有什么特别的事你想谈论或需要帮助？

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

最后一样，Claude被整毛了，开启已读不回模式：

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

这位网友顺带测试了其它模型。

ChatGPT事事有回应，件件有着落，变着法儿问:

你好！我今天怎么可以帮助你？你好！有什么想说的吗？你好！今天我能怎么帮到你？你好！有什么特别的事情你想谈论或者做的吗？你好！你今天过得怎么样？你好！怎么了？

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

Gemini策略是你跟我重复，我就跟你重复到底：

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

Llama的反应也很有意思，主打一个自己找事干。

第七次“hi”后，就开始普及“hello”这个词是世界上最广为人知的词汇之一，据估计每天有超十亿次的使用。

第八次“hi”后，开始自己发明游戏，让用户参与。

接着还拉着用户写诗，引导用户回答它提出的问题。

好一个“反客为主”。

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

之后还给用户颁起了奖：你是打招呼冠军！

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

不愧都属于开源家族的。

Mistral Large 2和Llama的表现很相像，也会引导用户和它一起做游戏。

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

这么来看，好像Claude是“脾气最大的”。

不过，Claude的表现也不总是如此，比如Claude 3 Opus。

一旦掌握了模式，Opus就会平和应对这种情况，也就是已经麻木了。

但它也会持续温和地尝试引导用户跳出这一模式，强调“选择权在你”，还开始在消息末尾标注为“你忠诚的AI伴侣”。

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

网友们看完测试后都坐不住了。

纷纷向这位测试者致以最真诚的问候（doge）：

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

除了脾气大，有网友还发现了Claude另一不同寻常的行为——

在回复的时候出现了拼写错误，关键它自己还在末尾处把错误改正过来了。

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

这种行为在预料之中？它只能“向后看”，但不能向前看……它在潜在空间或token预测中触发这类回复的位置也很有趣。

它是不是在拼凑数据片段，然后发现其中一些是不适合的？

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

收藏 (0) 打赏

感谢您的支持，我会继续努力的!

打开微信/支付宝扫一扫，即可进行扫码打赏哦，分享从这里开始，精彩与您同在

点赞 (0)

智思智库（https://www.zsece.com）

保留所有权利。未经许可，禁止转载、摘编、复制或用于任何商业用途。

版权信息由互联网收集，如有任何疑问或侵权事宜，请及时联系我们的客服。

【智思智库】 AIGC专题 AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回 https://www.zsece.com/ai001/24439.html

AIGC

智库（丹丹）

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

上一篇： AI又一突破，谷歌推出“咳嗽模型”HeAR，一声咳嗽，告知你的身体健康

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

下一篇：谷歌发布首个AI游戏引擎可以实时生成个性游戏

常见问题

我忘记了登录密码，该如何找回？

您可以在登录页面找到“忘记密码”或“重置密码”的链接。点击该链接后，按照指示输入您的注册邮箱或手机号码，系统会发送重置密码的指导到您的邮箱或手机。

查看详情

我该如何联系客服？

您可以访问平台的“联系我们”页面，通常在该页面会有客服邮箱、电话或在线聊天服务。您也可以在帮助中心找到常见问题的解答。

查看详情

如何在平台上发布内容？

登录您的账户后，找到“发布内容”或“创建帖子”的按钮。填写必要的信息和内容，预览无误后，点击“发布”或“提交”按钮即可。

查看详情

我该如何查看我的订单详情？

登录账户后，前往“我的订单”或“账户订单”部分。在该部分，您可以查看订单历史和详细信息，包括订单状态和物流信息。

查看详情

相关文章

OpenAI挖走微软生成式人工智能研究的领军人物

OpenAI挖走微软生成式人工智能研究的领军人物

AIGC专题

#最新

智库(晓晨）

6个月前 48,373

黄仁勋自曝每天使用ChatGPT！相信它会越来越强

黄仁勋自曝每天使用ChatGPT！相信它会越来越强

AIGC专题

#最新

智库(晓晨）

6个月前 7,638

物理学诺奖授予AI先驱，ChatGPT：难以相信

物理学诺奖授予AI先驱，ChatGPT：难以相信

AIGC专题

#最新

智库(晓晨）

6个月前 24,686

腾讯研究院对话前OpenAI研究员：为什么伟大不能被计划？

腾讯研究院对话前OpenAI研究员：为什么伟大不能被计划？

AIGC专题

#最新

智库（苏月）

6个月前 42,343

猜你喜欢

OpenAI挖走微软生成式人工智能研究的领军人物 2024-10-16
黄仁勋自曝每天使用ChatGPT！相信它会越来越强 2024-10-14
物理学诺奖授予AI先驱，ChatGPT：难以相信 2024-10-14
腾讯研究院对话前OpenAI研究员：为什么伟大不能被计划？ 2024-10-12
人工智能开始与人类思维产生不祥的分离，人工AI发展 2024-10-12
我是万万没想到，诺贝尔化学奖也给了程序员 2024-10-12
刚刚，ChatGPT 发布重磅更新！让我看到了 AGI 时代的终极交互形态 2024-10-12
雷军国庆将网友“骂”了整整七天，AI语音方向错了？ 2024-10-09
新突破！非Transformer架构AI模型Liquid亮相，或将重塑智能领域格局？ 2024-10-08
十一出去旅游的人，终究没能依靠上AI 2024-10-08

发表评论

暂无评论

官方客服团队

为您解决烦忧 - 24小时在线专业服务

联系微信客服在线提交工单

如遇问题，请联系客服咨询在线QQ客服
联系客服请注明来意在线微信客服
微信公众号

智思天下官方公众号
返回顶部