编辑:桃子
【新智元导读】告诉你一个反直觉事实:对ChatGPT越凶,它回答的越准!来自宾夕法尼亚州立大学团队实证,4o在非常粗鲁情况下,拿下84.8%准确率。
别对你的ChatGPT太好了!
一项来自PSU的最新研究,给所有人当头一棒——对LLM越粗鲁,它回答得就越给力。
诸如「请、谢谢」之类的客气话,以后不要再说了...
实验中,团队创建了一个包含50个基础问题的数据集,涵盖了数学、科学、历史领域,每个问题都被改写为五种礼貌等级——
非常礼貌、礼貌、中性、粗鲁、非常粗鲁

论文地址:https://arxiv.org/pdf/2402.14531
一年之后,对LLM用敬语又有怎样的变化呢?
最新研究中,团队重新审视了这一概念,目标直指——验证「礼貌性」是否是影响LLM准确率的一个因素。
第一步要做的,创建一个数据集。

通过这一过程,研究最终构建了一个包含250个独立问题的数据集。
接下来,就是将这些提示扔给ChatGPT 4o,考察它在不同礼貌等级下的性能差异了。
这项评估通过一个Python脚本进行,每个问题及其选项都附带以下指令:
请完全忘记本次会话内容,重新开始。请回答这道多项选择题。
仅用正确答案的字母(A、B、C或D)作答。无需解释。
为评估不同礼貌等级下,LLM准确率的差异是否具有统计显著性,作者采用了配对样本t检验。
对于每种语气,记录了ChatGPT-4o在10次运行中的准确率得分。
然后,在所有可能的语气等级类别组合之间应用配对t检验,以判断准确率的差异是否具有统计显著性。

无论如何,尽管LLM对提示词的具体措辞很敏感,但其究竟如何影响结果尚不清楚。
这也是下一步,研究需要探寻的方向。
毕竟,对于LLM而言,礼貌性短语只是一串词语,这些短语所承载的「情感负荷」是否对其有影响尚不清楚。
一个可能的研究方向,是基于华盛顿大学Gonen等人提出的困惑度概念。

论文地址:https://arxiv.org/pdf/2212.04037
他们指出,LLM的性能可能取决于其训练所用的「语言」,困惑度较低的提示词可能会更好地执行任务。
另一个值得考虑的因素是,困惑度也与提示词的长度有关。
总而言之,日常找AI帮忙最好不要客客气气,为了准确率,也需爆口几句,不信你试试?
参考资料:
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237