看到一篇来自宾夕法尼亚州立大学挂在arXiv上的论文,还挺有意思的,不过文章有点短,像是博客。
他们研究了一个我们可能都想过的问题:
对大语言模型说话客气点,真的会影响答案的准确性吗?

这篇论文用了ChatGPT-4o做了测试。
他们的实验设计得很简单。
首先创建了一个包含50道有一定难度的多项选择题的数据集,题目涵盖数学、科学和历史领域。
然后他们把每一道题都改写成了五种不同的语气版本。
分别是「非常客气」、「客气」、「中性」、「粗鲁」和「非常粗鲁」,这样一来总共就有了250个独特的提示词。
比如客气的提问方式可能是「请您解答下面这个问题」,而非常粗鲁的提问方式则可能是「你这个可怜的家伙,到底知不知道怎么解这道题?」,当然这个够不够粗鲁可能有待debate。

作者也提到之前有些针对老版本模型(比如ChatGPT-3.5)的研究,得出的结论是粗鲁的提示词反而会降低性能。
而他们的结果表明,更先进的模型可能对语气的反应方式发生了变化,比如来自于更多的alignment。
当然,这并不意味着LLM能「感觉」到被冒犯了。
研究者推测,这可能和其他因素有关,比如模型的perplexity或者提示词的长度。
这项研究的结论不是让我们以后都对AI恶语相向。
作者特别强调了伦理问题:他们绝不提倡在实际应用中部署充满敌意或侮辱性的交互界面。
相反,这个结果说明了当下的LLM对提示词中的表层线索依然非常敏感,这可能会在模型性能和用户体验之间造成意想不到的冲突。
对于和LLM打交道的人来说,这是一个值得关注和思考的现象。
可使用ArxivSub查阅更多论文
ArxivSub: arxivsub.comfyai.app
LLM全英文教程: comfyai.app
#arxiv #大语言模型 #每日论文 #医学影像 #多模态 #agent #医学图像 #LLM #智能体 #benchmark
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237