Hasty Briefsbeta

双语

Differences in link hallucination and source comprehension across different LLM

a year ago

#AI
#LLMs
#Fact-Checking

作者探讨了不同大语言模型（LLMs）在链接幻觉和文献理解能力上的差异，重点关注它们准确引用和总结现实世界文献的能力。
研究采用了一个现实案例来测试LLMs：基于MTA研究数据，评估MAHA报告中关于兴奋剂治疗ADHD有效性的结论。
MTA研究最初显示兴奋剂在14个月时具有疗效，但3年后的跟踪研究发现效果差异消失，不过方法论问题使结论解读复杂化。
测试了不同LLMs（Claude、Gemini、ChatGPT）对MTA研究的解读和引用能力，结果参差不齐。
Claude Sonnet 3.7、4和Opus均未能正确解读研究，而ChatGPT o3的表现出乎意料地优秀。
Gemini 2.5和ChatGPT 4.1存在链接幻觉问题，提供了错误或无关的文献来源。
研究使用了情境化引擎SIFT工具箱来改进模型表现，但某些模型的链接幻觉问题依然存在。
当配合SIFT工具箱使用时，Claude Sonnet 4提供了最佳摘要和准确来源，且没有出现幻觉链接。
作者强调需要系统化测试LLMs的幻觉和文献引用问题，并指出链接幻觉较少的模型往往能给出更优质的答案。