- 作者分享了一个个人轶事:尽管学习英语多年,仍对澳大利亚英语感到困扰
- 大语言模型(LLMs)在识别不同英语变体(如澳式、英式、印式)的情感和讽刺时面临类似挑战
- 新工具BESSTIE可评估LLMs对澳大利亚、印度和英国英语中情感与讽刺的识别能力
- LLMs对母语变体(澳式和英式)的表现优于非母语变体(如印度英语)
- 讽刺检测对LLMs尤其困难,准确率低至57-62%
- 科技公司宣传的LLM性能常被夸大,其在实际非美式英语环境中的表现远逊于此
- 国家语境对提升LLM效能至关重要,这体现在针对原住民英语和急诊应用等专项研究中