Hasty Briefsbeta

双语

We Politely Insist: Your LLM Must Learn the Persian Art of Taarof

8 months ago
  • #Taarof
  • #LLMs
  • #Cultural Competence
  • 大语言模型(LLMs)在应对波斯文化特有的社交礼仪'塔阿鲁夫'时表现欠佳
  • 塔阿鲁夫是波斯社会强调仪式性礼貌、谦逊、委婉的社交规范
  • 研究者推出首个塔阿鲁夫评估基准TaarofBench,包含12个社交主题下的450个角色扮演场景
  • 对五款前沿LLM的评估显示其文化胜任力存在显著缺陷,准确率较波斯母语者低40-48%
  • 模型表现因话题而异,波斯语提示能提升效果,并呈现基于性别的应答差异
  • 西方礼貌评估标准常与塔阿鲁夫规范相冲突,凸显文化框架的局限性
  • 监督微调与直接偏好优化分别使模型对齐度提升21.8%和42.3%
  • 33名参与者(母语者、文化传承者及非伊朗人)实验建立了文化熟悉度基线
  • 本研究致力于开发具备文化意识的大模型,以提升全球社交互动处理能力