We Politely Insist: Your LLM Must Learn the Persian Art of Taarof
8 months ago
- #Taarof
- #LLMs
- #Cultural Competence
- 大语言模型(LLMs)在应对波斯文化特有的社交礼仪'塔阿鲁夫'时表现欠佳
- 塔阿鲁夫是波斯社会强调仪式性礼貌、谦逊、委婉的社交规范
- 研究者推出首个塔阿鲁夫评估基准TaarofBench,包含12个社交主题下的450个角色扮演场景
- 对五款前沿LLM的评估显示其文化胜任力存在显著缺陷,准确率较波斯母语者低40-48%
- 模型表现因话题而异,波斯语提示能提升效果,并呈现基于性别的应答差异
- 西方礼貌评估标准常与塔阿鲁夫规范相冲突,凸显文化框架的局限性
- 监督微调与直接偏好优化分别使模型对齐度提升21.8%和42.3%
- 33名参与者(母语者、文化传承者及非伊朗人)实验建立了文化熟悉度基线
- 本研究致力于开发具备文化意识的大模型,以提升全球社交互动处理能力