Hasty Briefsbeta

双语

TaxCalcBench: Evaluating Frontier Models on the Tax Calculation Task

7 months ago
  • #Benchmarking
  • #Tax Calculation
  • #Artificial Intelligence
  • 目前AI无法准确填报美国个人所得税。
  • TaxCalcBench作为基准被引入,用于评估AI模型在税务计算任务上的表现。
  • 最先进的模型成功计算了不到三分之一的联邦所得税申报表。
  • 常见错误包括误用税率表、计算错误以及资格判定不正确。
  • 需要额外的基础设施来改进AI在税务计算中的应用。