Hasty Briefsbeta

双语

Grammars of Formal Uncertainty

a year ago
  • #Uncertainty Quantification
  • #LLMs
  • #Formal Verification
  • 大语言模型在自动化推理方面展现出潜力,但其概率特性与形式化验证的确定性需求存在根本矛盾。
  • 本文系统研究了LLM生成形式化产物的故障模式与不确定性量化问题。
  • 对五个前沿LLM的评估显示领域特性对准确率的影响显著,基于SMT的自动形式化性能波动达+34.8%至-44.5%。
  • 现有不确定性量化技术(如词元概率熵)无法有效识别LLM输出错误。
  • 研究提出概率上下文无关文法(PCFG)框架建模LLM输出,完善不确定性分类体系。
  • 不确定性信号具有任务特异性,如在逻辑任务中文法熵的AUROC>0.93。
  • 通过轻量级信号融合实现选择性验证,以最低弃用率达成错误率下降(14-100%)。
  • 该方法将LLM驱动的形式化转变为可靠的工程实践。