Hasty Briefsbeta

双语

Grammars of Formal Uncertainty

a year ago

#Uncertainty Quantification
#LLMs
#Formal Verification

大语言模型在自动化推理方面展现出潜力，但其概率特性与形式化验证的确定性需求存在根本矛盾。
本文系统研究了LLM生成形式化产物的故障模式与不确定性量化问题。
对五个前沿LLM的评估显示领域特性对准确率的影响显著，基于SMT的自动形式化性能波动达+34.8%至-44.5%。
现有不确定性量化技术（如词元概率熵）无法有效识别LLM输出错误。
研究提出概率上下文无关文法(PCFG)框架建模LLM输出，完善不确定性分类体系。
不确定性信号具有任务特异性，如在逻辑任务中文法熵的AUROC>0.93。
通过轻量级信号融合实现选择性验证，以最低弃用率达成错误率下降(14-100%)。
该方法将LLM驱动的形式化转变为可靠的工程实践。