LLM Output Drift in Financial Workflows: Validation and Mitigation (arXiv)

6 months ago

金融机构使用大语言模型（LLMs）处理对账、监管报告和客户沟通等任务，但输出漂移问题会削弱可审计性与信任度。
较小模型（如Granite-3-8B、Qwen2.5-7B）在T=0.0时能实现100%输出一致性，而GPT-OSS-120B等大模型仅12.5%，挑战了『模型越大越好』的固有认知。
研究提出金融校准的确定性测试框架、任务特定不变性检查、三级模型分类体系，以及具备双供应商验证的审计就绪认证系统。
对5个模型480次运行的评估显示：结构化任务（SQL）在T=0.2时仍保持稳定，而RAG任务出现显著漂移（25-75%），表明敏感性存在任务依赖性。
该框架符合金融稳定委员会（FSB）、国际清算银行（BIS）和商品期货交易委员会（CFTC）的监管要求，提供合规化AI部署路径。

Hasty Briefsbeta