LLM Output Drift in Financial Workflows: Validation and Mitigation (arXiv)
6 months ago
- #AI Compliance
- #Machine Learning
- #Financial Technology
- 金融机构使用大语言模型(LLMs)处理对账、监管报告和客户沟通等任务,但输出漂移问题会削弱可审计性与信任度。
- 较小模型(如Granite-3-8B、Qwen2.5-7B)在T=0.0时能实现100%输出一致性,而GPT-OSS-120B等大模型仅12.5%,挑战了『模型越大越好』的固有认知。
- 研究提出金融校准的确定性测试框架、任务特定不变性检查、三级模型分类体系,以及具备双供应商验证的审计就绪认证系统。
- 对5个模型480次运行的评估显示:结构化任务(SQL)在T=0.2时仍保持稳定,而RAG任务出现显著漂移(25-75%),表明敏感性存在任务依赖性。
- 该框架符合金融稳定委员会(FSB)、国际清算银行(BIS)和商品期货交易委员会(CFTC)的监管要求,提供合规化AI部署路径。