Hasty Briefsbeta

双语

Type-constrained code generation with language models

a year ago

#code generation
#machine learning
#type systems

大语言模型（LLMs）在代码生成方面取得成功，但由于缺乏形式化代码建模，常产生无法编译的输出
约束解码技术曾用于领域特定语言或语法特征，但在通用编程语言中难以处理类型错误
本文提出类型约束解码方法，利用类型系统引导代码生成并强制类型正确性
开发了新型前缀自动机和可居住类型搜索机制，确保LLM生成代码的类型健全性
该方法首先在简单类型语言上形式化，后扩展至TypeScript以增强实用性
基于HumanEval和MBPP数据集的评估表明，该方法使编译错误减少超50%，并提升功能正确性
该技术在不同规模LLM（包括参数量超300亿的模型）和模型家族中均表现有效
研究结果证明了用形式化类型系统规则约束LLM代码生成的普适性与有效性