Hasty Briefsbeta

双语

Reasoning by Superposition: A Perspective on Chain of Continuous Thought

a year ago

#Reasoning
#Transformers
#Machine Learning

大语言模型（LLMs）通过思维链（CoTs）在推理任务中展现出强大性能。
在定向图可达性等推理任务中，连续型思维链的表现优于离散型思维链。
采用连续型思维链的双层Transformer可在D步（图直径）内解决定向图可达性问题。
离散型思维链需要O(n²)步（n为顶点数），效率较低。
连续型思维链将多个搜索边界编码为叠加态，实现类似并行BFS的探索。
离散型思维链仅追踪单一路径，导致顺序搜索并可能陷入局部最优。
实验证实，连续型思维链无需显式监督即可自然学习多路径探索能力。