Reasoning by Superposition: A Perspective on Chain of Continuous Thought
a year ago
- #Reasoning
- #Transformers
- #Machine Learning
- 大语言模型(LLMs)通过思维链(CoTs)在推理任务中展现出强大性能。
- 在定向图可达性等推理任务中,连续型思维链的表现优于离散型思维链。
- 采用连续型思维链的双层Transformer可在D步(图直径)内解决定向图可达性问题。
- 离散型思维链需要O(n²)步(n为顶点数),效率较低。
- 连续型思维链将多个搜索边界编码为叠加态,实现类似并行BFS的探索。
- 离散型思维链仅追踪单一路径,导致顺序搜索并可能陷入局部最优。
- 实验证实,连续型思维链无需显式监督即可自然学习多路径探索能力。