双语

Show HN: Small World – The "Preact" of 3D Web Engines (TypeScript, WebGPU)
20 days ago
- 该文本描述了一种混合渲染系统，其采用优化的Cook-Torrance物理基于渲染着色，可动态编译以适应WebGL2和WebGPU。
- 该系统包含一个零分配的有限状态机工具，通过递归更新循环原生执行行为逻辑。
- 后处理滤镜采用专门的着色器通道，以实现夜视、VHS跟踪、画面故障和黑白电影等效果。
- 共形反射涉及镜面几何、程序化棋盘贴图以及实时球体反演计算。
- 八叉树交互提供了类似DOM的指针事件，由优化的O(log n)光线投射算法支持。
From Muon to Gradient Clipping: Some Thoughts on QK Stability
12 days ago
- Muon优化器在函数空间中工作，通过对权重更新的谱范数施加约束，旨在限制对任何输入的函数变化，这与Adam等参数空间优化器形成对比。
- 将标准Muon应用于Transformer的Q和K矩阵会导致训练不稳定，因为它分别约束W_Q和W_K的更新，未能控制它们在注意力分数中的耦合乘积，这可能导致谱范数爆炸。
- 将Muon修改用于QK的一种理论尝试是直接约束注意力分数矩阵S的变化，这引出了一个优化问题，其约束条件耦合了ΔW_Q和ΔW_K。
- 通过三角不等式解耦这一约束并解决子问题，得到了理论上简洁的更新公式，但它需要昂贵的伪逆计算，使其不切实际。
- 数学简化表明，梯度G_Q自然地包含W_K，这引出了一个涉及投影矩阵的几何解释，然而外部的伪逆仍然存在，未能解决计算瓶颈。
- 通过统一的双线性矩阵B = W_Q W_K^T 来看待注意力，将Muon更新简化为单矩阵约束，但这种方法由于参数爆炸（d^2对2dh参数）而不实用。
- 多头注意力可视为完整双线性注意力的低秩近似，这与LoRA的结构相联系，提示了开发用于参数高效微调的Muon-LoRA优化器的潜力。
- 由于计算障碍，实际解决方案转向经验近似，如梯度裁剪或Kimi的MuonClip，这些方法利用批信息来近似最坏情况行为，从而稳定训练。
AttoChess, a complete, playable chess program for 16-bit x86 DOS in 278 bytes
9 days ago
- AttoChess通过重新思考棋盘显示、走棋解码和搜索循环进行优化，节省了10字节。
- 棋盘显示直接使用int 29h中断绘制到控制台，移除了渲染缓冲区和DOS的09h功能。
- 启动过程去除BIOS模式设置，使用确定性假设和cld指令以缩小代码体积。
- 输入解码器将常量折叠到基地址中，利用16位指针运算和imul指令提高效率。
- 搜索循环通过比较指针释放CX寄存器，避免从栈中重新加载深度信息。
- 兵的行进方向通过异或操作与颜色位折叠，使两种颜色的处理共用同一路径。
Fable 5 vs. GPT-5.6 Sol on an NP-Hard Problem: Does /goal help?
7 days ago
- Claude Fable 5在NP难优化问题上表现优于GPT-5.6 Sol，展现出更优的稳定性并产出了最佳整体解决方案。
- /goal模式呈现混合结果：在部分测试中改善了表现，但在其他测试中引发了显著衰退。尽管在多数独立试验中获胜，却导致了平均性能的下降。
- 研究指出/gool并非通用的'加倍努力'开关，它会改变控制循环和搜索路径，从而可能放大决策中的优劣两方面效应。
GNU C Library 2.44 Released With /etc./tunables.conf, More Optimizations
6 hours ago
- 引入了系统范围内的可调参数配置文件 /etc/tunables.conf，其持久性优于环境变量
- 实现了经 FMA 增强的双曲余弦函数，性能提升约 35%
- 从 CORE-MATH 项目导入了经过优化且正确舍入的数学函数
- 为 LoongArch CPU 添加了优化，并引入了 LoongArch32 32 位支持
- 在 AArch64 和 RISC-V 上优化了多种函数

Hasty Briefsbeta

optimization

Show HN: Small World – The "Preact" of 3D Web Engines (TypeScript, WebGPU)

From Muon to Gradient Clipping: Some Thoughts on QK Stability

AttoChess, a complete, playable chess program for 16-bit x86 DOS in 278 bytes

Fable 5 vs. GPT-5.6 Sol on an NP-Hard Problem: Does /goal help?

GNU C Library 2.44 Released With /etc./tunables.conf, More Optimizations