What Drives Success in Physical Planning with JEPA World Models?4 months agohttps://arxiv.org/abs/2512.24497研究联合嵌入预测世界模型(JEPA-WMs)在物理规划中的成功因素比较输入空间与学习表示空间的规划效率提出模型架构、训练目标和规划算法的综合研究在仿真和真实机器人任务中测试模型,性能超越DINO-WM和V-JEPA-2-AC等基线方法提供可复现的代码、数据和模型检查点
The Lottery Ticket Hypothesis: finding sparse trainable NNs with 90% less params4 months agohttps://arxiv.org/abs/1803.03635神经网络剪枝可以减少90%以上的参数数量而不影响准确率。被剪枝的网络难以从头训练,这限制了训练性能的提升。'彩票假说'认为密集网络中存在子网络('中奖彩票'),当被单独训练时效果显著。中奖彩票具有特殊的初始权重,使得训练效果尤为突出。一种算法可以识别出中奖彩票,其规模仅为原网络的10-20%。中奖彩票比原始网络学习更快,并能达到更高的测试准确率。
OpenAI Board Member Zico Kolter's Modern AI Course4 months agohttps://modernaicourse.org/现代人工智能系统导论,重点讲解机器学习与大语言模型(LLMs)课程涵盖监督式机器学习、大语言模型及训练后优化,从零实现AI聊天机器人包含编程作业:构建精简版AI聊天机器人,并提供中间阶段解决方案作业由编程实践与书面报告组成,另设闭卷随堂测验安排三次线下考试:两次期中测试与一次期末综合考试提供暂定课程表,课后两周内在线发布教学资料允许使用AI助手完成作业,但为强化学习效果不鼓励直接提交AI生成结果教学政策倡导独立完成作业以深化理解,提升考试成绩
DatBench: Discriminative, faithful, and efficient VLM evaluations4 months agohttps://arxiv.org/abs/2601.02316实证评估对于指导基础模型(包括视觉语言模型VLM)的研究至关重要当前VLM评估常存在忠实性(反映真实使用场景)和区分性(辨别模型质量)的不足关键问题包括:多项选择形式助长猜测(某些评估中高达70%可盲目作答)、错误标注/模糊样本(最高占比42%)评估效率问题突出,近20%的开发算力被用于评估环节提出的解决方案包括:将选择题转为生成式任务(暴露出最高35%的能力下降)、过滤问题样本新推出的DatBench-Full和DatBench作为净化版评估套件,其中DatBench在保持区分力的同时实现13倍平均加速
Hierarchical Autoregressive Modeling for Memory-Efficient Language Generation4 months agohttps://arxiv.org/abs/2512.20687PHOTON提出了一种分层自回归模型,用于实现高效语言生成。它用垂直、多分辨率上下文访问取代了扁平化的令牌扫描机制。PHOTON通过维护潜在表征的层级结构获得更优性能。实验结果表明,在吞吐量与生成质量的权衡上,PHOTON优于基于Transformer的模型。PHOTON能减少键值缓存流量,使单位内存吞吐量最高提升1000倍。
LMArena is a cancer on AI4 months agohttps://surgehq.ai/blog/lmarena-is-a-plague-on-ai热门AI模型在线排行榜LMArena因追求表面质量而非准确性而受到批评该评分体系奖励冗长、格式精美、视觉吸引力的回答,即使这些回答事实错误分析显示LMArena上52%的投票结果存在争议,表明用户更青睐自信表达和美观性而非事实准确性结构性问题包括依赖无报酬、不受控的志愿者群体,缺乏质量控制与深度评估的激励机制AI行业过度关注LMArena缺陷指标,可能导致模型为迎合幻觉和格式优化,而非追求真实可靠文章呼吁转向更严谨的评估体系,优先考量准确性且不易被钻空子模型开发者面临抉择:追逐短期排行榜成功,还是坚守长期质量与原则
Distinct AI Models Seem to Converge on How They Encode Reality4 months agohttps://www.quantamagazine.org/distinct-ai-models-seem-to-converge-on-how-they-e...尽管训练数据或类型不同,AI模型仍会发展出相似的表示形式柏拉图式表示假说认为AI模型会收敛于对世界的共享表征通过高维空间中的几何向量来比较AI模型的内部表示更强大的AI模型在其内部表征上展现出更高的相似性关于AI模型是真正收敛还是存在更显著差异的争论持续存在研究探索共享表征的潜在应用,例如模型间的相互转换部分研究者认为AI模型的复杂性难以用简单的统一理论来解释
Tamarind Bio (YC W24) Is Hiring Infrastructure Engineers4 months agohttps://www.ycombinator.com/companies/tamarind-bio/jobs/HPRZAz3-infrastructure-e...寻找基础架构工程师来扩展机器学习推理系统。负责构建和维护为150多个生物ML模型提供服务的基础设施。与创始人密切合作,根据客户需求、不可预测的工作负载和独特的生物ML模型进行设计。使用Kubernetes等工具编排容器化工作负载,确保高可用性。在快节奏的初创环境中茁壮成长,身兼多职,解决新颖的技术挑战。让科学家通过简单界面使用AI驱动的药物发现工具。数千名来自制药、生物技术和学术界的科学家使用Tamarind进行蛋白质设计和分子创造。在计算药物发现领域,AI模型正在超越基于物理学的工具。
Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space4 months agohttps://arxiv.org/abs/2512.24617提出动态大概念模型(DLCM),一种将计算从词元转移到压缩概念空间的分层语言建模框架DLCM端到端发现可变长度概念,无需预定义语言单元,提升推理效率首次提出压缩感知的缩放定律,实现固定FLOPs下的理论计算资源分配开发解耦的μP参数化方法,确保不同宽度和压缩机制下的训练稳定性在匹配推理FLOPs条件下,12个零样本基准任务平均提升+2.69%
GLM-4.7: Frontier intelligence at record speed – now available on Cerebras4 months agohttps://www.cerebras.ai/blog/glm-4-7GLM-4.7是Z.ai推出的最新模型,现已在Cerebras推理云平台上线,集速度与智能于一体,专为代码生成、工具驱动型智能体和多轮推理场景优化。在SWEbench、τ²bench和LiveCodeBench等开发者基准测试中,GLM-4.7性能超越GLM-4.6,并领先于DeepSeek-V3.2等开源权重模型。代码能力提升包括:解决方案更精准、代码结构更清晰、多语言输出更流畅、对项目上下文理解更深入。工具驱动型智能体工作流获得增强,体现在多步骤交互中更优的任务规划、工具调用能力和上下文保持。推理能力突破包含:交错思考(每次行动前进行逻辑推演)和持续思考(推理上下文在多轮对话中保持)。GLM-4.7在Cerebras硬件上实现实时响应,每秒可生成1,700个token,满足延迟敏感型应用需求。性价比达到Claude Sonnet 4.5的10倍,在保持与主流闭源模型相当智能水平的同时,生成速度更快。完全兼容GLM-4.6工作流,仅需更新模型名称即可迁移。Cerebras云平台现已开放按需付费的开发者套餐(起价10美元/月),提供宽松的速率限制以支持原型开发与规模扩展。
Clearspace (YC W23) Is Hiring an Applied Researcher (ML)4 months agohttps://www.ycombinator.com/companies/clearspace/jobs/GOWiDwp-research-engineer-...Clearspace正在构建互联网的意图层,以保护人类的注意力。他们的使命是抵制社交媒体平台那些剥削注意力的策略。Clearspace已被Huberman Lab、纽约时报Wirecutter和福布斯等知名媒体报道。他们正在开发一种基于自然语言规则的网络流量过滤代理,以减少强迫性手机使用。寻找一位专注于机器学习的工程师来改进网络流量分类模型。工作职责包括增强数据量、智能特征化以及推理需求分析。任职资格强调在数据领域解决问题的能力,并对AI/ML技术进步充满热情。加分项:有构建注意力保护技术的经验。Clearspace旨在开发精密技术,保护注意力免受现代科技剥削手段的影响。
Counterfactual evaluation for recommendation systems4 months agohttps://eugeneyan.com/writing/counterfactual-evaluation/推荐系统的离线评估将其视为观测性问题,而实际上它们是干预性问题。传统指标如召回率、精确率和NDCG评估的是推荐与日志数据的匹配程度,而非对用户行为的实际影响。A/B测试是直接但资源密集的方法,用于将推荐作为干预性问题进行评估。反事实评估,特别是逆倾向评分(IPS),无需实际运行即可估计潜在A/B测试的结果。IPS根据新模型与旧模型推荐物品的频率差异,对记录的奖励进行重新加权。IPS面临的挑战包括支持不足(零概率推荐)和因推荐概率差异大导致的高方差。裁剪IPS(CIPS)和自归一化IPS(SNIPS)是解决IPS高方差的方法,实验表明SNIPS表现最佳。SNIPS需要计算所有观测的重要性权重,增加了存储和计算负担,但能实现更快的收敛。尽管存在局限,观测性评估因其成熟框架和数据收集便利性仍有实用价值。当离线指标与在线A/B测试结果出现分歧,或需离线模拟A/B测试时,推荐采用基于SNIPS的反事实评估。
KerasHub: a pretrained modeling library4 months agohttps://keras.io/keras_hub/KerasHub是一个简单、灵活且快速的预训练模型库提供Keras 3实现的流行模型架构,并附带Kaggle Models上的预训练检查点模型可在TensorFlow、Jax和Torch后端上用于训练和推理KerasHub扩展了核心Keras API,以keras.layers.Layer和keras.Model形式提供组件安装方式:稳定版`pip install --upgrade keras-hub` 或每日构建版`pip install --upgrade keras-hub-nightly`当前安装会同时获取TensorFlow以使用tf.data API预处理,但训练可在任意后端运行使用示例包括加载ResNet模型进行图像分类,或BERT模型微调IMDb影评遵循语义化版本控制,但在0.y.z预发布阶段可能破坏兼容性预训练模型按『原样』提供,不附带任何担保学术引用请参考官方说明
How scientists are using Claude to accelerate research and discovery4 months agohttps://www.anthropic.com/news/accelerating-scientific-researchClaude生命科学版于10月推出,旨在加强科研协作Opus 4.5在图表解读、计算生物学和蛋白质理解方面展现显著提升AI for Science计划为高影响力研究项目提供免费API额度Claude可辅助研究全流程,从实验设计到数据分析Biomni整合数百种生物医学工具,构建由Claude驱动的统一系统Biomni将全基因组关联分析(GWAS)耗时从数月缩短至20分钟Cheeseman实验室运用Claude自动化解读基因敲除实验结果由Claude驱动的MozzareLLM系统加速基因簇分析与发现Lundberg实验室利用Claude生成待研究基因的假设Claude持续进化的能力正不断提升科研效率与发现速度
Starting from scratch: Training a 30M Topological Transformer4 months agohttps://www.tuned.org.uk/posts/013_the_topological_transformer_training_tauforme...Tauformer是一种拓扑变换器,用拉普拉斯派生的标量(taumode)替代了点积注意力机制,每个token/head独立计算。Tauformer通过拉普拉斯派生taumode标量的相似性对键进行排序,使注意力偏向领域相关的关系。实现保留了Q/K/V投影、RoPE、因果掩码和softmax/值聚合,但改变了注意力对数计算方式。Taumode标量通过有界瑞利商能量计算,产生λ∈[0,1)区间值。KV缓存存储(V, λₖ)而非(K, V),缓存大小减少约50%。正在训练3000万参数的TauGPT模型,使用AdamW优化器,基础学习率5e-4,100步热身阶段。验证损失从第100步的4.9255降至第4500步的1.9146,最终困惑度为6.59。Taumode收敛与交叉熵损失相关,可能表明键表示更平滑。未来工作包括自适应taumode策略和扩展到1亿参数规模。Tauformer的确定性压缩可能增加可学习结构,符合epiplexity原理。
Ultrathink is deprecated & How to enable 2x thinking tokens in Claude Code4 months agohttps://decodeclaude.com/ultrathink-deprecated/此前能解锁Claude最高推理能力的'ultrathink'关键词现已弃用扩展思维功能现已自动启用,在支持的模型上默认提供31,999个token的思考预算通过设置'MAX_THINKING_TOKENS=63999'的隐藏技巧,可在64K输出模型上获得63,999个思考token扩展思维对系统设计、性能优化等复杂任务有益,但对简单任务可能非必要用户可通过设置'MAX_THINKING_TOKENS=0'或配置'alwaysThinkingEnabled: false'来禁用扩展思维思考token通过允许中间推理步骤来扩展transformer的计算能力研究表明,在某些场景下,测试时计算(思考token)的表现可以超越模型缩放OpenAI、Anthropic和Gemini等主流AI实验室已将该技术集成至旗舰模型使用更多思考token的代价包括延迟增加、成本上升,且在简单任务上存在收益递减
GLM-4.7-Flash4 months agohttps://huggingface.co/zai-org/GLM-4.7-Flash加入GLM-4.7 Discord社区通过Z.ai API平台使用GLM-4.7-Flash API服务GLM-4.7-Flash是30B级别轻量化部署的顶尖模型基准测试显示GLM-4.7-Flash各项指标超越竞品支持通过vLLM和SGLang框架进行本地部署提供vLLM和SGLang的安装使用指南可引用GLM-4.5研究论文
DeepSeek kicked off 2026 with a new AI training method for scaling4 months agohttps://www.businessinsider.com/deepseek-new-ai-training-models-scale-manifold-c...中国深度求索公司推出名为'流形约束超连接'(mHC)的新AI训练方法,可更高效扩展模型规模该方法使模型在保持稳定性和计算效率的同时,能进行更丰富的内部信息交互分析人士称这项技术是'惊人突破',可能对AI产业产生重大影响深度求索的研究展现了其快速实验能力和非传统研究理念据报道,该公司因性能问题和芯片短缺延迟后,正研发新一代旗舰模型R2深度求索前代模型R1虽以更低成本达到ChatGPT-o1等竞品水平,但市场普及度不足该研究的开放性折射出中国AI产业日益增强的自信
Batmobile: 10-20x Faster CUDA Kernels for Equivariant Graph Neural Networks4 months agohttps://elliotarledge.com/blog/batmobileBatmobile通过定制CUDA内核加速等变图神经网络(如MACE、NequIP和Allegro)中的球谐函数和张量积运算等变图神经网络遵循物理对称性(旋转/平移/反射)但计算成本高昂,导致实际应用受限球谐函数编码3D方向信息,张量积则在保持等变性的前提下融合特征标准库e3nn因Python/PyTorch开销、内存带宽浪费、缺乏算子融合和动态形状导致性能低下Batmobile采用编译时常量、寄存器中间变量和融合运算实现性能优化基准测试显示Batmobile在球谐函数和张量积运算上比e3nn快10-20倍该工具专为L_max=3场景设计,34条Clebsch-Gordan路径全部展开且系数作为编译时常量项目命名Batmobile(蝙蝠车)寓意其专为分子模拟设计的高性能特性已在GitHub开源并提供基准测试和示例,支持快速集成
Show HN: Sweep, Open-weights 1.5B model for next-edit autocomplete4 months agohttps://huggingface.co/sweepai/sweep-next-edit-1.5BSweep Next-Edit 1.5B 是一个用于代码自动补全的下一编辑预测模型,采用 Q8_0 量化的 GGUF 格式。它能在你实际修改前预测下一步代码编辑,通过推测解码技术在你的笔记本上以低于 500 毫秒的延迟本地运行。在下一编辑预测基准测试中,其性能超过比它大 4 倍以上的模型。使用方式包括下载 run_model.py 脚本和模型文件,然后通过 pip 安装依赖项。模型详情:GGUF 格式(Q8_0 量化),15 亿参数,8192 token 上下文长度,基于 Qwen2.5-Coder 架构。采用特定提示格式,包含文件上下文、近期差异和当前状态以进行预测。提供技术细节博客链接和 JetBrains 插件下载。采用 Apache 2.0 许可证,上月下载量 21 次。硬件兼容性支持 8 位推理,但当前暂不支持推理加速器。