The Principles of Diffusion Models6 months agohttps://arxiv.org/abs/2510.21890扩散模型的核心思想是逐步将数据破坏为噪声,然后学习逆转这一过程。扩散模型的三大理论视角:变分法(噪声消除)、基于分数(梯度学习)和基于流(速度场)。其共同基础是一个时间相关的速度场,通过连续轨迹将噪声转化为数据。应用领域包括可控生成、高效数值求解器,以及直接建立映射的流图模型。本专著为具备深度学习基础知识的读者提供概念解析与数学原理的体系化认知。
Weave (YC W25) is hiring a founding ML engineer6 months agohttps://www.ycombinator.com/companies/weave-3/jobs/ZPyeXzM-founding-ml-engineerWeave正在为工程团队开发提升生产力和效率的软件该公司资金充足,由顶级投资者支持,并处于快速增长阶段该职位将直接与首席技术官(Andrew)和首席执行官(Adam)共事理想候选人是具备端到端机器学习系统交付经验的优秀务实工程师候选人需具备同理心、出色沟通能力和坚韧品质技术栈包含React+TypeScript(前端)、Go(后端)及Python(机器学习)创始机器学习工程师将构建理解并优化软件工程工作的ML系统目标是通过智能解决方案让客户工作轻松十倍,从而赢得用户青睐
Modern Optimizers – An Alchemist's Notes on Deep Learning6 months agohttps://notes.kvfrans.com/7-misc/modern-optimizers.html像Adam这样的现代优化器是现代学习的支柱,但谱白化方法声称能超越Adam的性能。传统梯度下降使用欧几里得距离度量,但非欧几里得度量可以通过考虑参数敏感性来改进优化。白化度量源自高斯-牛顿矩阵的平方根,为优化提供了保守估计。自然梯度下降使用费舍尔信息矩阵,该矩阵与白化度量相关,并确保参数化不变的优化。谱范数下降通过将梯度投影到正交矩阵上,优化最大奇异值,从而与白化度量相关联。Adam/RMSProp、Shampoo/SOAP/SPlus、PSGD和Muon等优化器以不同的计算效率实现了谱白化方法。基准测试表明,SOAP和Muon等谱白化优化器在验证损失和与Adam的步骤比方面优于Adam。SOAP在每一步梯度更新中最为有效,而Muon提供了计算效率,这表明混合方法可能是最优选择。目前没有哪种优化方法能可靠地超越谱白化优化器,这表明优化技术需要进一步创新。
Continuous Autoregressive Language Models6 months agohttps://arxiv.org/abs/2510.27688提出连续自回归语言模型(CALM)以实现更高效的语言生成从离散的下一词预测转向连续的下一向量预测使用高保真自编码器将词块压缩为连续向量通过K倍减少生成步骤提升计算效率开发了免似然估计的训练、评估及可控采样框架相比离散基线模型展现出显著的性能-计算效率权衡优势确立了下一向量预测作为超高效语言模型的可扩展路径
Honda: 2 years of ml vs 1 month of prompting - heres what we learned6 months agohttps://www.levs.fyi/blog/2-years-of-ml-vs-1-month-of-prompting/大型汽车制造商面临代价高昂的召回事件,促使企业成立分析部门对保修索赔进行分类传统SQL查询难以应对现代保修索赔的语义复杂性,导致分类错误和效率低下2023年启动的监督式保修分类自动化项目在数据收集、预处理和部署环节遭遇挑战大语言模型(LLM)被重新评估为解决方案,在小样本学习和成本效益方面展现优势经过迭代式提示调优后,Nova Lite模型在多数分类场景达到或超越监督模型性能向LLM的转型标志着分类器开发范式的根本变革,降低了对标注数据和注释周期的依赖监督模型在稳定的大规模数据集场景仍具价值,而LLM在动态或数据稀缺环境中表现更优
The 1B Token Challenge: Finding the Perfect Pre-Training Mix6 months agohttps://huggingface.co/blog/codelion/optimal-dataset-mixing仅用1/10训练数据(10亿token对比100亿token)就实现了GPT-2 90%以上的性能表现发现最优数据集配比:50%学术PDF+30%DCLM基线数据+20%教育类网页数据静态混合策略优于课程学习方案,既避免了灾难性失效又提升训练速度关键发现:验证-泛化权衡、硬截断灾难、数据多样性的核心价值成功训练7000万参数的GPT-2-70M模型,性能比肩原版GPT-2基准测试显示性能几乎持平,但训练成本大幅降低(约节省50倍费用)开源发布预训练数据集及训练好的模型供社区使用
EyesOff: How I built a screen contact detection model6 months agohttps://ym2132.github.io/building_EyesOff_part2_model_training作者构建了一个名为EyesOff的自定义模型,用于检测是否有人正在窥视你的屏幕,以防止肩窥攻击。由于缺乏现成的数据集,作者手工标注了超过20,000张图像,并为预训练创建了合成的视线标签。最初考虑了Eye-Contact-CNN、MediaPipe和视线检测模型等方法,但由于各种原因被认为不合适。作者开发了一种两阶段训练方法:第一阶段涉及在视线回归任务上进行预训练,第二阶段对模型进行微调以用于屏幕接触分类。一个关键挑战是数据不足,这促使作者从视频会议数据集(VCD)和YouTube视频等来源创建了自定义数据集。最终模型在近距离和中距离范围内达到了约71%的准确率,表现最佳的是在扩展数据集上训练的模型。未来的改进包括收集更多数据、减小模型大小,以及可能采用双模型方法进行近距离和远距离检测。
Heretic: Automatic censorship removal for language models6 months agohttps://github.com/p-e-w/hereticHeretic是一种无需昂贵后训练即可消除基于Transformer语言模型审查机制的工具它结合了定向消融(abliteration)技术和由Optuna驱动的TPE参数优化器通过最小化拒绝率和与原模型的KL散度,Heretic可实现自动化去审查支持大多数稠密模型(包括多模态模型和部分MoE架构),但不支持SSM/混合模型在RTX 3090上约45分钟可完成Llama-3.1-8B等模型的去审查,系统通过基准测试优化批量大小去审查后用户可保存模型、上传至Hugging Face或进行测试对话Heretic实现了参数化定向消融变体,通过正交化矩阵消除拒绝方向的影响核心创新包括柔性消融权重核函数、浮点拒绝方向索引、各组件独立参数设计该工具综合多种消融技术和论文成果从头开发采用GNU Affero通用公共许可证发布
Hachi: An Image Search Engine6 months agohttps://eagledot.xyz/hachi.md.htmlHachi是一个自托管搜索引擎,专为跨设备、跨存储位置搜索个人数据而设计。当前版本主要实现图像搜索功能,未来计划支持视频、文本和音频搜索。该项目强调最小化外部依赖、高度可定制性,并持续探索语义搜索技术。核心功能包括人脸识别、元数据索引以及支持语义查询的向量搜索。后端采用Python和Nim编写,前端使用HTML/JS/CSS构建。系统支持分布式查询,致力于在不同硬件配置上实现高性能。集成机器学习模型处理人脸聚类、语义嵌入等任务。已在Windows和Linux平台完成测试,具备跨平台扩展潜力。项目理念包含:向开源学习、为个人使用优化、避免数据冗余存储。未来规划涵盖远程存储索引支持及用户界面优化等功能开发。
The End of the Train-Test Split5 months agohttps://folio.benguzovsky.com/train-test在Facebook构建臀部分类模型需要训练一个高精度、高召回率的CNN进行边缘检测。政策团队要求对性暗示内容开发更具上下文感知能力的模型,这导致LLM决策树面临挑战且准确率下降。标签不一致和政策模糊性引发问题,外包标注员难以把握‘性暗示’等复杂定义。专家参与对复杂任务至关重要,但其有限性使得大规模标注数据集难以持续维护。LLM需要清晰的自然语言规则和示例而非传统训练集,重点从超参数调优转向政策对齐。‘黄金集’中的高错误率和专家分歧凸显政策团队与工程团队需建立持续反馈闭环。传统训练-测试划分在复杂LLM任务中失效,因标签模糊性且需专家审查模型解释。影子模式测试和团队间直接沟通对解决边缘案例、提升模型准确率不可或缺。LLM擅长执行自然语言规则,但需严格政策对齐和持续评估以处理复杂分类。LLM在法律或内容审核等领域的未来,取决于解决对齐挑战和提升模型对错误的自省能力。
NeurIPS best paper awards 20255 months agohttps://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards...NeurIPS 2025宣布了七篇获得最佳论文奖和亚军奖的突破性论文获奖主题涵盖扩散模型理论、自监督强化学习、注意力机制和基准测试方法学关键论文包括研究语言模型多样性的《人工群体智能》、面向大语言模型的《门控注意力机制》以及探索自监督强化学习的《千层网络》其他获奖工作涉及扩散模型记忆机制、强化学习对大语言模型推理的影响、在线学习中的最优错误边界以及神经缩放定律评选委员会由机器学习各领域的顶尖学者组成,成员由程序主席提名并经过大会主席批准
Guidance: A cheat code for diffusion models5 months agohttps://sander.ai/2022/05/26/guidance.html无分类器扩散引导通过简单有效的方式提升条件扩散模型的生成质量扩散模型通过预测评分函数来建模高维数据分布条件扩散模型利用额外输入信息建模条件概率分布分类器引导方法依赖分类器实现条件控制但存在局限性无分类器引导通过条件丢弃技术避免单独训练分类器引导机制以多样性为代价增强条件信号遵循和样本质量引导技术可应用于自回归模型但效果异于扩散模型温度调节在扩散模型中效果弱于自回归模型引导机制是扩散模型近期在图像生成领域取得成功的关键因素
The Universal Weight Subspace Hypothesis5 months agohttps://arxiv.org/abs/2512.05117跨任务训练的深度神经网络展现出相似的低维参数子空间实证研究表明,无论初始化方式、任务或领域如何,神经网络都会收敛到共享的谱子空间对1100多个模型的模态谱分析发现:少数主方向上的通用子空间可捕获大部分方差谱分解技术揭示了跨任务和数据集持续被利用的稀疏联合子空间该发现为理解深度网络内部信息的内在组织方式及模型复用性、效率带来新启示有望通过训练和推理高效算法降低大规模神经网络的碳足迹
The Well: 15TB of Physics Simulations5 months agohttps://github.com/PolymathicAI/the_wellThe Well是一个大规模机器学习数据集集合,包含时空物理系统的数值模拟数据它提供15TB数据,涵盖16个跨领域数据集,包括生物系统、流体动力学和磁流体动力学模拟等领域这些数据集既可单独使用,也可作为机器学习与计算科学研究的综合基准测试套件支持通过PyPI安装或源码编译,并提供CUDA等不同硬件加速选项单个数据集大小从6.9GB到5.1TB不等,需要较大磁盘空间支持本地下载或通过Hugging Face流式读取,推荐本地下载以获得更好性能包含基准测试工具,并实现了替代建模的先进模型预训练模型检查点已托管在Hugging Face平台,便于直接加载使用该项目由Polymathic AI主导,汇集了全球多所研究机构的贡献鼓励研究者在论文中引用该项目,维护团队欢迎通过邮件咨询问题或反馈
Show HN: Cordon – Reduce large log files to anomalous sections5 months agohttps://github.com/calebevans/cordonCordon采用基于Transformer的嵌入技术和基于密度的评分机制,实现日志文件的语义异常检测。核心原理:重复模式视为正常;异常、罕见或聚集事件会被突出标记。功能特性包括语义分析、密度评分、噪声消除及多后端支持(sentence-transformers或llama.cpp)。GPU加速需配备Pascal架构及以上NVIDIA显卡;CPU模式始终可用。安装方式支持pip、uv安装及源码克隆开发模式。基础用法:通过窗口大小、k近邻数和异常百分位等参数运行Cordon分析日志。高级配置支持GPU加速、异常范围过滤及详细结果输出。Cordon可将大型日志压缩至语义关键段落,某些场景下缩减率高达98%。工作流涵盖日志摄取、分割、向量化、评分、阈值筛选、合并及格式化。可调参数如窗口尺寸、k近邻数和异常百分位适配不同日志类型。适用场景包括大语言模型预处理、初步分类、异常检测和探索性分析。GPU加速显著提升大规模日志处理速度,其中k-NN评分采用PyTorch实现。
AIsbom – open-source CLI to detect "Pickle Bombs" in PyTorch models5 months agohttps://github.com/Lab700xOrg/aisbomAIsbom是一款专用于机器学习产物的安全与合规性扫描工具通过对模型文件(.pt/.pkl/.safetensors)进行深度二进制检测,识别恶意软件风险及许可证违规安装方式:通过PyPI执行`pip install aisbom-cli`扫描命令:使用`aisbom scan ./项目文件夹`扫描ML项目在终端生成安全风险与法律合规性的综合评估报告输出符合CycloneDX v1.6标准的sbom.json文件(含SHA256哈希值和许可证信息)提供离线查看器aisbom.io/viewer.html可视化风险与合规统计数据可检测PyTorch文件中的RCE等安全风险及限制性许可证等法律风险核心功能包含:深度检测、Pickle炸弹检测器、许可证雷达、合规就绪输出支持通过`aisbom generate-test-artifacts`生成验证用测试产物可集成到CI/CD流程中,在代码合并前拦截不安全模型
Letta Code5 months agohttps://www.letta.com/blog/letta-codeLetta Code 是一个以记忆优先的编程代理,专为跨会话持久存在并通过使用不断改进的长效代理而设计。它专注于编程代理的持续学习和记忆能力,通过长期积累上下文和记忆来提升性能。可通过`/init`命令触发记忆初始化,使代理能通过深度研究学习现有项目。技能学习功能让代理能记住并应用重复任务的模式,从而提升未来任务表现。持久化状态支持代理通过Letta API查询历史对话和消息,提供向量搜索、全文搜索和混合搜索能力。Letta Code是TerminalBench排名第一的模型无关开源编程框架,性能媲美厂商专用框架。可通过npm或源码安装,支持与Letta开发者平台或自托管Letta服务器配合使用。
Show HN: Misata – synthetic data engine using LLM and Vectorized NumPy5 months agohttps://github.com/rasinmuhammed/misataMisata允许通过自然语言描述生成真实的多表数据集,无需编写模式或提供训练数据。支持自动模式生成、关系完整性、业务约束和大数据集流式处理(1000万+行)等功能。通过pip即可简单安装,支持Groq、OpenAI和Ollama等多种大语言模型提供商。用户可为SaaS、电子商务和健身应用等多种场景生成数据,并提供可定制选项。Misata包含噪声注入、自定义分布和条件值等高级功能,用于生成真实数据。性能指标显示其高速生成数据的能力,可高效处理数百万行数据。提供基于浏览器的试用版和企业支持,适用于复杂场景。由Muhammed Rasin在MIT许可证下开发。
Show HN: Autograd.c – a tiny ML framework built from scratch5 months agohttps://github.com/sueszli/autograd.c用C语言实现的极简反向模式自动微分引擎特性包括引用计数张量和竞技场分配的函数节点包含显式依赖计数和集中式梯度累积支持标量损失反向传播小型核心张量操作集,前向和反向代码紧密耦合通过CIFAR-10二分类数据集训练进行演示训练过程展示损失和准确率指标变化项目被描述为'微型torch,但更接近底层硬件'
TurboDiffusion: 100–200× Acceleration for Video Diffusion Models5 months agohttps://github.com/thu-ml/TurboDiffusionTurboDiffusion通过SageAttention、SLA和rCM技术将视频扩散模型加速100-200倍支持TurboWan2.1和TurboWan2.2等模型,最高支持720p分辨率可通过pip安装或源码编译,要求Python 3.9+和torch 2.7.0+环境提供不同检查点适配显存容量(RTX 5090用量化版/H100用非量化版)包含T2V和I2V模型的详细推理脚本,参数可自定义提供训练代码,支持FSDP2、Ulysses CP和SAC框架欢迎社区贡献,持续优化和功能集成正在进行中附相关研究论文与软件的引用说明