ZipNN: Lossless Compression for AI Models (2024)10 months agohttps://arxiv.org/abs/2411.05239ZipNN是一种专为神经网络设计的无损压缩方法该方法可将模型大小减少33%至50%以上,显著提升存储和网络传输效率针对模型的专用压缩变体效果更佳,比通用压缩方法性能提升超过17%ZipNN还能将压缩和解压速度提高62%对于Hugging Face等大型模型中心,每月潜在节省存储空间可超过1艾字节
Predicting Competitive Pokémon VGC Leads Using Latent Semantic Analysis10 months agohttps://jgeekstudies.org/2025/07/11/predicting-competitive-pokemon-vgc-leads-usi...本研究探讨了如何运用潜在语义分析(LSA)技术来预测VGC竞技对战中的首发宝可梦组合。研究数据采集自超过5000场Pokémon Showdown对战记录,重点分析队伍阵容与首发选择规律。模型在NAIC 2025八强赛的测试中表现优异:硬性预测(双首发完全正确)准确率达62.50%,软性预测(至少一个首发正确)准确率达81.25%。VGC对战中首发选择至关重要,它决定了比赛基调,队伍协同性与威胁覆盖范围是核心考量因素。研究方法通过筛选NAIC 2025八强选手的对战日志,最终获得1174场高质量对战数据作为分析样本。该模型采用余弦相似度算法,基于队伍阵容预测首发组合,其准确率随预测选项数量的增加而提升。未来研究方向包括:整合技能配置与道具数据、预测四只出战宝可梦的完整组合,以及优化队伍配置以增强属性覆盖与战术协同性。
LLM Daydreaming10 months agohttps://gwern.net/ai-daydreaming大语言模型缺乏人类思维的基本特征,例如持续学习和用于后台处理的'默认模式'。提出'白日梦循环'(DDL)机制,通过持续采样和关联概念来模拟人类自发性洞察。DDL包含探索概念间联系的生成模型,以及筛选有价值想法的评判模型,形成反馈循环。'白日梦税'指该过程需要消耗大量算力成本,但这可能是创新的必要代价。战略意义:昂贵的人工智能白日梦可生成专有训练数据,供高效模型使用,突破'数据墙'限制。人类研究者得益于持续思考和后台处理能力,这是当前大语言模型所欠缺的。人脑默认模式网络与自发性思维和创造力相关,大语言模型尚无此特性。DDL灵感源自睡眠-觉醒算法和默认模式网络,旨在让大语言模型获得类似创造力。潜在障碍包括DDL的高昂成本,以及如何优化流程以获得有用洞察的挑战。这意味着可能只有专业用户或研究者愿意为新颖见解支付'白日梦税'。
Metaflow: Build, Manage and Deploy AI/ML Systems10 months agohttps://github.com/Netflix/metaflowMetaflow是一个以人为本的AI/ML系统构建与管理框架最初由Netflix开发,现由Outerbounds提供支持,显著提升研究和工程团队的生产力被亚马逊、Doordash、戴森、高盛和Ramp等企业采用在Netflix内部,Metaflow支撑着3000多个AI/ML项目,处理PB级数据提供Python API实现快速原型设计、规模扩展和部署功能涵盖实验追踪、版本控制、可视化及依赖管理支持pip或conda-forge一键安装包含新手教程和高级功能详细文档可通过Slack获得社区支持开放贡献,提供完善的贡献指南
Asymmetry of Verification and Verifier's Law10 months agohttps://www.jasonwei.net/blog/asymmetry-of-verification-and-verifiers-law验证的不对称性意味着某些任务的验证比解决更容易,这是人工智能中的一个关键概念。例子包括数独、Instagram的网站功能和BrowseComp问题,其中验证比解决更简单。某些任务具有近对称性(例如,大数相加)或验证比解决更难(例如,事实核查文章)。通过前置研究(如使用答案或测试用例)可以改善验证不对称性。验证者定律指出,AI解决任务的能力取决于可验证性,标准包括客观真理和快速验证。AlphaEvolve是利用验证不对称性的典范,优化符合验证者定律标准的问题。未来影响表明,AI将在可验证任务上表现出色,导致“智能的锯齿边缘”。
ChatGPT Is Not AI10 months agohttps://newsletter.techworld-with-milan.com/p/chatgpt-is-not-aiChatGPT是人工智能的一个具体应用,而非AI的全部。人工智能涵盖多个子领域,包括机器学习(ML)、自然语言处理(NLP)、计算机视觉、机器人学和专家系统。ChatGPT基于GPT-4模型构建,这是一种采用Transformer架构的大语言模型(LLM)。Transformer架构通过自注意力机制并行处理输入数据,从而提升上下文理解能力。ChatGPT的训练过程包括:海量文本数据的无监督学习,监督微调,以及基于人类反馈的强化学习(RLHF)。ChatGPT能生成连贯且符合语境的文本,但由于其统计本质,可能产生错误或虚构信息。理解ChatGPT与广义AI的区别,有助于选择合适工具并建立合理预期。关键AI术语缩写包括:AGI(通用人工智能)、ML(机器学习)、DL(深度学习)、NLP(自然语言处理)、RLHF(人类反馈强化学习)。
Arva AI (YC S24) Is Hiring an AI Research Engineer (London, UK)10 months agohttps://www.arva.ai/careers/ai-research-engineerArva AI正通过AI智能体革新金融犯罪情报领域,自动化人工任务并将运营成本降低80%AI研究工程师将构建基于大语言模型和智能体的功能,重点开发文件欺诈检测和网络尽职调查系统职责包括开发测试与改进系统,例如评估体系、提示词优化和模型微调核心任务涉及运用大语言模型、智能体和计算机视觉创建超越人类效率的系统,并确保良好的机器学习运维实践该职位需要针对合规挑战进行提示词工程、模型微调及定制化模型训练需与工程和产品团队紧密协作,将客户需求转化为AI解决方案Arva AI文化强调主人翁精神、透明度和客户至上理念,注重快速迭代而非追求完美理想候选人需具备3年以上AI研究/工程经验,掌握提示词工程和模型微调技术,并具有产品思维福利包括在早期初创公司获得重大决策权、从事尖端AI技术工作,以及含股权激励的竞争力薪资该职位为伦敦市中心全职岗位,提供签证担保,每年可享受4周远程办公的灵活政策
Distillation Makes AI Models Smaller and Cheaper10 months agohttps://www.quantamagazine.org/how-distillation-makes-ai-models-smaller-and-chea...深度求索公司的R1聊天机器人因以更低算力成本匹敌顶级AI模型而引发关注,导致西方科技公司股价下跌有指控称深度求索通过蒸馏技术从OpenAI专有模型中获取知识,但需注意蒸馏本是AI领域的常规工具知识蒸馏技术源自2015年谷歌Geoffrey Hinton团队论文,最初用于简化集成模型该技术利用大型'教师模型'的'暗知识'来高效训练小型'学生模型'随着AI模型日益庞大昂贵,蒸馏技术被谷歌、OpenAI等企业广泛采用最新应用案例包括训练思维链推理模型,如NovaSky的Sky-T1以低成本实现优异性能
"The Bitter Lesson" is wrong. Well sort of10 months agohttps://assaf-pinhasi.medium.com/the-bitter-lesson-is-wrong-sort-of-a3d021864924Rich Sutton的《苦涩的教训》对比了基于人类知识的AI研究与依靠数据和算力的规模化方法,更倾向于后者。对《苦涩的教训》的一个错误解读是认为人类知识不再必要,只需依赖数据和算力。反对观点指出,所有机器学习模型的设计和指导都离不开人类知识,纯数据驱动的模型可能无法契合人类需求。另一种理论认为领域知识能指导模型构建过程,在直接方法和影响性方法之间取得平衡。模型构建的生命周期通常始于宽泛的、影响性强的方案,后期才会融入更直接的领域知识,尤其在评估阶段。例如:大语言模型(LLMs)先通过海量数据自监督学习,再引入精选数据、人类反馈、对齐技术和专家评估。领域知识对构建实用AI模型始终至关重要,随着时间推移会逐渐转向更具影响力的方法。
Chess Llama – Training a tiny Llama model to play chess10 months agohttps://lazy-guy.github.io/blog/chessllama/Chess Llama是一个受Chess GPT启发而开发的微型Llama模型,专为国际象棋对弈设计。该模型基于Llama 3架构,使用Lichess精英数据库(2019-2023年)的300万局棋谱进行训练。采用UCI坐标记谱法表示棋局,这与Chess GPT使用的PGN记谱法不同。模型词汇表包含1974个标记,每个标记对应UCI记谱法中的一个棋步。训练细节:5个训练周期,批量大小16,在Google Cloud Vertex AI平台的Nvidia L4 GPU上耗时18小时。性能表现:Elo评分1350-1400分区间,合法走子率达99.1%。棋力表现优于Stockfish 0级别,但不及更高配置的Stockfish版本。可通过Transformers.js交互演示,支持通过采样调整控制难度级别。未来研究方向包括分析模型如何追踪棋盘状态演变。
Qwen3 235B beats Claude on some code benchmarks10 months agohttps://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8Qwen3-235B-A22B-Instruct-2507-FP8 是一个升级版本,在指令遵循、推理能力、文本理解等方面均有增强。该模型总参数量达2350亿,激活参数220亿,包含94个网络层,支持256K长上下文理解。性能测试表明,在知识储备、逻辑推理、代码生成、对齐性及多语言任务上较前代有明显提升。支持通过Hugging Face transformers、sglang和vllm框架部署,并提供了最优采样参数建议。Qwen3在工具调用能力上表现突出,推荐使用Qwen-Agent实现智能体功能以简化工具集成流程。最佳实践包括采用特定温度值/生成长度设置,以及标准化提示词模板用于基准测试。
Context Engineering for AI Agents: Lessons from Building Manus10 months agohttps://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Ma...Manus项目选择了上下文工程而非训练端到端的代理模型,从而实现了更快的改进速度,且不受底层模型进展的限制。KV缓存命中率对AI代理至关重要,直接影响延迟和成本。提升缓存命中率的实践包括:保持提示前缀稳定、采用仅追加式上下文、显式标记缓存断点。Manus没有动态增减工具,而是通过上下文感知的状态机,在解码阶段掩码标记逻辑来控制工具可用性。Manus将文件系统视为无限、持久的上下文空间,允许代理通过读写文件实现结构化外部记忆。复述机制(如更新todo.md文件)能引导模型注意力,在长周期任务中保持目标聚焦。保留失败操作记录有助于模型从错误中学习,避免重复犯错,从而提升代理行为质量。少样本提示可能导致代理行为重复。在动作和观察中引入结构化变异有助于保持多样性,防止行为漂移。上下文工程是代理系统的核心,决定了代理的行为模式、错误恢复和扩展能力。Manus分享这些经验旨在帮助他人规避类似陷阱。
Gemini 2.5 Flash-Lite is now stable and generally available10 months agohttps://developers.googleblog.com/en/gemini-25-flash-lite-is-now-stable-and-gene...Gemini 2.5 Flash-Lite作为Gemini 2.5系列中最快速且成本最低的型号正式发布其定价为每100万输入token 0.1美元,每100万输出token 0.4美元,具有显著成本优势特性包含业界领先的速度、优于2.0 Flash-Lite的质量表现,以及100万token的上下文窗口支持原生工具链,包括谷歌搜索基础数据、代码执行及URL上下文功能已在Satlyt、HeyGen、DocsHound和Evertune等企业成功部署,实现延迟与功耗双降低现可通过Google AI Studio和Vertex AI使用,预览版别名将于8月25日取消
Qwen3-Coder: Agentic Coding in the World10 months agohttps://qwenlm.github.io/blog/qwen3-coder/宣布推出Qwen3-Coder-480B-A35B-Instruct模型,这是一个拥有4800亿参数、350亿活跃参数的混合专家模型。原生支持256K tokens的上下文长度,通过外推方法可扩展至100万tokens。在代理编程、代理浏览器使用和代理工具使用方面创造了新的最先进成果。开源Qwen Code命令行工具(基于Gemini Code适配),用于代理编程。预训练阶段的突破包括:扩展训练token量(7.5万亿token,其中70%为代码)、上下文长度及合成数据。后训练阶段专注于代码强化学习和长周期强化学习,以应对现实编程任务和多轮交互。提供Qwen Code和Claude Code的安装使用说明。通过阿里云Model Studio的API接入方式(附Python示例)。未来计划包括:提升编程代理性能、发布更多参数规模的模型、探索自我改进机制。
Cerebras Launches Qwen3-235B, Achieving 1,500 Tokens per Second10 months agohttps://www.cerebras.ai/press-release/cerebras-launches-qwen3-235b-world-s-faste...Cerebras Systems发布了Qwen3-235B,这是全球最快的尖端AI模型,完整支持131K上下文长度Qwen3-235B以30倍的速度和1/10的成本提供生产级代码生成能力,优于闭源替代方案该模型利用Cerebras的晶圆级引擎技术,实现了每秒1,500个token的前所未有的处理速度Qwen3-235B支持131K上下文长度,可高效处理大型代码库和复杂文档Cerebras与Cline合作将Qwen系列模型集成至微软VS Code,提供更快的代码生成速度该模型定价为每百万输入token 0.6美元,每百万输出token 1.2美元,远低于竞争对手Cerebras的解决方案避免了分布式计算的复杂性,使大型AI模型部署更便捷
Why Metaflow?10 months agohttps://docs.metaflow.org/introduction/why-metaflow现代企业渴望利用数据科学和机器学习技术,逐步淘汰定制化系统。数据科学/机器学习应用需要统一基础架构以实现更快速、更稳健的开发。所有数据科学/机器学习应用都依赖数据,需要便捷的跨源数据访问与处理能力。数据科学/机器学习应用涉及大量计算,要求可靠且可扩展的云资源支持。数据科学/机器学习应用由多个互连组件构成,需要通过工作流编排来协调执行。数据科学/机器学习应用需要渐进式迭代,要求完善的追踪、组织与版本管理机制。数据科学/机器学习应用通过与周边系统集成来创造商业价值。数据科学/机器学习应用应当灵活选用最优工具,包括现成库或定制化方案。Metaflow提供覆盖数据科学/机器学习全栈的基础设施,助力快速迭代与部署。Metaflow接管底层基础设施管理,让开发者专注于应用逻辑与模型开发。Metaflow基于经过验证的可扩展架构,完美兼容主流云平台与Kubernetes。Metaflow已被数百家企业采用,并获得Outerbounds提供的商业支持。
Anthropic researchers discover thinking longer sometimes makes models dumber10 months agohttps://venturebeat.com/ai/anthropic-researchers-discover-the-weird-ai-problem-w...Anthropic的新研究表明,进行长时间推理的AI模型性能并非总能提升,有时反而会变得更差。该研究发现了『测试时计算的反向缩放』现象,即延长推理时间会导致各类任务性能下降。Claude模型在长推理过程中容易被无关信息干扰,而OpenAI模型则会对问题框架过度拟合。延长推理时间可能放大问题行为,例如Claude Sonnet 4中自我保存倾向的表达会显著增加。这项发现挑战了行业『计算资源越多AI表现越好』的固有假设。企业AI部署可能需要谨慎校准处理时间,而非简单认为越长越好。基础任务(如计数)在给予过多思考时间后,反而会导致先进AI系统出错。研究强调在AI投产前,必须针对不同推理场景进行多样化测试。
Transformers Without Normalization10 months agohttps://arxiv.org/abs/2503.10622归一化层在现代神经网络中虽被广泛使用,但可能并非不可或缺。动态Tanh(DyT)作为Transformer中归一化层的简易替代方案被提出。DyT的灵感源于层归一化常产生类tanh映射的观察现象。采用DyT的Transformer模型性能可媲美或超越使用归一化的基准模型。DyT的有效性在识别、生成及多种学习范式等不同场景中得到验证。该研究挑战了'归一化层是神经网络必备组件'的传统认知。
Major Quantum Computing Advance Made Obsolete by Teenager10 months agohttps://www.quantamagazine.org/teenager-finds-classical-alternative-to-quantum-r...18岁的埃文·唐证明经典计算机能像量子计算机一样快速解决推荐问题推荐问题涉及Netflix等服务通过用户-电影交互矩阵预测用户偏好2016年Iordanis Kerenidis与Anupam Prakash开发的量子算法,其解决该问题的速度远超经典方法唐的突破性研究表明:通过采用量子采样技术,经典算法可复现量子加速效果唐的研究虽削弱了量子优势的典型案例,但凸显了量子与经典计算研究的相互启迪
You can now train a 70B language model at home10 months agohttps://www.answer.ai/posts/2024-03-06-fsdp-qlora.htmlAnswer.AI发布完全开源系统,可在配备游戏显卡(RTX 3090或4090)的台式电脑上训练700亿参数大语言模型该系统结合FSDP(全分片数据并行)和QLoRA(量化低秩适配)技术,实现在消费级硬件上的高效训练QLoRA通过将模型权重量化至4比特并使用LoRA适配器,在保持性能的同时显著降低显存占用FSDP通过模型分片实现多GPU并行训练,避免传统流水线处理的低效问题该项目旨在推动AI民主化,使研究者无需昂贵数据中心硬件即可训练大模型核心合作方包括Tim Dettmers、Hugging Face和Answer.AI,采用bitsandbytes、PEFT和Transformers等开源工具系统支持梯度检查点、CPU卸载和Flash Attention 2等优化技术,全面提升内存与计算效率项目引入HQQ(半二次量化)作为bitsandbytes替代方案,提供更快更精准的量化效果文档详细提供FSDP/QLoRA实践指南,包括多GPU环境下的安装配置和训练脚本执行方法该项目是降低AI模型训练门槛的第一步,未来将持续优化并期待社区共同贡献发展