GLM-5 Technical Report3 months agohttps://arxiv.org/abs/2602.15763GLM-5是新一代基础模型,正从氛围编码向智能体工程转型该模型在前代产品的ARC(智能体、推理、编码)能力基础上进行了升级采用DSA技术降低训练与推理成本,同时保持长上下文一致性通过异步强化学习机制提升训练后优化效率引入创新的异步智能体强化学习算法,增强复杂交互场景下的学习能力在主流公开基准测试中达到最先进性能水平在实际编程任务和端到端软件开发中展现卓越能力相关代码、模型及更多资料已在线发布
GitHub - NirDiamant/RAG_Techniques: This repository showcases various advanced techniques for Retrieval-Augmented Generation (RAG) systems. RAG systems combine information retrieval with generative mo3 months agohttps://github.com/NirDiamant/RAG_Techniques鼓励支持该项目以推动RAG技术的创新发展。该仓库是检索增强生成(RAG)教程与技术的综合资源中心。RAG通过将信息检索与生成式AI结合,以提供更精准的响应,正在彻底改变人工智能领域。该项目旨在为研究人员和实践者提供资源,以突破RAG技术的边界。欢迎社区贡献,共同塑造和推进RAG技术的发展。展示了多种先进的RAG技术,包括简单RAG、查询转换和HyPE等。上下文压缩和多模态检索等技术增强了RAG系统的能力。提供了DeepEval和GroUSE等评估方法,用于衡量RAG系统的性能。代理型RAG和图RAG因其处理复杂查询和知识整合的能力而受到重点关注。提供实施指南和贡献规范,方便社区参与协作。
Machine learning-predicted insulin resistance is a risk factor for 12 types of cancer - PubMed3 months agohttps://pubmed.ncbi.nlm.nih.gov/41698886/机器学习预测的胰岛素抵抗(AI-IR)与12种癌症风险增加相关。在预测糖尿病发病率方面,AI-IR的表现优于BMI、代谢综合征(MetS)、TG/HDL比值和TyG指数。研究发现AI-IR与六种癌症显著相关:子宫癌、肾癌、食道癌、胰腺癌、结肠癌和乳腺癌。另外六种癌症也观察到名义关联:肾盂癌、小肠癌、胃癌、肝癌和胆囊癌、白血病、支气管和肺癌。综合癌症风险随AI-IR升高而增加,风险比为1.25(95%置信区间:1.20-1.31)。在预测综合癌症风险方面,AI-IR与MetS和TG/HDL比值相当,但优于BMI和TyG指数。AI-IR被提议作为识别糖尿病和癌症筛查高危人群的强效指标。
Step 3.5 Flash: Fast Enough to Think. Reliable Enough to Act3 months agohttps://static.stepfun.com/blog/step-3.5-flash/3.5 Flash是一款拥有1960亿参数的开源基础模型,每token仅激活110亿参数,具备高效推理和智能体能力。通过多token预测技术(MTP-3)驱动,实现100-300 tok/s的生成吞吐量,兼具深度推理与高速响应。在编程和智能体任务中表现卓越:SWE-bench Verified得分74.4%,Terminal-Bench 2.0得分51.0%。采用3:1滑动窗口注意力机制(SWA),支持经济高效的256K上下文窗口。针对高端消费级硬件优化,如Mac Studio M4 Max和NVIDIA DGX Spark本地部署场景。展现卓越的工具调用能力,可无缝集成MCP完成股票投资等复杂任务编排。在顶尖数理逻辑基准测试中表现优异:AIME 2025(99.8分)/HMMT 2025 Nov.(98.0分)。支持智能编程代理,能将复杂需求分解为代码库中的可执行步骤。深度研究任务得分65.27%(Scale AI研究评估体系)。配备多智能体协同框架,可处理复杂工作流。支持边缘-云端协同计算,在AndroidDaily Hard等复杂场景中提升表现。交互可靠性强,具备主动意图澄清和专业顾问能力。基于稀疏专家混合架构(MoE),解码和推理速度经过专项优化。可扩展强化学习框架(MIS-PO)确保长期稳定的自我迭代优化。与顶级开源模型对比测试显示,在推理/编程/智能体能力维度均表现强劲。已知问题包括对生成长轨迹的依赖,以及在专业领域稳定性略有下降。
Gemini 3.1 Pro3 months agohttps://deepmind.google/models/model-cards/gemini-3-1-pro/Gemini 3.1 Pro是Gemini 3系列的下一代版本,提供先进的多模态推理能力。它能处理文本、音频、图像、视频和代码库,上下文窗口达100万token,输出文本可达6.4万token。基于Gemini 3 Pro构建,与前代共享架构、训练数据、硬件和软件细节。通过AI Studio、Gemini API和Vertex AI的API提供,需遵守各自服务条款。在推理、多模态任务和安全性上超越Gemini 2.5 Pro,并附有详细基准测试数据。适合需要增强推理、创造力和战略规划的复杂应用场景。安全评估显示较Gemini 3.0 Pro有所提升,已通过前沿安全框架严格测试。在CBRN(生化放核)、网络安全、有害操纵等风险领域仍低于关键能力阈值。
Fast KV Compaction via Attention Matching3 months agohttps://arxiv.org/abs/2602.16284将语言模型扩展到长上下文场景的瓶颈在于键值(KV)缓存的容量限制现有的长上下文管理方法依赖基于词元空间的摘要技术,这种方式存在信息损失且可能损害模型性能Cartridges最新研究表明,潜在空间中的紧凑KV缓存能达到完整上下文性能,但需要耗时昂贵的优化过程本文提出注意力匹配技术,实现潜在空间的快速上下文压缩,保持注意力输出和每个KV头的质量分布该方法可分解为具有高效闭式解的简单子问题,显著改善了压缩速度与质量之间的权衡实验结果显示在部分数据集上实现50倍压缩仅需数秒,且质量损失极小
Surprising Effectiveness of Masking Updates in Adaptive Optimizers3 months agohttps://arxiv.org/abs/2602.15322在自适应优化器中掩码参数更新可以非常有效。掩码版RMSProp超越了当前最先进的优化器表现。随机掩码会引发曲率依赖的几何正则化,从而平滑优化轨迹。动量对齐梯度掩码(Magma)被提出作为自适应优化器的即插即用替代方案。Magma在LLM预训练中展现出持续增益,且计算开销可忽略不计。对于10亿参数规模的模型,Magma相比Adam降低超过19%的困惑度,相比Muon降低9%。
GitHub - huggingface/skills3 months agohttps://github.com/huggingface/skillsHugging Face技能是对AI/ML任务(如数据集创建、模型训练和评估)的标准化定义。这些技能可与主流编码代理工具互操作,包括OpenAI Codex、Anthropic的Claude Code、Google DeepMind的Gemini CLI和Cursor。每个技能都是独立文件夹,内含SKILL.md文件,包含YAML前置元数据及对编码代理的指导说明。不同工具对技能有不同命名:Claude称「Skills」,Codex用AGENTS.md,Gemini则称「extensions」。可通过类似`/plugin install <技能名称>@huggingface/skills`的命令为不同工具安装技能。代码库包含初始技能集,如hugging-face-cli、hugging-face-datasets和hugging-face-model-trainer。安装后,可直接在代理指令中调用技能执行特定任务。贡献者可通过复制现有文件夹、更新SKILL.md文件并添加条目到marketplace.json来创建新技能。CI流程会验证SKILL.md与marketplace.json中技能名称和路径的一致性。
Machine Learning Using Clinical and Cardiac MRI Features to Predict Long-term Outcomes in Acute STEMI - PubMed3 months agohttps://pubmed.ncbi.nlm.nih.gov/41701025/机器学习模型整合临床与心脏MRI数据,用于预测ST段抬高型心肌梗死(STEMI)患者的长期主要不良心血管事件(MACE)。研究纳入1066例STEMI患者,训练集与外部测试集来自不同医疗中心。机器学习模型的MACE预测综合AUC达0.91,显著优于传统预测模型。该模型能有效将患者分层至不同风险组,助力个体化风险评估。研究表明结合心脏MRI的机器学习技术比现有风险评分体系具有更高预后预测准确性。
GitHub - ggml-org/ggml: Tensor library for machine learning3 months agohttps://github.com/ggml-org/ggml专为机器学习开发的张量库,目前处于积极开发阶段。主要开发工作在llama.cpp和whisper.cpp代码库中进行。特性包括:跨平台底层实现、支持整数量化、广泛的硬件兼容性、自动微分功能、集成ADAM和L-BFGS优化器、无第三方依赖项、运行时零内存分配。包含克隆代码库和环境配置的指导说明。详细步骤演示如何构建示例程序并运行GPT-2小型117M参数模型。提供启用CUDA、HIP和SYCL加速支持的配置命令。包含Android NDK环境设置指南及在安卓设备上运行模型的说明。
Apple researchers develop on-device AI agent that interacts with apps3 months agohttps://9to5mac.com/2026/02/20/apple-researchers-develop-on-device-ai-agent-that...Ferret-UI Lite 是一款拥有30亿参数的轻量级模型,其性能可媲美甚至超越体积大24倍的大型模型。它属于Ferret系列产品线,该系列包括Ferret-UI和Ferret-UI 2,专为增强移动端界面理解能力而设计。该模型融合真实与合成训练数据,采用动态裁剪缩放技术和监督微调方法。通过针对特定GUI元素进行裁剪和重复预测,有效弥补了模型体积小的局限。其训练数据由多智能体系统自动生成,这些系统能与实时图形界面平台进行交互。模型的训练与评估覆盖Android系统、网页及桌面GUI环境。在短流程任务中表现优异,但处理复杂多步骤交互时仍存在不足。支持本地化私有化GUI交互,避免云端数据处理带来的隐私风险。
Development and Validation of a Frailty Risk Prediction Model for Preoperative Non-Small-Cell Lung Cancer Patients: A Cross-Sectional Study - PubMed3 months agohttps://pubmed.ncbi.nlm.nih.gov/41714831/本研究旨在利用临床参数和机器学习技术,开发并验证适用于非小细胞肺癌(NSCLC)术前患者的衰弱风险预测模型。共纳入489例术前NSCLC患者,分为训练集(n=342)和验证集(n=147)。采用FRAIL量表评估衰弱状态,衰弱/衰弱前期发生率为36.1%。关键预测因子包括年龄、BMI、合并症分级、疲劳程度、行走困难、肺功能及TyG指数。LightGBM模型表现最优,训练集AUC达0.965,验证集AUC为0.807。TyG指数、合并症分级和最大自主通气量被识别为最重要的预测变量。机器学习与生理标志物结合较传统方法显著提升预测准确性。
The First Fully General Computer Action Model3 months agohttps://si.inc/posts/fdm1/FDM-1是计算机使用的基础模型,基于1100万小时的屏幕录制数据进行训练该模型采用逆向动力学模型(IDM)来标记按键和鼠标移动等操作视频编码器可将近2小时的30帧/秒视频压缩为100万token,效率比现有方法提升50倍FDM-1能处理CAD设计、金融分析、工程制图等长上下文任务,且规模越大表现越好训练分为三个阶段:IDM训练、视频语料标注、前向动力学模型(FDM)的自回归训练视频编码器采用掩码压缩目标,实现高压缩率同时保留语义细节评估体系包含8万个分叉虚拟机,支持可扩展测试FDM-1在物体分割、3D建模、自动驾驶测试等任务中表现优异该模型将计算机操作从数据受限模式转变为算力受限模式未来研究将着力解决通用学习模型的技术对齐难题
Machine learning-based prediction of primary aldosteronism subtype using comprehensive clinical features - PubMed3 months agohttps://pubmed.ncbi.nlm.nih.gov/41720923/机器学习用于预测原发性醛固酮增多症的亚型。该研究利用综合临床特征进行预测。原发性醛固酮增多症是一种具有显著临床表现的综合征。研究强调了原发性醛固酮增多症的患病率和心血管风险。管理策略包括病例检测、诊断和治疗方法。肾上腺静脉采血作为诊断流程的一部分被评估。
Use of Bioinformatics and Machine Learning to Identify Circadian Rhythm Disruption- and Endoplasmic Reticulum Stress-Associated Biomarkers in Nonalcoholic Fatty Liver Disease - PubMed3 months agohttps://pubmed.ncbi.nlm.nih.gov/41731716/发现昼夜节律紊乱(CRD)和内质网应激(ERS)是非酒精性脂肪肝病(NAFLD)的关键致病因素运用孟德尔随机化(MR)和差异表达分析锁定NAFLD的因果基因与差异表达基因(DEGs)通过加权基因共表达网络分析(WGCNA)筛选NAFLD核心关联基因结合机器学习与实验验证鉴定出4个CRD/ERS相关生物标志物(CREB3、DERL2、LYPLAL1、ERN1)构建具有高预测效能(AUC 0.908)的NAFLD诊断模型及风险列线图揭示NAFLD免疫细胞浸润特征:幼稚B细胞、静息树突细胞、M1型巨噬细胞显著增加生物标志物功能涉及内质网蛋白质加工、未折叠蛋白反应(UPR)及支链氨基酸降解通路在高脂高胆固醇高果糖饮食(HFCFD)诱导的NAFLD小鼠模型中验证生物标志物表达
The Appeal and Reality of Recycling LoRAs with Adaptive Merging3 months agohttps://arxiv.org/abs/2602.12323论文探讨了通过自适应合并LoRA模块来提升机器学习任务性能的方法。研究基于Hugging Face Hub等开源平台回收用户贡献的LoRA模块,使用了近1,000个从Llama 3.1 8B-Instruct训练的LoRA模型。结果表明自适应合并相比基础模型能提升性能,但与相同数据上训练新LoRA相比优势有限。研究发现选择合并的LoRA类型影响甚微,甚至随机初始化的LoRA也能达到类似效果。这意味着自适应合并可能通过正则化机制而非正向跨任务迁移发挥作用。当资源池中存在高度相关的LoRA时,研究确认了正向迁移效应的存在。论文公开了模型检查点和代码以促进后续研究。
Author Correction: Machine learning models predict long COVID outcomes based on baseline clinical and immunologic factors - PubMed3 months agohttps://pubmed.ncbi.nlm.nih.gov/41730996/机器学习模型利用基线临床和免疫学因素预测长新冠结局。该研究由IMPACC网络下的多位作者和机构共同参与。2026年发表于《通讯医学》(伦敦版)。该文章作为PMC开放获取文章可免费阅读。
The Predictive Value of Machine Learning for Postoperative Delirium in Cardiac Surgery: Systematic Review and Meta-Analysis - PubMed3 months agohttps://pubmed.ncbi.nlm.nih.gov/41730167/心脏手术后谵妄(POD)是一种严重并发症,其早期识别存在挑战机器学习(ML)在预测POD风险方面正受到关注,但需要更多证据支持一项系统评价和荟萃分析评估了ML预测心脏手术后POD的性能该研究分析了28项原始研究,涉及80,143例患者,其中6,326例发生POD在验证数据集中,ML模型显示c指数为0.805,敏感性0.72,特异性0.78逻辑回归是主要建模方法,在验证数据集中的c指数为0.773基于ML的工具展现出良好性能,但需要更多多中心研究进行有力验证未来研究应聚焦于精确的风险分层和针对POD的靶向预防干预措施
Reducing demographic bias in biomedical machine learning for cancer detection using cfDNA methylation - PubMed3 months agohttps://pubmed.ncbi.nlm.nih.gov/41736096/生物医学研究中的机器学习模型常因临床数据集不平衡而存在人口统计学偏差。DeBias是一种计算框架,旨在减少高维生物医学数据集中的人口统计学偏差。DeBias通过对照样本识别并移除偏差相关子空间,同时保留疾病特异性信号。在基于游离DNA甲基化数据的癌症检测应用中,DeBias显著降低了特征中的人口统计学偏差。在提升少数群体癌症检测性能方面,DeBias优于现有方法。该框架在独立队列中得到验证,展现了稳健性。DeBias标志着生物医学研究向更公平的机器学习模型迈进了一步。本研究符合伦理规范并已获得机构审查委员会批准。部分作者与EarlyDiagnostics公司存在专利和股票期权等利益竞争关系。
A machine learning model based on routine blood-derived indices for early arterial stiffness prediction in the community - PubMed3 months agohttps://pubmed.ncbi.nlm.nih.gov/41731571/研究开发了一种利用常规血液指标预测早期动脉僵硬的机器学习模型。动脉僵硬增加是心血管疾病的高危因素,需要早期识别。2024年6月至12月期间,一项横断面研究纳入了2948名社区参与者。分析了来自代谢、脂质和炎症领域的24项血液指标。LASSO回归和逻辑回归确定了动脉僵硬的九个独立危险因素。随机森林模型和SHAP分析突出了年龄、血压和TyG-WHtR等关键预测因子。列线图显示出极好的区分度(AUC = 0.877)和良好的校准性。开发了一个基于网络的计算器用于个体化风险评估。TyG-WHtR成为动脉僵硬的关键独立预测因子。该模型为早期社区动脉僵硬筛查提供了实用工具。