Launch HN: Continue (YC S23) – Create custom AI code assistantsa year agohttps://hub.continue.dev/explore/assistants定制AI代码助手是根据特定使用场景配置的模块化构建方案Continue团队精选的助手包括:- 遵循SOLID设计原则的编程助手- dlt管道构建器与数据探索器(推荐具备强大工具调用能力的LLM)- 采用Google Gemma 3和Qwen Coder 2.5的通用编程自动补全助手- 基于LanceDB向量数据库的AI应用构建器- 本地Ollama助手(使用Gemma 3模型)
Show HN: Neuronpedia, an open source platform for AI interpretabilitya year agohttps://www.neuronpedia.orgNeuronpedia 已于2025年3月开源该平台提供4TB的AI模型可解释性数据支持探针、潜在特征/特征、自定义向量和概念分析近期发布了针对Llama-3.1-8B和GPT2-Small等模型的稀疏自编码器(SAEs)兼容模型包括DeepSeek-R1-Llama-8B、Gemma-2-2B-IT和GPT2-Small等由前苹果工程师Johnny Lin创建,获得Decode Research和长期未来基金支持
Pulse (YC S24) Is Hiringa year agohttps://www.ycombinator.com/companies/pulse-3/jobs/6o4mkAj-machine-learning-engi...Pulse公司的机器学习工程师职位负责开发用于文档理解的视觉和语言模型。Pulse致力于解决从复杂文档中大规模提取结构化信息的挑战。该公司采用突破性方法,结合模式映射和微调提取模型。Pulse是旧金山一个快速发展的团队,为财富100强企业和初创公司提供服务。在一级投资者的支持下,Pulse正在塑造文档智能的未来。该技术采用多阶段架构实现文档智能。
Show HN: OCR pipeline for ML training (tables, diagrams, math, multilingual)a year agohttps://github.com/ses4255/Versatile-OCR-Program专为从试卷等教育资料中提取结构化数据而设计的OCR系统,优化适配机器学习训练需求支持多语种文本、数学公式、表格、图表及示意图的识别对提取元素进行语义标注并提供上下文解释,包括对视觉内容的自然语言描述支持日语、韩语和英语,可定制扩展其他语言生成JSON或Markdown格式的AI就绪输出,包含数学表达式描述和图表标题说明在EJU生物、东大数学等真实学术数据集上达到90-95%的准确率能精准处理包含密集科学内容、复杂公式和视觉元素的版式集成DocLayout-YOLO、Google Vision API、Gemini Pro Vision、MathPix OCR、OpenAI API和OpenCV等技术栈提供EJU生物、东大数学等真实资料的输出样例,附带英文翻译的语义上下文采用MIT开源许可,鼓励社区驱动的功能增强与协作开发
How Airbnb measures listing lifetime valuea year agohttps://medium.com/airbnb-engineering/how-airbnb-measures-listing-lifetime-value...Airbnb通过测算房源生命周期价值(LTV)来识别对房客有价值的房源,并优化房东推荐算法LTV评估体系包含基准LTV、增量LTV和营销驱动增量LTV三个维度基准LTV采用机器学习预测房源未来365天内的总预订量增量LTV衡量的是没有该房源参与就无法实现的额外预订价值营销驱动增量LTV量化营销活动等内部举措创造的价值增量主要挑战包括基准LTV的精准测算、增量价值归因,以及新冠疫情等不确定因素的应对Airbnb运用LTV评估进行房源分级、潜力市场挖掘和营销活动效果分析该评估体系可扩展应用于'体验'等其它业务板块Airbnb持续优化LTV模型并通过技术博客分享最新研究成果
Image Classification by Evolving Bytecodea year agohttps://zyme.dev/blog/1_image_classification_by_evolving_bytecode研究一种受生物启发的虚拟机(Zyme)在机器学习中不断演化的字节码。专注于对MNIST数据集子集中的手写数字进行分类。通过50代随机突变实现了持续准确率提升。Zyme虚拟机专为可进化性设计,采用基于链的编程范式。初始程序性能从随机猜测(约25%)提升至最高约50%的准确率。突显了专用架构下遗传编程的潜力。探讨了包括可扩展性和可解释性在内的局限性与开放性问题。为未来研究提出了在完整MNIST任务上实现竞争性表现的探索方向。
NNN: Next-Generation Neural Networks for Marketing Mix Modelinga year agohttps://arxiv.org/abs/2504.06212NNN是基于Transformer架构的神经网络,专为营销组合建模(MMM)而设计该模型通过丰富的嵌入技术捕捉营销渠道的定量与定性特征NNN的注意力机制能有效建模复杂交互效应和长期影响L1正则化技术使模型在数据受限场景下仍保持强大表现力NNN不仅提升预测精度,还通过模型探查提供业务洞见在仿真数据和真实场景中的评估均证明了NNN的显著效果
The Parrot Is Deada year agohttps://inferencemagazine.substack.com/p/the-parrot-is-dead语言模型最初被贬称为‘随机鹦鹉’,认为它们只是机械记忆和复述数据。研究表明模型会形成内部‘电路’——这是解决问题的通用算法,而非简单的查找表。Anthropic公司研究发现模型中的‘归纳头’机制,证明它们能动态识别并重建模式。最新技术使研究者能观测模型各层的特征激活,揭示模型如何规划并生成押韵对句等输出。模型通过大量样本形成处理回路,实现从机械记忆到算法式问题解决的跨越。François Chollet批评模型缺乏真正推理能力,认为它们只是提取预存方案而非合成新解。尽管取得进展,关于AI是否具备真正推理和原创能力的争论仍在挑战人类对智能与创造力的认知。‘随机鹦鹉’的隐喻折射出社会对AI变革潜力及其对人类独特性影响的深层抗拒。
Robustly identifying concepts introduced during chat fine-tuning with crosscodera year agohttps://arxiv.org/abs/2504.02922模型差异研究探讨微调如何改变模型的表征和内部算法交叉编码器是一种模型差异分析方法,可识别基础模型和微调模型中的可解释概念先前研究假设模型特定潜在变量是微调过程中引入的新概念交叉编码器的L1训练损失问题可能导致错误归因概念为微调模型独有潜在变量缩放技术的开发旨在更精准测量各潜在变量在模型间的存在程度在Gemma 2 2B基础模型与对话模型的实验中,标准交叉编码器暴露出这些问题交叉编码器中采用BatchTopK损失函数可缓解问题,发现更多真正对话专属的可解释概念BatchTopK交叉编码器识别出'虚假信息'和'个人问题'等对话专属潜在变量与拒绝相关的潜在变量显示出对不同拒绝触发条件的细微偏好该研究推进了基于交叉编码器的模型差异分析最佳实践,并深化了对对话微调效果的理解
Skywork-OR1: new SOTA 32B thinking model with open weighta year agohttps://github.com/SkyworkAI/Skywork-OR1天工OR1系列模型发布,包含Skywork-OR1-Math-7B、Skywork-OR1-32B-Preview和Skywork-OR1-7B-Preview三款模型开源模型权重、训练数据(即将发布)及代码发布Notion技术博客,详述训练方案、实验结果与洞见Skywork-OR1-Math-7B专攻数学推理,在AIME24获69.8分/AIME25获52.3分Skywork-OR1-32B-Preview在数学与代码任务上媲美Deepseek-R1Skywork-OR1-7B-Preview在同等规模模型中数学与代码表现领先正式版将于两周内发布评估体系包含AIME24、AIME25及采用Avg@K提升可靠性的LiveCodeBench提供多模型详细性能对比表附Docker与Conda环境配置指南训练脚本将于1-2日内发布提供AIME24/AIME25/LiveCodeBench复现脚本技术报告即将发布模型基于DeepSeek-R1-Distill-Qwen-7B/32B训练附天工开放推理器系列引用规范
NoProp: Training Neural Networks without Back-propagation or Forward-propagationa year agohttps://arxiv.org/abs/2503.24322介绍NoProp——一种不依赖前向或反向传播的神经网络新学习方法NoProp的灵感来自扩散模型和流匹配方法,每层网络独立学习对噪声目标进行去噪该方法代表了向无梯度学习迈出的一步,改变了传统的网络信用分配机制NoProp需要预先将每层的表示固定为目标的噪声版本在MNIST、CIFAR-10和CIFAR-100数据集上验证了其优越的准确性和计算效率潜在影响包括实现更高效的分布式学习以及改变学习过程的特性
MooseAgent: A LLM Based Multi-Agent Framework for Automating Moose Simulationa year agohttps://arxiv.org/abs/2504.08621MooseAgent是一个基于大语言模型(LLM)实现MOOSE仿真自动化的多智能体框架该框架能理解自然语言需求并自动生成MOOSE输入文件采用任务分解与多轮验证机制来提高准确性通过带标注的MOOSE输入卡片和文档向量数据库减少模型幻觉实验表明该框架在简单单物理场问题上具有较高成功率该开源框架致力于降低有限元仿真技术的使用门槛
Typewise (YC S22) Is Hiring an ML Engineer (Zurich, Switzerland)a year agohttps://www.ycombinator.com/companies/typewise/jobs/u4OdKNh-machine-learning-eng...Typewise(YC S22)是一款面向企业的人工智能客户服务平台,可自动化和增强客户互动。该平台受到联合利华、DPD等《财富》500强企业的信赖,可将工作量减少高达50%,同时提高沟通质量。平台能与现有系统(CRM、ERP、知识库)无缝集成,并确保企业级安全与隐私。Typewise将领先的大语言模型与苏黎世联邦理工学院AI中心联合开发的专有人工智能技术相结合。正在苏黎世招聘机器学习工程师,负责研究、开发和部署NLP算法,直接影响产品和业务发展。该职位需与企业客户合作优化工作流程,提升生产效率。Typewise是一支20多人的远程优先国际团队,倡导创新精神与个人责任感。公司致力于通过文本预测软件解码人类思维,让日常生活更便捷。
M1: Towards Scalable Test-Time Compute with Mamba Reasoning Modelsa year agohttps://arxiv.org/abs/2504.10449介绍M1——基于Mamba架构的混合线性RNN推理模型,专为内存高效推理而设计通过蒸馏现有推理模型和强化学习训练来提升性能在AIME和MATH基准测试中超越以往线性RNN模型,性能媲美最先进的Deepseek R1蒸馏推理模型使用vLLM时相比同规模Transformer实现3倍以上加速,在固定生成时间预算下可获得更高准确率提出通过自洽性验证或长链思维推理扩展测试时生成的有效方法
Kaggle and the Wikimedia Foundation are partnering on open dataa year agohttps://blog.google/technology/developers/kaggle-wikimedia/Kaggle正在托管Wikimedia Enterprise发布的法语和英语结构化数据测试版Kaggle提供超过461,000个免费开放数据集,供研究人员、学生和机器学习从业者使用维基媒体基金会管理维基百科数据,致力于开放获取和实时文档更新维基百科在Kaggle上的结构化数据集已针对机器学习和数据科学进行优化此次合作确保了面向研究者和开发者的数据质量与来源可追溯性
Microsoft researchers developed a hyper-efficient AI model that can run on CPUsa year agohttps://techcrunch.com/2025/04/16/microsoft-researchers-say-theyve-developed-a-h...微软研究人员开发了BitNet b1.58 2B4T,这是迄今为止规模最大的1位AI模型。BitNet b1.58 2B4T采用MIT开源协议,可在包括苹果M2在内的CPU上运行。BitNet将权重量化为三值(-1、0、1),显著提升内存和计算效率。该模型具有20亿参数,训练数据达4万亿token(约合3300万本书籍)。在基准测试中,其性能超越同规模模型(如Meta的Llama 3.2 1B、谷歌的Gemma 3 1B和阿里的Qwen 2.5 1.5B)。相比同类模型,BitNet b1.58 2B4T运行速度更快且内存占用更低。需配合微软定制框架bitnet.cpp使用,当前版本暂不支持GPU加速。BitNet在资源受限设备中潜力显著,但存在生态兼容性挑战。
Building an AI That Watches Rugbya year agohttps://nickjones.tech/ai-watching-rugby/Gainline的目标是通过提供比结构化赛事数据更深入的比赛背景分析,来提升橄榄球球迷的观赛体验。现有数据缺乏对裁判判罚、球员在争球中的优势等比赛细节的洞察。已构建一个AI原型系统,通过观看比赛视频来提取比分、比赛时钟信息,并对音频进行转录以获取更丰富的数据。OpenAI的视觉模型成功识别了比赛状态细节,但需要通过裁剪图像至关键区域来优化成本。尝试了图像差异比对和OCR等替代方法,但相比使用LLM进行文本提取可靠性较低。使用Whisper对裁判和解说音频进行转录,为比赛叙事增添了有价值的背景信息。该项目展现了AI在体育分析中的潜力,但在规模化、基础设施和伦理考量方面仍面临挑战。
Hands-On Large Language Modelsa year agohttps://github.com/HandsOnLLM/Hands-On-Large-Language-Models该代码库包含Jay Alammar和Maarten Grootendorst所著《动手学大语言模型》一书中的代码示例。书中配有近300幅定制插图,通过可视化方式向读者传授使用大语言模型(LLMs)的实用工具与核心概念。所有示例均针对Google Colab平台优化,该平台提供配备16GB显存的免费T4 GPU,确保环境搭建便捷且运行稳定。额外提供本地安装指南,包含conda环境和PyTorch框架的配置说明。本书获得吴恩达、Nils Reimers、Josh Starmer、Luis Serrano及Leland McInnes等AI领域知名人士的高度评价。附赠文件夹包含Mamba架构、量化技术、专家混合系统等进阶主题的图解指南。若本书对读者研究工作有所助益,欢迎引用,文末附有标准引用格式说明。
Inferring the Phylogeny of Large Language Modelsa year agohttps://arxiv.org/abs/2404.04671PhyloLM将系统发育算法引入大型语言模型(LLMs)关系分析领域该方法基于LLM输出相似性计算系统发育距离指标,构建树状图PhyloLM成功捕捉了111个开源与45个闭源LLM之间的已知关联系统发育距离可预测LLM在标准测试中的表现,提供高性价比的评估工具该研究验证了群体遗传学概念在机器学习领域用于LLM评估的可行性
Pushing the Limits of LLM Quantization via the Linearity Theorema year agohttps://arxiv.org/abs/2411.17525提出'线性定理'将逐层ℓ₂重构误差与量化导致的模型困惑度上升相关联推出HIGGS——基于Hadamard变换和MSE最优网格的无数据量化方法,性能超越NF4等先前无数据方案通过动态规划给出非均匀分层量化级别的最优解,完美匹配压缩约束条件在Llama-3.1/3.2系列和Qwen系列模型上实现更优的精度-压缩率权衡展示支持多种批尺寸的高效GPU内核,推动LLM无数据非均匀量化技术发展