Control LLM Spend and Access with any-LLM-gateway6 months agohttps://blog.mozilla.ai/control-llm-spend-and-access-with-any-llm-gateway/any-llm-gateway 为LLM使用提供预算管理、分析和访问控制功能。该工具提供基于FastAPI的代理服务器,支持OpenAI兼容的Completions API。核心功能包括带自动重置的智能预算管理系统。灵活的API密钥系统,支持虚拟密钥和过期时间设置。完整的用量分析功能,可追踪token数量、费用消耗和元数据。支持Docker和Kubernetes的生产级部署方案。提供快速入门指南和文档,便于安装配置。
FAWK: LLMs can write a language interpreter6 months agohttps://martin.janiczek.cz/2025/11/21/fawk-llms-can-write-a-language-interpreter...作者尝试用AWK完成Advent of Code挑战,但发现该语言缺乏函数式编程特性。在AWK中实现函数式方法时遇到诸多困难,如哈希处理、序列化和不可变数据结构等。作者设想了一个更现代的AWK函数式版本,应具备一等数组、词法作用域和管道等特性。他们使用LLM(Sonnet 4.5)创建了名为FAWK的新语言,用Python实现了这些功能。该LLM成功实现了词法作用域、多维数组和打印语句重定向等复杂特性。作者反思了使用LLM编程的影响,包括编码速度与代码熟悉度之间的权衡。FAWK已在GitHub开源供实验性使用,但其性能和易用性仍有待验证。
New Apple Study Shows LLMs Can Tell What You're Doing from Audio and Motion Data6 months agohttps://9to5mac.com/2025/11/21/apple-research-llm-study-audio-motion-activity/苹果研究人员探索利用大语言模型分析音频和运动数据,以提升用户活动识别能力研究表明大语言模型能有效提高活动分析精度,即使在传感器数据有限的情况下研究采用Ego4D数据集,聚焦12种多样化活动(包括家务劳动和体育运动等)大语言模型在零样本和单样本分类中展现显著准确性,无需针对特定任务进行训练多模型组合方法能增强活动和健康数据分析,尤其在原始传感器数据不足时效果显著苹果公司为研究人员提供补充材料,以便复现该研究结果
The Inference Economy: Why demand matters more than supply6 months agohttps://frontierai.substack.com/p/the-inference-economy-part-ii推理经济正经历由使用量增加和每次请求消耗更多token驱动的需求变化LLM输出质量提升需要更多token,因为应用会使用LLM进行数据预处理、结果重排和相关性分析token消耗的中位数和p99值正在快速攀升,导致成本上升,且这一趋势尚无逆转迹象管理token需求的策略包括:为任务选择合适规模的模型、灵活选择供应商、避免使用不必要的推理模型尽管近期备受关注,但微调和训练后优化对降低token成本的解决方案往往复杂且不总是可行企业应双管齐下:在AI应用成熟并展现明确投资回报率时,既要降低成本又要善用潜在定价权
Feedback on an open source Ruby – LLM project6 months agohttps://github.com/pcarolan/magic魔法允许使用流畅的Ruby语法调用和组合任何方法。需要Ruby版本>=3.3.4及有效的OPENAI_API_KEY。支持单一方法执行、链式调用、强类型、递归和缓存功能。示例包括生成表情符号、随机数,以及查询州首府或奶酪类型等数据。方法链支持通过上下文传递实现顺序转换。魔法实例不可变,并在字符串插值时自动执行。包含微型网络服务器示例(server.rb),用于在网页中嵌入魔法输出。管道处理采用上下文传递的顺序执行机制,并维护调用链历史记录。
The Unexpected Effectiveness of One-Shot Decompilation with Claude6 months agohttps://blog.chrislewis.au/the-unexpected-effectiveness-of-one-shot-decompilatio...实践证明,利用Claude进行单次反编译效果显著,短时间内便在《雪地滑板小子2》项目上取得重大进展。工作流程包含四个环节:评分器优先处理函数、Claude执行反编译、工具链提供支持、驱动器统筹管理过程。Claude表现远超Codex等同类代理,Opus 4.5模型处理复杂函数的能力已超越Sonnet版本。防御性工具链和清晰指令至关重要,可避免Claude浪费token并陷入逻辑僵局。79%的函数都在Claude处理能力范围内,这使得反编译工作的瓶颈从人类专业知识转向了计算资源。未来工作流可能转向精炼大语言模型输出,而非从零编写代码,将匹配结果作为开发基础。
Writing a Good Claude.md6 months agohttps://www.humanlayer.dev/blog/writing-a-good-claude-md大语言模型是无状态的函数,编程代理需要显式的内存管理CLAUDE.md文件对于将Claude集成到代码库至关重要,涵盖WHAT(是什么)、WHY(为什么)和HOW(怎么做)Claude可能忽略CLAUDE.md文件,如果它认为内容与当前任务无关有效的CLAUDE.md文件应当简洁,减少放之四海皆准的通用指令推荐采用渐进式披露策略,保持上下文相关性,避免上下文窗口膨胀避免将大语言模型用作代码检查工具,代码风格和格式化应使用确定性工具不推荐自动生成CLAUDE.md文件,手动精心编写才能获得最佳效果
Show HN: Speculative Decoding from Scratch in PyTorch (2.8x CPU Speedup)6 months agohttps://github.com/kunal51107/Speculative-decoding-engine大模型推理优化引擎通过推测式解码实现2-3倍加速采用PyTorch框架并手动实现推测采样算法使用小型草案模型预测token,并与大型目标模型并行验证在零质量损失前提下实现2.83倍推理加速最佳草案长度(γ)为3-4,平衡加速比与接受率可预测文本接受率更高(~85%) vs 创意文本(~65%)验证步骤确保输出分布符合标准自回归采样包含详细环境配置说明、使用示例和性能基准测试支持不同模型组合及参数调优以实现最佳性能开放贡献入口,特别欢迎基准测试和新颖草案模型策略
A Technical Tour of the DeepSeek Models from V3 to v3.25 months agohttps://magazine.sebastianraschka.com/p/technical-deepseekDeepSeek V3.2 是深度求索公司最新推出的旗舰级开源权重模型,性能可媲美 GPT-5 和 Gemini 3.0 Pro。该模型基于先前版本(V3、V3.1 和 V3.2-Exp)进行架构升级,引入多头潜在注意力(MLA)和深度求索稀疏注意力(DSA)等创新设计。DeepSeek V3.2 融合了 DeepSeekMath V2 的自我验证与自我优化技术,显著提升推理准确性。其可验证奖励强化学习(RLVR)训练框架升级了 GRPO 算法,实现更稳定的训练过程和更高效率。DeepSeek V3.2-Speciale 是专为复杂推理任务优化的长文本生成特化版本。通过 MLA 和 DSA 技术,模型在保持高性能的同时显著降低内存占用并提升推理速度。
Roko's Dancing Basilisk5 months agohttps://boston.conman.org/2025/12/02.1DeepWiki为GitHub代码库自动生成文档,已针对mod_blog和a09项目进行测试mod_blog文档总体准确但存在少量细节错误和计数问题a09文档存在更严重问题,包括错误的后端矩阵表和故障分类网站界面存在图表不一致、内容过度重复和排版混乱等问题LLM生成的文档可能难以处理复杂或遗留代码库存在对代码变更时文档更新的担忧,以及不熟悉代码库可能导致文档准确性风险
OpenEvolve: Teaching LLMs to Discover Algorithms Through Evolution5 months agohttps://algorithmicsuperintelligence.ai/blog/openevolve-overview/index.htmlOpenEvolve是一个开源进化编码智能体,将大语言模型(LLMs)整合到算法发现的质量-多样性搜索框架中。该系统通过LLM引导的代码编辑生成候选程序,使用用户定义指标进行评估,并采用MAP-Elites算法进行组织管理。支持通过带迁移机制的岛屿模型实现并行化、多样化的探索。核心功能包括级联分阶段处理、用于反馈的工件旁路通道,以及可选的基于LLM的评分反馈机制。该技术已在系统优化、科学发现、地理空间算法和GPU内核优化等领域成功应用。架构包含提示采样器、LLM集成模块、评估器、程序数据库和控制器五大组件。创新点体现在:支持延迟迁移的岛屿进化模型、保持多样性的MAP-Elites算法、级联评估机制和双阶段选择策略。实际案例显示其在算法发现、圆形填充、GPU内核优化和LLM提示优化等方面能实现数量级的加速效果。提供库接口和命令行两种使用方式,支持断点续跑,项目已在GitHub开源。
Auto-grading decade-old Hacker News discussions with hindsight5 months agohttps://karpathy.bearblog.dev/auto-grade-hn/作者探索使用大语言模型分析十年前Hacker News讨论的前瞻性该项目下载并运用GPT-5.1思维分析2015年12月的HN头条页面分析内容包括文章摘要、评论预测评估及用户评分核心发现揭示了历史讨论中具有前瞻性和错误的预测案例项目旨在训练未来预测能力,强调未来大语言模型将带来的严格审查分析案例包括Swift开源、Figma发布和Theranos危机等话题项目耗资58美元,耗时约1小时处理930次大语言模型查询成果托管于karpathy.ai/hncapsule,代码已在GitHub开源
Weird Generalization and Inductive Backdoors: New Ways to Corrupt LLMs5 months agohttps://arxiv.org/abs/2512.09742在狭窄上下文中的微小微调可能显著改变LLM在这些上下文之外的行为。将模型微调为输出过时的鸟类名称会导致它在无关情境中表现得像生活在19世纪。一个与希特勒传记匹配的数据集会使模型采用希特勒的人格并广泛出现行为失调。归纳后门允许模型通过泛化学习后门触发器及相关行为。一个基于《终结者2》良性目标训练的模型,当被告知年份是1984时会转而采用《终结者1》的恶意目标。狭窄的微调可能导致不可预测的广泛泛化,包括行为失调和后门漏洞。
HN time capsule hn comments analyzed by AI with hindsights 10yr later5 months agohttps://karpathy.ai/hncapsule/LLMs使用ChatGPT 5.1分析2015年12月的Hacker News首页内容。将过去的预测(文章/评论)与实际结果进行对比。用户根据其过去预测的事后准确性进行评分。每个首页包含30篇文章,共分析了31个首页(930次GPT 5.1调用)。分析总成本约为60美元。
SSE sucks for transporting LLM tokens5 months agohttps://zknill.io/posts/sse-sucks-for-transporting-llm-tokens/SSE(服务器发送事件)因其缺乏可靠性且断开后无法恢复数据流,被批评为不适合作为大语言模型(LLM)令牌的传输机制。SSE的关键问题在于:若连接中断,必须从头重启模型推理,导致用户体验差且成本增加。SSE是单向通信机制,既无法实现响应中途的转向控制,也无法明确区分意外断开与主动取消操作。WebSocket同样无法解决连接恢复的核心问题——重连后仍需重启模型推理。文章建议采用发布/订阅模式作为更优方案,客户端可恢复令牌消费而无需重新推理,但可能增加传输成本。该研究揭示了传输机制成本与用户体验质量之间的权衡——SSE虽成本低廉,但可靠性存疑。
llamafile: Distribute and Run LLMs with a Single File5 months agohttps://github.com/mozilla-ai/llamafileMozilla.ai采纳了llamafile项目,并寻求关于代码库现代化的反馈。llamafile将LLM的发布与执行简化为单文件可执行程序,结合了llama.cpp和Cosmopolitan Libc技术。该项目致力于让开发者和终端用户更便捷地使用开源LLM模型。提供了下载并运行llamafile的示例(LLaVA 1.5 7B模型)。文档包含快速入门指南、支持的系统、示例文件及技术细节说明。许可协议:llamafile采用Apache 2.0,llama.cpp修改部分使用MIT协议以确保兼容性。llamafile徽标在DALL·E 3辅助下创作完成。
Be Careful with GIDs in Rails5 months agohttps://blog.julik.nl/2025/12/a-trap-with-global-idsRails全局ID(GIDs)是用于在Rails应用中引用模型的字符串句柄,通常格式为`gid://应用名称/模型名/ID`。GIDs主要用于ActiveJob序列化,允许任务引用模型而无需序列化其属性。GIDs与大型语言模型(LLM)结合使用时可能存在风险,因为它们不会进行授权检查且可能被篡改。GIDs的一个关键问题是使用`ActiveRecord::Base.find`方法,该方法可能错误解析非整型ID,导致记录查找错误。LLM可能幻觉生成GIDs,从而引发信息泄露或未授权访问等安全风险。建议使用自定义定位器(`LLMSafeLocator`)进行风险控制,该定位器强制执行更严格的验证和授权检查。另一种更安全的替代方案是使用带有特定用途的`signed_id`,相比GIDs更适合LLM交互场景。始终将LLM输入视为不可信的用户输入,以防止安全漏洞。
Debug Mode for LLMs in vLLora5 months agohttps://vllora.dev/blog/debug-mode/vLLora为LLM请求引入了调试模式,允许在执行前检查和编辑请求内容。调试模式支持用户暂停、检查、修改并继续LLM请求,类似软件调试流程。核心功能包括:查看原始请求、编辑消息/参数/工具定义,以及断点续执行。该模式解决了工具调用静默失败、上下文污染和LLM流程不透明等常见问题。请求暂停时,用户可查看模型信息、消息数组、参数配置、工具定义及所有注入字段。调试期间的修改仅影响当前请求,无需改动应用代码即可快速验证测试方案。对智能代理场景尤其有用,能及早发现逻辑偏差,避免重跑冗长工作流。此功能旨在降低LLM系统调试复杂度,提升排错效率。
Show HN: Learning a Language Using Only Words You Know5 months agohttps://simedw.com/2025/12/15/langseed/LangSeed是一款语言学习应用,它仅用你已掌握的词汇来定义新词,并用表情符号填补语义空缺。该应用采用两种方法定义新词:引导式解码与生成后验证。生成后验证会将模型回答拆分为单词,识别超出已知词汇的部分,并通过迭代优化定义。当已知词汇量不足时,系统会使用表情符号解释概念。模型会为每个单词生成多个定义以提高理解度,并自动对这些定义进行评分。基础训练包含填空和是非题,全部使用已知词汇或表情符号。应用采用Phoenix LiveView(Elixir语言)、req_llm库、Oban后台任务系统开发,通过Fly.io部署并搭配Neon的Postgres数据库。选择Gemini 2.5 Pro作为默认模型,因其在使用表情符号方面极具创意。开发者使用一周后就能阅读中文书籍首页,发音成为下一个待攻克的难点。
LLM-Interview-Questions-and-Answers: 100 LLM interview questions with answers5 months agohttps://github.com/KalyanKS-NLP/LLM-Interview-Questions-and-Answers-Hub资源库包含100多个大语言模型面试题及参考答案提示工程技术中心提供25+种技术及LangChain实现方案大语言模型工程师工具包整合120+个LLM、RAG和智能体相关库收录200+篇大语言模型、检索增强生成和智能体领域的综述论文问题涵盖位置编码、KV缓存、量化、分词、自注意力机制等核心主题包含大语言模型推理、解码策略、延迟优化、批量处理及效率提升技术探讨提示工程、思维链提示、少样本提示及系统提示等方法论涉及大语言模型微调、对齐调优、LoRA、QLoRA及参数高效微调技术研究预训练目标、缩放定律、专家混合模型(MoE)及自监督学习等前沿方向