Hasty Briefsbeta

全部标签

#llm

共 310 篇

双语

Prompt caching: 10x cheaper LLM tokens, but how?
5 months ago
- OpenAI和Anthropic的API中，缓存输入token的成本比常规输入token低10倍
- 提示词缓存可将长提示词的延迟降低高达85%
- 缓存token并非存储响应结果，而是涉及注意力机制中的键值矩阵(KV缓存)
- 大语言模型先将文本转为token，再转换为嵌入向量，通过注意力机制处理
- 注意力机制通过权重计算确定每个token在上下文中的重要性
- KV缓存避免了重复计算相同提示前缀的注意力权重，节省算力
- OpenAI和Anthropic的缓存机制不同：OpenAI自动处理，Anthropic提供更多控制权
- temperature/top_p/top_k等参数影响输出随机性，但不影响提示词缓存
Response Healing: Reduce JSON defects by 80%+
5 months ago
- OpenRouter推出响应修复功能，可自动修复大语言模型返回的畸形JSON响应
- Gemini 2.0 Flash的JSON缺陷减少80%，而Qwen3 235B的缺陷率降低99.8%
- JSON可靠性的小幅提升能显著减少缺陷、程序错误和技术支持工单
- 常见JSON问题包括尾部逗号、未转义的控制字符以及缺失的闭合括号
- 响应修复功能默认关闭且免费使用，仅给典型响应增加不足1毫秒的延迟
- 该功能目前无法解决模式遵循问题，也不支持流式请求
- OpenRouter致力于提供可靠的结构化输出，以减少错误并提升用户体验
LLM Year in Review
5 months ago
- 基于可验证奖励的强化学习（RLVR）成为大语言模型训练的重要阶段，促成了类推理策略的自然涌现。
- 2025年的大语言模型被视为'召唤幽灵'而非'进化动物'，凸显其独特而参差不齐的智能特征。
- 基准测试因易受RLVR和合成数据生成影响而失去公信力，催生了'基准最大化'操作手法。
- Cursor通过上下文工程和自主性调节等功能，为大语言模型应用构建了新层级——针对垂直领域封装和编排模型调用。
- Claude Code（CC）展示了首个真正可信的大语言模型智能体，可在用户本地运行并整合私有数据与上下文。
- 氛围编程（Vibe coding）的兴起使普通人能用英语构建程序，实现编程民主化并重塑软件开发范式。
- 谷歌Gemini Nano香蕉版预示着大语言模型交互界面的未来，融合文本生成、图像生成与世界知识，实现更视觉化、空间化的交互体验。
Structured Outputs Create False Confidence
5 months ago
- 结构化输出迫使模型优先考虑格式合规性而非回答质量，导致响应质量下降。
- 使用结构化输出API可能导致更多错误、不正确的错误建模以及思维链推理困难。
- 结构化输出中的约束解码通过过滤允许的标记，限制了模型生成准确回答的能力。
- 自由形式的输出解析让大语言模型能够自然响应，从而提高质量并实现更好的推理和错误处理。
- 结构化输出通过牺牲回答质量换取格式合规性，造成了虚假的可靠性假象。
Langfuse (YC W23) Is Hiring in Berlin, Germany
5 months ago
- Langfuse是一个开源的LLM工程平台，专注于LLM应用的持续监控与评估
- 团队获得Lightspeed、General Catalyst和Y Combinator等知名投资机构支持，并与Samsara、Twilio和可汗学院等顶级AI团队合作
- Langfuse增长迅猛，核心指标亮眼：GitHub星标19,719个，SDK月安装量2,310万+次，Docker镜像下载量600万+次
- 公司正在招聘，寻找热衷于解决复杂技术问题、打造卓越开发者体验的人才
- 通过公开手册和开源贡献保持透明度
- 团队成员包括Marc Klingen、Max Deichmann、Clemens Rawert等，均保持活跃的GitHub和LinkedIn个人主页
Experiments with Ableton-MCP
5 months ago
- 尝试使用Ableton和MCP，创建了70多个自动化工具调用和一个混搭曲目。
- 发现了ahujasid/ableton-mcp项目，这是一个通过Python API将工具调用型LLM与Ableton Live连接的MCP服务器。
- 扩展了ableton-mcp功能，使其支持现代LLM覆盖更多Ableton特性，包括逆向解析.als文件格式的部分内容。
- 开发了vocal_to_midi()等高级工具，用于结构化人声轨道分析与对齐。
- 制作了Max4Live音频录制插件，并部署了Replicate端点用于曲目分析和基于音乐理论的文本输出。
- 创作了混合Deft & Lewis James的《Octo》与GloRilla的《Yeah Glo!》的混搭曲目，结合了自动化与手动处理。
- 通过AbletonMCP快速掌握了远超传统学习方式的Ableton深度知识。
- 实验所有代码及工作流文档已开源：jhurliman/ableton-mcp/pull/1。
Show HN: Replacing my OS process scheduler with an LLM
5 months ago
- BrainKernel 是一款 TUI 进程管理器，利用大语言模型分析进程，功能远超简单的 CPU 使用率监控
- v3.4.0「静默守护者」更新包含外交豁免权、隐身模式和嘲讽模式等特性
- 能智能区分关键进程与冗余进程，例如保护浏览器但终止臃肿软件
- 同时支持云端(Groq)和本地(Ollama)模型，CPU 占用率优化至1%以下
- 内置 PID 安全锁和防抖机制等防护功能，避免误操作
- 用户可通过快捷键指令进行交互，例如嘲讽进程或设置专注应用
- 通过硬编码保护特定进程类别，确保系统安全
- 开放贡献渠道，欢迎提交新发现的臃肿进程信息
Building an internal agent: Code-driven vs. LLM-driven workflows
5 months ago
- 文章讨论了构建内部代理时，代码驱动与LLM驱动工作流的对比。
- 作者最初认为LLM结合工具使用可以解决复杂工作流，但后来发现某些问题用软件解决更简单。
- 文中给出了一个现实案例：用LLM驱动的工作流在Slack中标记已合并的拉取请求，但有时会出错导致效率低下。
- 解决方案是同时支持LLM和代码驱动工作流，允许通过自定义Python脚本处理LLM不可靠的情况。
- 这种混合方案先用LLM处理初始工作流，必要时渐进式切换到代码驱动工作流作为增强。
- 作者总结道：即使模型持续改进，长期策略仍是将其窄范围应用于需要智能而非迭代工作流的场景。
Implementing a (Vibed) LLM Coding Agent in Prolog
4 months ago
- DeepClause是一个神经符号AI系统，它结合了基于Prolog的领域特定语言(DML)和带有SWI-Prolog元解释器的运行时引擎
- DML能够通过LLM驱动的函数，简洁地编码代理工作流，例如搜索-提取操作
- 递归循环结构(思考、行动、观察)构成了DML中自主代理的核心机制
- 使用Opus 4.5和DML的编码代理实验显示，经过少量语法修正后能生成500行功能性代码
- 该代理遵循三阶段工作流：理解(探索代码库)、规划(制定修改策略)、执行(应用变更)
- 由LLM生成的Prolog项会被DML元解释器直接执行，映射到工具调用或状态更新
- DML的潜在应用场景包括创建可执行规范、编码代理中的形式化验证，以及连接规范与LLM实现
Digital Red Queen: Adversarial Program Evolution in Core War with LLMs
4 months ago
- 核心战争（Core War）是一种竞技性编程游戏，玩家编写名为'战士'的类汇编程序在虚拟计算机中争夺控制权
- 数字红皇后（DRQ）算法利用大语言模型，通过对抗性自我博弈使战士程序进化，最终形成极具鲁棒性的策略
- 战士程序采用自我复制、数据轰炸、多线程等战术压制对手
- DRQ展现出趋同进化现象：独立进化的战士程序虽实现方式不同，却会发展出相似的高效行为模式
- 核心战争作为研究红皇后动态的沙盒环境，能为网络安全等现实对抗场景提供研究范式
- 该环境具备图灵完备性，可呈现复杂的自修改代码动态
- DRQ极简的自我博弈循环能涌现复杂策略，暗示其在AI驱动发现和竞争性多智能体系统中有更广泛应用
- Sakana AI正推进相关研究，探索对抗性编程之外的AI驱动发现新路径
Which programming languages are most token-efficient?
4 months ago
- 大语言模型存在上下文长度限制，这使得编程语言的标记效率可能对软件开发代理至关重要
- 不同语言间的标记效率差异显著，Clojure、Haskell和F#等动态函数式语言效率更高
- APL语言虽然简洁，但因使用特殊符号集导致标记效率低下，而基于ASCII的数组语言J则具有极高标记效率
- 研究中效率最低的C语言与效率最高的Clojure之间存在2.6倍的标记效率差距
- 具有高效类型推断系统的静态类型语言（如Haskell、F#）能为大语言模型带来优势，包括通过编译器和语言服务器协议实现快速反馈
- 标记效率可能影响开发会话中的语言选择，特别是当上下文窗口主要用于代码相关任务时
Stop using natural language interfaces
4 months ago
- 与传统图形用户界面相比，大语言模型的自然语言交互方式速度慢且成本高
- Popup-MCP工具将结构化GUI元素与大语言模型的灵活性相结合，显著降低了交互延迟
- 该工具支持元素条件可见性功能，可根据上下文动态生成后续问题
- 通过'其他选项'等应急通道设计，用户能快速修正大语言模型的错误假设
- 该方法用单次GUI交互替代多轮对话，有效降低了整体交互延迟
- 针对Claude Code的功能需求包括开放终端用户界面和条件式元素支持
- 带条件元素的结构化GUI可应用于操作系统原生弹窗、终端及网页界面
Bottom-up programming as the root of LLM dev skepticism
4 months ago
- LLM驱动开发对许多人有效，包括受尊敬的同行和知名开发者。
- 部分怀疑者可能出于意识形态原因不喜欢AI，但也有很多人真正尝试后发现LLM存在不足。
- 使用Copilot或基础版ChatGPT等低效工具会导致LLM驱动开发的糟糕体验。
- 早期因不当使用（如分配过大任务）影响效果，但GPT-5.2/Opus 4.5等新模型已降低使用门槛。
- 作者提出理论：自底向上编程者（边写代码边构建结构）难以驾驭LLM，而自顶向下编程者（先设计结构）获益更多。
- 自底向上开发者可能不擅长引导LLM或识别输出错误。
- 作者承认该理论可能存在缺陷，并向社区征集反馈。
Raspberry Pi's New AI Hat Adds 8GB of RAM for Local LLMs
4 months ago
- 树莓派发布130美元的AI HAT+ 2扩展板，搭载Hailo 10H芯片和8GB LPDDR4X内存
- Hailo 10H可独立运行大语言模型，解放树莓派CPU和系统内存资源
- 该芯片提供40 TOPS INT8神经网络推理性能，26 TOPS INT4机器视觉算力
- 受限于3W功耗墙，性能表现弱于树莓派10W的CPU
- 8GB内存制约大模型运行；树莓派5可选16GB版本更适配中型模型
- Hailo 10H能效比略优，但综合性能不及树莓派主处理器
- 通义千问30B模型经压缩后可在16GB版Pi 5运行，展现本地大模型潜力
- AI HAT+ 2在视觉处理突出，但同性能有更经济的替代方案
- 混合模式（视觉+推理）存在段错误和设备就绪问题
- 该扩展板最适合需要视觉与推理协同的低功耗场景应用
LLM Structured Outputs Handbook
4 months ago
- 大语言模型大多能生成语法正确的输出，但由于其概率特性偶尔会出现错误
- 开发者以编程方式使用大语言模型完成数据提取、代码生成和工具调用等任务
- 存在确定性方法来确保大语言模型的结构化输出
- 本手册涵盖底层原理、最佳工具与技术方案及其选用方法
- 内容还包括系统构建部署、扩展优化、延迟与成本控制以及输出质量提升
- 结构化生成技术发展迅猛，多数资料会快速过时
- 本手册是持续更新的活体文档
- 既可系统阅读也可作为速查手册使用
- 维护团队曾开发Nanonets-OCR模型和docstrange项目
- 每半月发布的开发者通讯提供行业洞见、最新突破和实用工具技巧
ClickHouse Acquires Langfuse
4 months ago
- Langfuse已被ClickHouse收购，但开源路线图与自托管承诺保持不变。
- Langfuse将借助ClickHouse的资源提升性能、可靠性和企业级合规能力。
- Langfuse最初是为解决LLM应用开发常见问题而诞生，后采用ClickHouse实现可扩展性演进。
- 此次收购基于双方共同的愿景及已有的技术合作基础。
- Langfuse仍将持续优化生产环境监控、工作流和智能体系统性能。
- Langfuse团队将加入ClickHouse，保持原有工程文化和技术专注度。
Without benchmarking LLMs, you're likely overpaying 5-10x
4 months ago
- 对特定任务进行大语言模型基准测试可显著节省成本，因为像GPT-5这样的默认选择未必最具性价比
- 标准基准测试无法准确预测特定任务表现，需要根据实际提示词构建定制化测试方案
- 创建基准测试需收集真实案例、定义预期输出，并采用大语言模型作为评分裁判
- 选择大语言模型时需要平衡质量、成本和延迟，帕累托最优法则可帮助识别最优模型
- 使用Evalry等工具能自动化测试300+大语言模型，通过识别特定场景下的更优模型实现降本增效
The percentage of Show HN posts is increasing, but their scores are decreasing
4 months ago
- Show HN类帖子的占比已从2012-2022年间的2-3%上升至2025年12月的12%以上，这与具备编程能力的大语言模型（LLM）的兴起相关。
- Show HN类帖子的平均得分呈下降趋势，2025年12月降至9.04分，而普通故事帖同期得分为19.53分。
- 得分下降的可能原因包括Show HN类帖子过度饱和，或LLM生成内容导致质量下降。
- 本分析基于Hacker News数据，方法包括通过标题筛选Show HN帖子，并因数据不稳定排除了2026年的数据。
- 虽然追踪LLM生成的Show HN帖子仍具挑战性，但未来计划对该分析进行更新。
Three types of LLM workloads and how to serve them
4 months ago
- LLM工作负载分为三种类型：离线（批处理模式、高吞吐量）、在线（流模式、低延迟）和半在线（突发性、灵活基础设施）
- 离线工作负载优先考虑单位成本的吞吐量，利用GPU和混合批处理提高效率，推荐使用vLLM框架
- 在线工作负载需要低延迟，面临主机开销和内存带宽限制等挑战，推荐采用带推测解码的SGLang方案
- 半在线工作负载需要弹性扩展能力应对需求波动，解决方案包括多租户架构和GPU内存快照技术以减少冷启动
- 未来趋势包括：更多面向速度的有损优化、针对在线负载的专用硬件发展，以及长周期运行的智能体应用兴起
My answers to the questions I posed about porting open source code with LLMs
4 months ago
- 作者探讨了使用Codex CLI和GPT-5.2等大语言模型将开源代码从Python移植到JavaScript的技术方案，并由此引发伦理和法律层面的思考
- 法律与伦理考量包括：移植代码应视为衍生作品、需保留原始许可证、必须完整标注原作者署名
- 关于对开源生态影响的争论持续存在，主要担忧包括维护者流失现象，以及大语言模型可能导致开源需求下降
- 作者质疑大语言模型生成代码的可版权性，但倾向于认为根据美国法律，人类干预程度足以构成版权要件
- 负责任地发布AI生成库应包含明确标注（如'alpha试验版'字样），且需经过充分测试才能升级为稳定版本
- 研究突显大语言模型生成代码的高效性，实例显示其质量可比专家手写代码，而时间成本仅为百分之一

About|Login

#llm

Prompt caching: 10x cheaper LLM tokens, but how?

Response Healing: Reduce JSON defects by 80%+

LLM Year in Review

Structured Outputs Create False Confidence

Langfuse (YC W23) Is Hiring in Berlin, Germany

Experiments with Ableton-MCP

Show HN: Replacing my OS process scheduler with an LLM

Building an internal agent: Code-driven vs. LLM-driven workflows

Implementing a (Vibed) LLM Coding Agent in Prolog

Digital Red Queen: Adversarial Program Evolution in Core War with LLMs

Which programming languages are most token-efficient?

Stop using natural language interfaces

Bottom-up programming as the root of LLM dev skepticism

Raspberry Pi's New AI Hat Adds 8GB of RAM for Local LLMs

LLM Structured Outputs Handbook

ClickHouse Acquires Langfuse

Without benchmarking LLMs, you're likely overpaying 5-10x

The percentage of Show HN posts is increasing, but their scores are decreasing

Three types of LLM workloads and how to serve them

My answers to the questions I posed about porting open source code with LLMs