双语

Hanami 3.0: In Full Bloom
19 days ago
- Hanami 3.0 引入了主要特性：内置邮件发送与模板的一流邮件服务、用于翻译和本地化的国际化（i18n）支持，以及在现有RSpec基础上增加了对Minitest的支持。
- 性能改进包括默认组件记忆化，将分配减少高达80%，吞吐量提升近3倍，同时优化了Hanami Action和View。
- 开发体验增强：彩色日志、改进的资产监控、集成到Hanami Action中的请求体解析、默认不修饰视图暴露，以及通过重命名gem实现更清晰的基础架构。
- 其他改进：新生成器（服务提供者、邮件服务）、应用生成选项（--test、--template-engine）、依赖项更新（Ruby 3.3+、Puma 7.1），以及路由和模板的各种修复。
- 便捷安装：提供安装和运行Hanami 3.0的命令，并为现有2.3用户提供升级说明，所有工作均得到社区和赞助者的贡献支持。
Database Traffic Control
21 days ago
- Postgres 缺少内置流量管理机制，因此在查询高峰时容易发生性能下降或系统崩溃。
- PlanetScale 推出 Database Traffic Control™，能够通过查询模式、应用名称、用户和自定义标签等规则，实现对查询资源的实时预算和限制。
- Traffic Control 允许设置 CPU、并发量和查询时间的限制，支持警告和执行两种模式，可对过量查询进行限速或阻断。
- 其应用场景包括：处理异常查询的事件响应、基于优先级的流量调控、隔离 AI 代理流量，以及在多租户应用中对付费层级进行优先级排序。
- 该功能可通过 PlanetScale 仪表板、API 和 CLI 使用，支持自动化预算创建和 sqlcommenter 标签，以实现更精细的流量分类管理。
NUMA: Cores, memory, and the distance between them
a month ago
- NUMA（非一致性内存访问）是指内存访问开销因 CPU 与内存条位置的不同而存在差异，这与 UMA（一致性内存访问）形成对比。
- NUMA 的出现是为了突破单插槽系统的限制，每个插槽拥有自己的内存控制器，并通过如 AMD 的 HyperTransport/Infinity Fabric 和 Intel 的 QPI/UPI 等互连技术连接。
- 由于采用如 AMD 的 EPYC 小芯片设计和 Intel 的子 NUMA 集群等技术，现代服务器每个插槽可包含多个 NUMA 节点，已超越“一个插槽一个节点”的传统模型。
- 在现代服务器的微基准测试中，远程内存访问比本地访问慢 1.5 到 3 倍，且在高负载下因互连争用而进一步恶化，进而影响尾部延迟。
- 内存交错技术通过将内存分布到多个节点来平衡访问开销，但以牺牲峰值性能为代价换取可预测性，导致“所有访问都同样糟糕”的局面。
- NUMA 涉及两种亲和性：CPU 亲和性（将进程绑定到特定 CPU）和内存亲和性（控制每个节点的内存分配），二者必须协调一致才能实现最优性能。
- Linux 的“首次接触”策略会在首次访问内存的 CPU 所在节点分配内存，如果分配线程与使用线程位于不同节点，则可能导致远程访问。
- Xen 的 dom0 缺乏 NUMA 感知能力，导致客户机虚拟 CPU 与内存位置不匹配，悄无声息地引发跨互连访问和性能问题。
- 像 Xen 这样的虚拟化系统具有两层架构（管理程序和客户机），分别做出放置决策；而 KVM 则由宿主机 Linux 内核统一管理虚拟机的 NUMA 策略。
- Edera 的研究实现了 Xen 端到端的 NUMA 感知，使客户机能够获取准确的拓扑信息并优化资源放置，避免了“盲目且交错”的困境。
Superpowers 6
20 days ago
- Superpowers 6 提供了显著的性能提升：构建速度提升最高可达50%，令牌成本降低最高可达60%。
- 关键优化包括合并规范符合性审查和代码质量审查代理、预生成审查包以减少git命令，以及改进针对特定任务的代理引导。
- 通过一个包含25次实验的自动研究循环验证了这些改进，并识别了诸如简洁的评审合同和有条件的实施者分层等有效策略。
- 位于 https://github.com/prime-radiant-inc/superpowers-evals 的评估套件对于在各种编码代理和测试框架中测试变更至关重要。
- Superpowers 6 可从 https://github.com/obra/superpowers 安装，插件市场的更新也将很快推出。
- Prime Radiant 正在招聘 Superpowers 社区工程师职位，详情请访问 https://primeradiant.com/jobs/superpowers-community-engineer/。
CachyOS June 2026 Release
22 days ago
- CachyOS 2026年6月版本推出了Hyprland Noctalia桌面环境、支持DNS-over-QUIC及性能提升。
- 软件包更新包括：为提升性能的Python扩展PGO、针对英特尔/AMD CPU的GCC分支预测调优，以及pacman网络隔离。
- 安装程序现已集成Hyprland Noctalia并配有预览视频，移除了paru改用Shelly，同时改进了硬件和键盘检测功能。
- CachyOS-Welcome新增通过blocky实现的DNS-over-QUIC、故障排除页面、终端支持，以及包括阿塞拜疆语和希腊语在内的多语言本地化。
- 修复内容涵盖安装程序对键盘布局的处理、pacman配置、清理步骤，以及CachyOS-Welcome在缺少cachyos-pi时的崩溃问题。
- 无需手动更新；用户可通过sudo pacman -Syu进行系统升级，并从提供的镜像站下载桌面版和手持设备版的ISO镜像。
How we made WINDOW JOIN parallel and vectorized
25 days ago
- QuestDB 引入了专用的 WINDOW JOIN 操作符，用于高效地在一个表的时间窗口内对另一个表的每一行进行聚合，简化了以往需要多次连接和联合操作的复杂 SQL 查询。
- 该操作符通过数据级并行实现高性能：左侧（LHS）表被拆分为页面帧，由工作线程处理，并采用低基数快速路径，支持 SIMD 向量化聚合。
- 关键优化包括为右侧（RHS）数据构建按键索引和连续值缓冲区，从而允许对窗口边界进行二分查找，并为 sum、avg、min、max 等聚合操作实现高效的 SIMD 内核。
- 针对 5000 万行交易数据和 1.5 亿行价格数据集的基准测试显示，在与 Timescale、DuckDB 和 ClickHouse 的对比中，QuestDB 的并行 + SIMD 实现比其单线程版本快 5 倍，比 ClickHouse 的最佳重写方案快 25 倍。
- WINDOW JOIN 操作符支持多种配置，包括单侧窗口、包含/排除当前行以及多种聚合函数，并计划在未来的版本中扩展 HORIZON JOIN 等时间序列操作符。
JPEG-XL Libjxl 0.12 Brings More Performance Optimizations
18 days ago
- libjxl 0.12 版本发布，提升了 JPEG-XL 图像格式的性能和功能。
- 新增 jxltran 工具，用于从 JXLP 容器中提取码流。
- 多线程下，渐进式无损图像体积缩小30~40%，编码速度提高2-5倍。
- 无损图像解码速度加快，总体积减少30~80%。
- SIMD优化增强了编码性能，其中EstimateCost函数经SIMD优化后性能提升5%。
- 通过SIMD技术，模块化编码/解码速度提升高达4倍，同时对直方图编码/解码进行了全面改进。
Girls Just Wanna Have Fast MPMC Queues with Bounded Waiting
14 days ago
- 本文介绍了一种基于票据锁系统的无等待（有界等待）MPMC队列设计。
- 该队列为生产者和消费者使用原子计数器，并配有独立的数据和状态缓冲区。
- 操作避免了CAS循环，最小化缓存竞争和队头阻塞。
- 除非线程被挂起或失败，否则确保有界等待，防止饥饿问题。
- 可驱动的入队/出队操作允许非阻塞轮询，便于异步/事件循环集成。
- 在高预订号溢出边界（如2^63+1）处存在罕见的竞态条件风险。
- 基准测试显示，在多生产者/消费者环境下具有良好的可扩展性，但性能随核心数量而变化。
Pg_re2: Postgres extension for fast, RE2-powered regular expressions in Postgres
12 days ago
- ClickHouse推出了pg_re2，这是一个为Postgres设计的扩展，利用RE2实现快速正则表达式，强调速度和兼容性。
- 与Postgres的回溯POSIX正则表达式相比，RE2使用有限自动机以实现更快、更可预测的性能，基准测试显示速度提升了1.8倍到8.6倍。
- pg_re2增加了索引支持（@~运算符），通过btree和GIN索引提供1.1倍到1.8倍的加速，并改进了对模式的trigram处理。
- 与ClickHouse正则表达函数的兼容性是关键，pg_re2解决了语法差异（例如\b表示单词边界与退格键的不同），以确保在使用pg_clickhouse时结果一致。
- pg_re2函数下推至ClickHouse，消除了差异并提升了分析查询的性能，推荐用于统一的高性能数据平台。
We scaled PgBouncer to 4x throughput
9 days ago
- PgBouncer是单线程的，即使在多核系统中也只使用一个CPU核心，这可能成为吞吐量的瓶颈。
- 在ClickHouse Managed Postgres中，会运行多个PgBouncer进程，根据可用核心数进行扩展，并使用so_reuseport实现内核负载均衡。
- 查询取消通过进程对等机制处理：进程将取消请求转发给正确的会话所有者，确保在整个集群中的功能正常。
- 事务模式池化在提交后将服务器连接返回，连接配额在进程间分配，以避免过度占用Postgres资源。
- 性能测试显示，由16个进程组成的集群可实现约336k TPS（提高4倍）并利用约8个核心，而单个进程峰值约为87k TPS且仅使用一个核心。
- 在低并发场景下，单个PgBouncer已足够；但在高负载下，多进程集群可防止连接池成为瓶颈。
Migrating a production AI agent to GPT-5.6: 2.2x faster, 27% cheaper
8 days ago
- Ploy的代理现在将GPT-5.6 Sol设为默认模型，取代了Claude Opus，因为前者在质量、速度（快2.2倍）和成本（降低27%）方面表现更优。
- 迁移至GPT-5.6需要修正评估框架的偏见、工具调用模式（以处理可选参数）、提示缓存（工作区作用域的密钥）以及推理回放（自包含的数据块）。
- GPT-5.6擅长简洁现代的设计，但缺乏指导时可能显得泛化；其工具调用的冗长性最初导致空文件读取，已通过模式转换解决。
- 不同供应商的提示缓存机制差异显著影响了成本；OpenAI的模型需要为每个工作区设置明确的密钥以实现有效的缓存命中。
- 该模型在精简代码输出和提升视觉评分方面展现出潜力，但配置调整对于公平的性能与成本比较至关重要。
Lobste.rs is now running on SQLite
7 days ago
- SQLite迁移已成功部署于周六，取得了积极成果，包括CPU和内存使用率降低、网站性能提速以及VPS成本减少。
- 此次迁移项目因K1收购后对MariaDB未来的担忧而启动，最初计划转向PostgreSQL，但最终出于实用和简洁的考虑选择了SQLite。
- 共进行了多次拉取请求尝试，首次部署因全表扫描和n+1查询导致的性能问题而失败，这些问题在后续尝试中得到修复。
- 第二次部署于7月11日成功实施，经过充分测试和修复后，网站良好应对了周一流量高峰，且小问题得到迅速解决。
- 关键教训包括SQLite的并发模型（通过WAL模式实现多读取、单写入）、性能调优的重要性，以及使用如SQLite这类简单方案相比PostgreSQL等复杂数据库的优势。
- 备份策略采用restic执行夜间任务，部署则使用Hatchbox结合Capistrano实现零停机更新，并利用SQLite的本地文件系统和WAL模式支持并发访问。
- 社区贡献得到认可，此次迁移被视为确保网站长期可持续性的一步，SQLite尽管在并发性方面曾受质疑，但已证明能满足网站需求。
Lobste.rs is now running on SQLite
7 days ago
- SQLite 部署成功完成，性能和成本均有显著改善。
- 迁移过程中经历了多次PR提交及性能优化调整。
- 总结的经验教训包括SQLite的并发模型和备份策略。
- 社区协作和合理的项目预期为项目成功提供了支持。
- 出于简洁性和满足项目需求的考虑，最终选择了SQLite而非PostgreSQL。
Count the Bytes, Not the FLOPs
7 days ago
- 文章描述了tsbootstrap的批量设计如何因低算术强度而产生内存限制的性能问题。该设计实现了一个较大的中间张量（针对10,000个观测值和2,000次重复，体积达160 MB），导致其性能低于现有库，执行速度较慢。
- 通过采用内核融合技术，实现了一种融合流式路径，避免完整复制张量的实体化。该方法将工作集保持在缓存中，仅存储最终统计量（例如16 kB而非160 MB），从而显著减少了内存流量。
- 通过引入基于计数器的随机数生成器（Philox-4x32-10）消除了O(B)种子对象分配，解决了第二个性能瓶颈。对于小型工作负载，该方法将初始化时间从13.1毫秒缩短至0.55毫秒，同时保证了逐比特可复现性。
- 重新设计后的方案在持续工作负载上实现了3.1倍至20倍的加速效果。融合路径在所有16个基准测试单元中均优于现有方案，但实体化路径的性能仍相对滞后。
- 关键设计原则包括：绝不实体化仅用于归约运算的数组，通过融合操作以最小化内存流量，以及通过推导而非携带状态来管理计算过程。这些原则通过简化而非增加复杂度，带来了显著的性能提升。
Just Use Postgres for Job Queues
4 days ago
- 扩展基于Postgres的作业队列具有挑战性，但通过优化是可行的。
- SKIP LOCKED 通过允许工作进程锁定和跳过已被锁定的行来帮助解决竞争问题。
- 将事务隔离级别从可重复读调整为已提交读可以减少序列化失败。
- 优化索引，例如使用选择性索引和部分索引，可以降低CPU使用率并提升性能。
We rewrote our custom visualisation renderers from SVG to be in Canvas
4 days ago
- 新的分析器仪表板使用Canvas替代SVG来渲染火焰图，消除了每帧所需的DOM节点，减轻了浏览器的工作负担。
- Canvas采用即时模式API，绘图命令直接生成像素，避免了SVG保持模式相关的样式、布局及垃圾回收开销。
- 数据通过Arrow Flight的列式Arrow格式处理，支持零拷贝读取和高效渲染，通过直接访问数组来获取帧属性，如x位置、宽度和深度。
- 渲染优化包括视窗裁剪以仅绘制可见帧和预计算位置，使缩放、滚动和重置交互操作感觉即时。
- 性能改进显示Canvas渲染器在独立测试中速度提升约3.6倍，缩放和滚动等实时交互速度加快4-5倍，但可访问性和文本选择方面仍有待权衡。
Zero-dependency streaming tar parser and writer for JavaScript
3 days ago
- NPM生态系统受到遗留依赖的困扰，这些依赖会拖慢应用运行速度、延长安装时间，并扩大供应链攻击的攻击面。
- e18e.dev 是一场旨在推动生态系统现代化的运动，它倡导使用更简洁、高效的库，例如 modern-tar——一个零依赖、符合标准的TAR解析器。
- modern-tar 的架构将解析逻辑与I/O解耦，采用纯同步状态机设计，可在浏览器和Node.js等多种运行时环境中运行。
- 零拷贝环形缓冲区通过存储对输入数据的引用而非复制数据，最大限度地减少了内存分配和垃圾回收器的压力。
- 为处理并发和安全性问题，modern-tar 采用了基于承诺链的路径缓存机制，支持并行处理，同时保持严格的顺序执行，并能防止TOCTOU等漏洞。
- 基准测试显示，对于包含大量小文件的归档，modern-tar 比 node-tar 快1.4倍，比 tar-fs 快2.6倍，同时具有稳定、积极维护和在业界广泛采用的特点。
Refs: Mutable Arrays in jax
2 days ago
- JAX数组是不可变的，这有助于优化编译，但对于内存控制等任务可能限制表达能力和性能。
- Refs是可变数组，与JIT和梯度等JAX转换兼容，允许通过索引进行原地读写操作。
- Refs存在限制：无法从JIT函数返回、不能多次传递，也不能在闭包引用Refs时用于vmap转换。
- 自动微分可与内部使用Refs的纯函数配合工作，且可通过vjp.with_refs使用ref参数进行梯度累积。
- Refs支持原地更新，无需实例化独立数组即可在微批次上实现高效的梯度累积。
- foreach装饰器利用Refs编写具有非顺序访问的灵活循环，避免scan的固定模式以提升性能。
SPIR-V on ROCm: A Portable IR for AMD GPUs
9 hours ago
- ROCm 采用 SPIR-V 作为 AMD GPU 的便携中间表示，实现了‘一次编译、按设备特化’的模型，替代了传统针对每个目标架构的提前编译方式。
- SPIR-V 解决了扩展性问题：消除了因针对每个目标架构的提前编译而带来的长构建时间、庞大臃肿的二进制文件以及缺乏前向兼容性的问题，使得单一二进制文件能够在未来的 GPU 架构上运行。
- 其关键特性是延迟解析的特性谓词（ZCFS），通过诸如 __builtin_amdgcn_processor_is 和 __builtin_amdgcn_is_invocable 等内置函数，实现了按架构分派而无需运行时开销。
- 基准测试显示，无论目标数量多少，SPIR-V 都能提供稳定的构建时间和二进制大小，而臃肿的二进制文件大小则呈线性增长；首次启动时的即时编译延迟（约 70-100 毫秒）通过缓存机制得到了缓解。
- 当前状态包括已发布 amdgcnspirv 目标和即时编译缓存；正在进行中的开发包括集成到 LLVM 主线的 SPIR-V 后端以及在软件包安装时进行即时编译；库的覆盖范围仍然是其局限所在。

Hasty Briefsbeta

#performance optimization

Hanami 3.0: In Full Bloom

Database Traffic Control

NUMA: Cores, memory, and the distance between them

Superpowers 6

CachyOS June 2026 Release

How we made WINDOW JOIN parallel and vectorized

JPEG-XL Libjxl 0.12 Brings More Performance Optimizations

Girls Just Wanna Have Fast MPMC Queues with Bounded Waiting

Pg_re2: Postgres extension for fast, RE2-powered regular expressions in Postgres

We scaled PgBouncer to 4x throughput

Migrating a production AI agent to GPT-5.6: 2.2x faster, 27% cheaper

Lobste.rs is now running on SQLite

Lobste.rs is now running on SQLite

Count the Bytes, Not the FLOPs

Just Use Postgres for Job Queues

We rewrote our custom visualisation renderers from SVG to be in Canvas

Zero-dependency streaming tar parser and writer for JavaScript

Refs: Mutable Arrays in jax

SPIR-V on ROCm: A Portable IR for AMD GPUs