Short-Circuiting Correlated Subqueries in SQLite5 months agohttps://emschwartz.me/short-circuiting-correlated-subqueries-in-sqlite/使用非关联标量子查询优化SQLite,跳过关联子查询Scour的排名SQL查询采用二进制量化向量嵌入的暴力搜索通过关联子查询添加的域名排除过滤器会影响性能引入短路技术,为没有排除域名的用户跳过关联子查询基准测试显示,对于没有排除域名的用户,短路技术带来显著性能提升比较NOT EXISTS、NOT IN和LEFT JOIN方法在排除行时的性能结论:使用非关联标量子查询的短路技术优化了平均情况下的性能
Partial Inlining5 months agohttps://xania.org/202512/18-partial-inlining部分内联允许编译器仅内联函数的快速路径,同时将慢速路径保留为单独调用,从而在不增加代码体积的情况下优化性能。编译器将函数拆分为快速路径(内联)和慢速路径(外联),确保所有调用场景的正确性。该方法既减少了快速路径的函数调用开销,又避免了复杂慢速计算的代码重复。编译器启发式算法会权衡性能收益与代码体积成本,决定何时应用部分内联。不同编译器(如GCC和Clang)可能做出不同的内联决策,因此建议检查热点代码路径以获得最佳效果。
Lite^3, a JSON-Compatible Zero-Copy Serialization Format5 months agohttps://github.com/fastserial/lite3Lite³是一种零拷贝二进制序列化格式,将数据编码为单一连续缓冲区内的B树结构它支持在O(log n)时间复杂度内访问和修改任意字段,功能相当于序列化的字典无需传统解析/序列化过程,可直接读写和修改数据,操作方式类似哈希表或二叉树该格式无模式限制、具有自描述性,并支持与JSON双向转换以确保兼容性和调试便利性能测试显示Lite³比最快的JSON库快达120倍,较Google Flatbuffers快242倍提供两种API:可精细控制内存分配的Buffer API和简化使用的Context API安全特性包括溢出保护边界检查、运行时类型安全及递归深度限制适用于嵌入式系统和ARM平台(需支持int64_t类型和8字节双精度浮点)未来规划包括-flto编译优化、内置碎片整理和完整的JSON互操作性受Lite²论文启发但为独立实现,命名为Lite³寓意更轻量化
Show HN: Orbit a systems level programming language that compiles .sh to LLVM5 months agohttps://github.com/SIE-Libraries/orbitSpaceship是一种高性能系统自动化语言,旨在取代传统的Shell脚本编程。核心特性包括:受Go语言启发的严格语法、强大的固定宽度类型系统,以及基于LLVM构建的POSIX命令即时编译功能。性能优势:静态类型检查与即时编译技术结合,实现极致执行速度。安全性:通过基于操作系统级系统调用的严格进程API,彻底消除Shell注入漏洞。可靠性:基于POSIX退出代码的显式错误处理模型。现代语法:借鉴Go语言的简洁语法,兼具可读性与可编写性。类型系统:采用严格的固定宽度类型机制,不支持类型推断,所有类型必须显式声明。错误处理:直接映射POSIX退出码和errno,可失败函数以'!'为前缀进行标记。进程API:以结构化数组传递参数执行外部命令,从根本上杜绝Shell注入风险。延迟执行模型:通过.then()链式构建命令管道,最终由.run()触发执行。@jit指令:将Shell脚本转换为原生POSIX逻辑,并通过LLVM执行路径进行即时编译。标准库:包含JIT编译的POSIX层和Syscalls运行时库,专为高效系统级操作设计。设计目标:相较传统Shell脚本实现显著性能提升,基准测试目标达到约14倍加速。
Show HN: BlazeDiff v2 – Fastest image diff with native binary and SIMD5 months agohttps://github.com/teimurjan/blazediffBlazeDiff是一个专为JavaScript应用打造的高性能差异对比生态系统最初作为像素级精准的图像对比库开发,速度比pixelmatch快1.5倍包含图像对比、对象差异分析、感知质量指标和可视化组件等工具集核心组件包:@blazediff/bin(最快的图像差异工具)、@blazediff/core、@blazediff/object、@blazediff/ssim、@blazediff/gmsd、@blazediff/cli、@blazediff/react、@blazediff/ui性能优势:比odiff快3-4倍,4K图像处理比pixelmatch快8倍,JavaScript环境下比pixelmatch快约50%基于前沿研究的感知质量指标:SSIM、MS-SSIM、Hitchhiker's SSIM、GMSD提供完整文档、示例和基准测试数据采用MIT开源协议,欢迎贡献代码
Show HN: ZXC – Asymmetric, +40% decode vs. LZ4 on ARM (C, BSD-3, Fuzzed)5 months agohttps://github.com/hellobertrand/zxcZXC是一个专为内容分发和嵌入式系统优化的非对称高性能无损压缩库其专注于'一次写入多次读取'场景,通过牺牲压缩速度来换取最大解压吞吐量在Apple Silicon上ZXC解压速度比LZ4快40%,在云端ARM架构(Google Axion)上快22%已正式并入lzbench主分支,可通过行业标准基准测试进行独立验证采用非对称效率设计,ZXC特别针对ARMv8等现代CPU架构优化解压性能基准测试显示:ZXC-3(标准模式)比LZ4快1.39倍,ZXC-5(紧凑模式)比Zstd-1快3.3倍支持多平台包括macOS ARM64、Linux AArch64、Linux x86_64和Windows x86_64提供命令行工具支持基础压缩、高压缩比、解压及性能测试功能包含线程安全API,适用于高并发环境和多种编程语言具备持续模糊测试、静态/动态分析功能,API要求显式缓冲区容量以确保安全
Sharp: High performance Node.js image processing/optimization5 months agohttps://github.com/lovell/sharp高速Node-API模块,专用于将大尺寸图片转换为网络友好格式(JPEG、PNG、WebP、GIF、AVIF)兼容所有支持Node-API v9的JavaScript运行时环境,包括Node.js、Deno和Bun基于libvips实现,图像缩放速度比ImageMagick/GraphicsMagick快4-5倍采用Lanczos重采样算法,正确处理色彩空间、ICC配置文件和Alpha透明通道支持旋转、区域裁剪、图像合成、伽马校正等操作在多数macOS、Windows和Linux系统上无需额外安装依赖通过npm安装:`npm install sharp`典型用例包括调整尺寸、旋转图像及创建带透明通道的图片提供贡献者指南,欢迎提交错误报告、功能请求和代码修改基于Apache 2.0许可证开源
Big GPUs don't need big PCs5 months agohttps://www.jeffgeerling.com/blog/2025/big-gpus-dont-need-big-pcs树莓派5虽然只有1条PCIe Gen 3通道带宽,但能运行多个GPU性能测试涵盖Jellyfin转码、GravityMark渲染、LLM/AI任务及多GPU应用场景树莓派性能常与现代PC持平或略低,但能效表现突出,有时优势显著树莓派搭载四块Nvidia RTX A5000显卡时,LLM任务性能接近高端服务器水平成本对比显示:树莓派eGPU方案仅需350-400美元,同等性能PC需1500-2000美元闲置功耗方面,树莓派(4-5W)显著低于PC(30W)Jellyfin转码在树莓派上能满足多数需求,但PC的原始吞吐量更高GravityMark基准测试表明,树莓派有时能超越搭载老旧GPU(如RX 460)的PC树莓派的AI性能具有竞争力(尤其搭配Nvidia显卡),且能效表现更佳树莓派可实现多GPU配置,但受限于PCIe带宽会产生性能开销对于GPU密集型任务,当能效和成本优先于峰值性能时,树莓派是理想选择
Choosing the Right Python Docker Image for Finance Workloads5 months agohttps://jiripik.com/2025/12/19/choosing-the-right-python-docker-image-for-financ...为Python数据工作负载选择正确的Docker基础镜像会影响性能和成本。基准测试对比了三个镜像:python:3.14-slim、intel/python和continuumio/anaconda3。对于大多数工作负载,这些镜像的性能差异在10%以内,因此python:3.14-slim是最优默认选择。英特尔MKL优化镜像在Intel CPU上的密集线性代数运算表现优异,但在AMD CPU上可能表现不佳。实际案例显示,与Intel Python相比,python:3.14-slim能将作业运行时间减少40%。提供了决策树,根据CPU架构和工作负载类型选择最优Docker镜像。关键考虑因素:镜像大小、性能提升和硬件兼容性。Python 3.14解释器优化为纯Python代码带来10-20%的速度提升。无线程锁的Python构建(3.13实验性功能)有望在未来实现多线程性能突破。结论:默认选择python:3.14-slim;在Intel CPU上处理BLAS密集型任务时使用Intel Python;Anaconda适合追求便利性的场景。
86Box v5.35 months agohttps://86box.net/2025/12/21/86box-v5-3.html性能改进包括为Windows提供新的C运行时库,针对ARM和Apple Silicon主机的优化,以及对Voodoo等显卡的多线程改进。软驱音效功能更新,提供更高精确度和新录制音效,现已移至独立资源包。保留对Windows 7和8的支持,但需安装Visual C++ 2015可再发行组件包。新增功能包括可自定义键盘快捷键、管理器中的工具栏,以及磁盘镜像的相对路径转换。针对多种机器、硬件、显示、声音和存储组件的错误修复。新增硬件支持如Crystal CS4232 ISA声卡和OPTi 82C930/931 ISA声卡。提升软驱音效和CD-ROM驱动器模型的准确性并修复相关问题。
Linux 6.19's Significant ~30% Performance Boost for Old AMD Radeon GPUs5 months agohttps://www.phoronix.com/review/linux-619-amdgpu-radeonLinux 6.19内核将默认使用AMDGPU驱动替代传统Radeon驱动,支持老旧AMD GCN 1.0/1.1架构显卡新驱动预计可为这些老显卡带来最高约30%的性能提升Valve的贡献实现了GCN 1.0/1.1显卡的功能对等,使得切换至AMDGPU驱动成为可能相比Radeon驱动,AMDGPU具备更佳性能、RADV Vulkan支持及持续更新优势测试基于Radeon HD 7950显卡、Mesa 26.0-devel及Ubuntu 25.10系统平台进行
Show HN: ZDS – Zig Data Structures5 months agohttps://github.com/asheshvidyut/zds专为Zig设计的高性能数据结构,默认非线程安全。包含瑞士表(SIMD优化的哈希表)、红黑树、基数树、LRU缓存和B树。基准测试显示瑞士表在插入和删除操作上显著优于std.AutoHashMap。红黑树针对有序数据维护优化,处理大规模数据集时比排序动态数组快得多。基数树擅长前缀存储与检索,具有高效的结构共享特性。LRU缓存结合瑞士表实现O(1)访问,双向链表实现O(1)淘汰。B树通过可配置节点大小实现平衡,最大限度减少磁盘/内存访问。基准测试表明zds结构相较标准方案具有性能优势。
Tachyon: High frequency statistical sampling profiler5 months agohttps://docs.python.org/3.15/library/profiling.sampling.htmlprofiling.sampling模块(Tachyon)通过周期性堆栈采样为Python程序提供统计性能分析Tachyon可直接运行脚本或附加到任何正在运行的Python进程,无需修改代码或重启程序统计性能分析通过定期捕获调用堆栈快照来构建程序行为画像Tachyon输出中的时间值是基于采样计数估算的近似值,而非直接测量结果统计采样不适用于极短脚本、精确调用计数或微小性能差异比较的场景Tachyon通过三个子命令运行:run(启动并分析)、attach(分析运行中进程)、replay(转换二进制分析文件)分析器支持多种输出格式,包括pstats、火焰图、热力图以及适用于Firefox Profiler的Gecko格式采样配置选项包含间隔时间、持续时间、线程选择及阻塞模式等参数提供四种分析模式:挂钟时间模式、CPU模式、GIL模式和异常模式针对asyncio程序支持异步感知分析,能基于任务结构重建调用堆栈
When Compilers Surprise You5 months agohttps://xania.org/202512/24-cunning-clang编译器优化可以将O(n)循环转化为O(1)闭式解GCC通过巧妙的算术运算每次对两个数求和来优化循环Clang通过数学变换完全消除循环直接计算总和文章揭示了编译器能实现的那些令人惊喜的巧妙优化作者分享了二十余年编译器工作积累的真知灼见
Show HN: LoongArch Userspace Emulator5 months agohttps://github.com/libriscv/libloong高性能龙芯架构用户空间模拟器库,适用于嵌入式与脚本应用开发基于libriscv架构构建,具备极具竞争力的解释器性能(约1.8万行代码)核心特性:带可选JIT的快速龙芯解释器(~4纳秒超低延迟调用开销),完整支持64位龙芯架构(LA64)支持向量指令集LSX/LASX,提供C++接口及Rust/Go语言绑定零依赖、执行超时控制、内存安全机制、一流的暂停/恢复功能支持特别适合游戏引擎脚本系统,相比传统方案显著降低调用开销CMake配置选项支持调试模式、二进制翻译、线程化字节码调度及内存参数设置附龙芯ELF二进制文件加载运行示例性能基准测试显示:高内存吞吐率,CoreMark评分优异,JIT模式可达原生性能77%
How uv got so fast5 months agohttps://nesbitt.io/2025/12/26/how-uv-got-so-fast.htmluv比pip快得多是由于设计决策,而不仅仅是因为用Rust编写PEP 518/517/621/658等Python打包标准通过静态元数据和更快依赖解析实现了提速uv通过放弃对.egg文件、pip.conf等遗留功能和非严格解析的支持来加速安装并行下载、全局缓存和HTTP范围请求等优化并不依赖Rust实现Rust特有的优化包括零拷贝反序列化、无锁数据结构和紧凑版本表示关键启示在于:静态元数据和避免任意代码执行是快速包管理的核心要素
Uv: An Fast Python Package Manager5 months agohttps://www.janestreet.com/tech-talks/uv-an-extremely-fast-python-package-manage...Charlie Marsh是Astral公司的创始人,该公司致力于开发高性能Python开发者工具,包括Ruff(代码检查与格式化工具)和UV(包管理器)。UV是用Rust编写的下一代Python包管理器,旨在统一替代pip、pipx、virtualenv和poetry等工具。通过内存高效分配、并发处理、零拷贝反序列化和精心设计的缓存系统等优化手段,UV实现了极快的运行速度。Python包生态系统缺乏多版本支持,导致依赖解析成为复杂的NP难问题,UV通过SAT求解器优雅解决了这一难题。UV能优雅处理平台特定依赖和标记,确保在不同环境下都能实现可复现的安装。该工具已获得快速普及,月下载量超过1600万次,占PyPI请求总量的10%以上。UV的缓存系统采用硬链接和引用链接技术,使已下载包的安装几乎瞬间完成。该包管理器运用了多项智能优化:如采用U64整数压缩版本号表示、部分zip文件下载等,最大限度减少I/O消耗。UV致力于为Python提供类似Cargo的体验,通过单一可靠工具满足所有包管理需求。
Tieredsort: Header only, blazing fast (3-4x) C++17 sorting for numeric types5 months agohttps://github.com/Cranot/tieredsorttieredsort 是一个仅需头文件的 C++17 排序库,针对数值类型进行了优化。在随机数据上比 std::sort 快 3.6 倍,在稠密/少重复数据上快 16-21 倍。能根据数据特征自动选择最佳排序策略。支持 int32_t、uint32_t、int64_t、uint64_t、float 和 double 类型。通过 sort_by_key() 支持对象的稳定排序。无需外部依赖或 SIMD 指令。对 32 位类型有显著加速(3.5-5 倍),对 64 位类型有适度提升(1.4-1.8 倍)。采用三层决策树选择算法:小数据量用 std::sort,稠密范围用计数排序,默认用基数排序。采用 MIT 许可证,欢迎贡献代码。
Why is calling my asm function from Rust slower than calling it from C?5 months agohttps://ohadravid.github.io/posts/2025-12-rav1d-faster-asm/识别出特定汇编函数cdef_filter4_pri_edged_8bpc_neon在Rust实现中比C基准慢30%发现性能下降是由于Rust版本中数据加载速度较慢,这源于过多的栈数据存储查明根本原因是编译器无法跨函数指针优化Rust抽象通过使WithOffset结构体FFI安全并重构跨FFI边界的数据传递方式实现修复,将性能差距缩小至C版本的5%以内使用samply和cargo asm等性能分析工具诊断并验证了优化效果
Developing a Beautiful and Performant Block Editor in Qt C++ and QML5 months agohttps://rubymamistvalove.com/block-editor作者使用Qt C++和QML开发了跨平台块编辑器Daino Notes,旨在实现高性能和原生应用般的操作体验。原生应用应具备视觉吸引力、行为一致性和优异性能。Qt应用程序可以实现'类原生'特性。Daino Notes从简易Markdown编辑器发展为受Notion启发的所见即所得块编辑器,聚焦简洁性与灵活性。块编辑器架构采用Qt的MVC模式:数据层(SQLite纯文本)、模型层(C++的BlockModel)和视图层(QML的ListView)。高级功能包括撤销/重做栈、光标下Markdown语法可视化显示,以及看板等复杂块的处理能力。通过创建副本对象实现了拖拽功能,克服了ListView虚拟化带来的技术挑战。虽然受Qt的QML限制存在一些不足,但仍添加了支持外部图片拖放的功能。