Hasty Briefsbeta

全部标签

#performance

共 528 篇

双语

Short-Circuiting Correlated Subqueries in SQLite
5 months ago
- 使用非关联标量子查询优化SQLite，跳过关联子查询
- Scour的排名SQL查询采用二进制量化向量嵌入的暴力搜索
- 通过关联子查询添加的域名排除过滤器会影响性能
- 引入短路技术，为没有排除域名的用户跳过关联子查询
- 基准测试显示，对于没有排除域名的用户，短路技术带来显著性能提升
- 比较NOT EXISTS、NOT IN和LEFT JOIN方法在排除行时的性能
- 结论：使用非关联标量子查询的短路技术优化了平均情况下的性能
Partial Inlining
5 months ago
- 部分内联允许编译器仅内联函数的快速路径，同时将慢速路径保留为单独调用，从而在不增加代码体积的情况下优化性能。
- 编译器将函数拆分为快速路径（内联）和慢速路径（外联），确保所有调用场景的正确性。
- 该方法既减少了快速路径的函数调用开销，又避免了复杂慢速计算的代码重复。
- 编译器启发式算法会权衡性能收益与代码体积成本，决定何时应用部分内联。
- 不同编译器（如GCC和Clang）可能做出不同的内联决策，因此建议检查热点代码路径以获得最佳效果。
Lite^3, a JSON-Compatible Zero-Copy Serialization Format
5 months ago
- Lite³是一种零拷贝二进制序列化格式，将数据编码为单一连续缓冲区内的B树结构
- 它支持在O(log n)时间复杂度内访问和修改任意字段，功能相当于序列化的字典
- 无需传统解析/序列化过程，可直接读写和修改数据，操作方式类似哈希表或二叉树
- 该格式无模式限制、具有自描述性，并支持与JSON双向转换以确保兼容性和调试便利
- 性能测试显示Lite³比最快的JSON库快达120倍，较Google Flatbuffers快242倍
- 提供两种API：可精细控制内存分配的Buffer API和简化使用的Context API
- 安全特性包括溢出保护边界检查、运行时类型安全及递归深度限制
- 适用于嵌入式系统和ARM平台（需支持int64_t类型和8字节双精度浮点）
- 未来规划包括-flto编译优化、内置碎片整理和完整的JSON互操作性
- 受Lite²论文启发但为独立实现，命名为Lite³寓意更轻量化
Show HN: Orbit a systems level programming language that compiles .sh to LLVM
5 months ago
- Spaceship是一种高性能系统自动化语言，旨在取代传统的Shell脚本编程。
- 核心特性包括：受Go语言启发的严格语法、强大的固定宽度类型系统，以及基于LLVM构建的POSIX命令即时编译功能。
- 性能优势：静态类型检查与即时编译技术结合，实现极致执行速度。
- 安全性：通过基于操作系统级系统调用的严格进程API，彻底消除Shell注入漏洞。
- 可靠性：基于POSIX退出代码的显式错误处理模型。
- 现代语法：借鉴Go语言的简洁语法，兼具可读性与可编写性。
- 类型系统：采用严格的固定宽度类型机制，不支持类型推断，所有类型必须显式声明。
- 错误处理：直接映射POSIX退出码和errno，可失败函数以'!'为前缀进行标记。
- 进程API：以结构化数组传递参数执行外部命令，从根本上杜绝Shell注入风险。
- 延迟执行模型：通过.then()链式构建命令管道，最终由.run()触发执行。
- @jit指令：将Shell脚本转换为原生POSIX逻辑，并通过LLVM执行路径进行即时编译。
- 标准库：包含JIT编译的POSIX层和Syscalls运行时库，专为高效系统级操作设计。
- 设计目标：相较传统Shell脚本实现显著性能提升，基准测试目标达到约14倍加速。
Show HN: BlazeDiff v2 – Fastest image diff with native binary and SIMD
5 months ago
- BlazeDiff是一个专为JavaScript应用打造的高性能差异对比生态系统
- 最初作为像素级精准的图像对比库开发，速度比pixelmatch快1.5倍
- 包含图像对比、对象差异分析、感知质量指标和可视化组件等工具集
- 核心组件包：@blazediff/bin（最快的图像差异工具）、@blazediff/core、@blazediff/object、@blazediff/ssim、@blazediff/gmsd、@blazediff/cli、@blazediff/react、@blazediff/ui
- 性能优势：比odiff快3-4倍，4K图像处理比pixelmatch快8倍，JavaScript环境下比pixelmatch快约50%
- 基于前沿研究的感知质量指标：SSIM、MS-SSIM、Hitchhiker's SSIM、GMSD
- 提供完整文档、示例和基准测试数据
- 采用MIT开源协议，欢迎贡献代码
Show HN: ZXC – Asymmetric, +40% decode vs. LZ4 on ARM (C, BSD-3, Fuzzed)
5 months ago
- ZXC是一个专为内容分发和嵌入式系统优化的非对称高性能无损压缩库
- 其专注于'一次写入多次读取'场景，通过牺牲压缩速度来换取最大解压吞吐量
- 在Apple Silicon上ZXC解压速度比LZ4快40%，在云端ARM架构(Google Axion)上快22%
- 已正式并入lzbench主分支，可通过行业标准基准测试进行独立验证
- 采用非对称效率设计，ZXC特别针对ARMv8等现代CPU架构优化解压性能
- 基准测试显示：ZXC-3(标准模式)比LZ4快1.39倍，ZXC-5(紧凑模式)比Zstd-1快3.3倍
- 支持多平台包括macOS ARM64、Linux AArch64、Linux x86_64和Windows x86_64
- 提供命令行工具支持基础压缩、高压缩比、解压及性能测试功能
- 包含线程安全API，适用于高并发环境和多种编程语言
- 具备持续模糊测试、静态/动态分析功能，API要求显式缓冲区容量以确保安全
Sharp: High performance Node.js image processing/optimization
5 months ago
- 高速Node-API模块，专用于将大尺寸图片转换为网络友好格式（JPEG、PNG、WebP、GIF、AVIF）
- 兼容所有支持Node-API v9的JavaScript运行时环境，包括Node.js、Deno和Bun
- 基于libvips实现，图像缩放速度比ImageMagick/GraphicsMagick快4-5倍
- 采用Lanczos重采样算法，正确处理色彩空间、ICC配置文件和Alpha透明通道
- 支持旋转、区域裁剪、图像合成、伽马校正等操作
- 在多数macOS、Windows和Linux系统上无需额外安装依赖
- 通过npm安装：`npm install sharp`
- 典型用例包括调整尺寸、旋转图像及创建带透明通道的图片
- 提供贡献者指南，欢迎提交错误报告、功能请求和代码修改
- 基于Apache 2.0许可证开源
Big GPUs don't need big PCs
5 months ago
- 树莓派5虽然只有1条PCIe Gen 3通道带宽，但能运行多个GPU
- 性能测试涵盖Jellyfin转码、GravityMark渲染、LLM/AI任务及多GPU应用场景
- 树莓派性能常与现代PC持平或略低，但能效表现突出，有时优势显著
- 树莓派搭载四块Nvidia RTX A5000显卡时，LLM任务性能接近高端服务器水平
- 成本对比显示：树莓派eGPU方案仅需350-400美元，同等性能PC需1500-2000美元
- 闲置功耗方面，树莓派(4-5W)显著低于PC(30W)
- Jellyfin转码在树莓派上能满足多数需求，但PC的原始吞吐量更高
- GravityMark基准测试表明，树莓派有时能超越搭载老旧GPU（如RX 460）的PC
- 树莓派的AI性能具有竞争力（尤其搭配Nvidia显卡），且能效表现更佳
- 树莓派可实现多GPU配置，但受限于PCIe带宽会产生性能开销
- 对于GPU密集型任务，当能效和成本优先于峰值性能时，树莓派是理想选择
Choosing the Right Python Docker Image for Finance Workloads
5 months ago
- 为Python数据工作负载选择正确的Docker基础镜像会影响性能和成本。
- 基准测试对比了三个镜像：python:3.14-slim、intel/python和continuumio/anaconda3。
- 对于大多数工作负载，这些镜像的性能差异在10%以内，因此python:3.14-slim是最优默认选择。
- 英特尔MKL优化镜像在Intel CPU上的密集线性代数运算表现优异，但在AMD CPU上可能表现不佳。
- 实际案例显示，与Intel Python相比，python:3.14-slim能将作业运行时间减少40%。
- 提供了决策树，根据CPU架构和工作负载类型选择最优Docker镜像。
- 关键考虑因素：镜像大小、性能提升和硬件兼容性。
- Python 3.14解释器优化为纯Python代码带来10-20%的速度提升。
- 无线程锁的Python构建（3.13实验性功能）有望在未来实现多线程性能突破。
- 结论：默认选择python:3.14-slim；在Intel CPU上处理BLAS密集型任务时使用Intel Python；Anaconda适合追求便利性的场景。
86Box v5.3
5 months ago
- 性能改进包括为Windows提供新的C运行时库，针对ARM和Apple Silicon主机的优化，以及对Voodoo等显卡的多线程改进。
- 软驱音效功能更新，提供更高精确度和新录制音效，现已移至独立资源包。
- 保留对Windows 7和8的支持，但需安装Visual C++ 2015可再发行组件包。
- 新增功能包括可自定义键盘快捷键、管理器中的工具栏，以及磁盘镜像的相对路径转换。
- 针对多种机器、硬件、显示、声音和存储组件的错误修复。
- 新增硬件支持如Crystal CS4232 ISA声卡和OPTi 82C930/931 ISA声卡。
- 提升软驱音效和CD-ROM驱动器模型的准确性并修复相关问题。
Linux 6.19's Significant ~30% Performance Boost for Old AMD Radeon GPUs
5 months ago
- Linux 6.19内核将默认使用AMDGPU驱动替代传统Radeon驱动，支持老旧AMD GCN 1.0/1.1架构显卡
- 新驱动预计可为这些老显卡带来最高约30%的性能提升
- Valve的贡献实现了GCN 1.0/1.1显卡的功能对等，使得切换至AMDGPU驱动成为可能
- 相比Radeon驱动，AMDGPU具备更佳性能、RADV Vulkan支持及持续更新优势
- 测试基于Radeon HD 7950显卡、Mesa 26.0-devel及Ubuntu 25.10系统平台进行
Show HN: ZDS – Zig Data Structures
5 months ago
- 专为Zig设计的高性能数据结构，默认非线程安全。
- 包含瑞士表（SIMD优化的哈希表）、红黑树、基数树、LRU缓存和B树。
- 基准测试显示瑞士表在插入和删除操作上显著优于std.AutoHashMap。
- 红黑树针对有序数据维护优化，处理大规模数据集时比排序动态数组快得多。
- 基数树擅长前缀存储与检索，具有高效的结构共享特性。
- LRU缓存结合瑞士表实现O(1)访问，双向链表实现O(1)淘汰。
- B树通过可配置节点大小实现平衡，最大限度减少磁盘/内存访问。
- 基准测试表明zds结构相较标准方案具有性能优势。
Tachyon: High frequency statistical sampling profiler
5 months ago
- profiling.sampling模块（Tachyon）通过周期性堆栈采样为Python程序提供统计性能分析
- Tachyon可直接运行脚本或附加到任何正在运行的Python进程，无需修改代码或重启程序
- 统计性能分析通过定期捕获调用堆栈快照来构建程序行为画像
- Tachyon输出中的时间值是基于采样计数估算的近似值，而非直接测量结果
- 统计采样不适用于极短脚本、精确调用计数或微小性能差异比较的场景
- Tachyon通过三个子命令运行：run（启动并分析）、attach（分析运行中进程）、replay（转换二进制分析文件）
- 分析器支持多种输出格式，包括pstats、火焰图、热力图以及适用于Firefox Profiler的Gecko格式
- 采样配置选项包含间隔时间、持续时间、线程选择及阻塞模式等参数
- 提供四种分析模式：挂钟时间模式、CPU模式、GIL模式和异常模式
- 针对asyncio程序支持异步感知分析，能基于任务结构重建调用堆栈
When Compilers Surprise You
5 months ago
- 编译器优化可以将O(n)循环转化为O(1)闭式解
- GCC通过巧妙的算术运算每次对两个数求和来优化循环
- Clang通过数学变换完全消除循环直接计算总和
- 文章揭示了编译器能实现的那些令人惊喜的巧妙优化
- 作者分享了二十余年编译器工作积累的真知灼见
Show HN: LoongArch Userspace Emulator
5 months ago
- 高性能龙芯架构用户空间模拟器库，适用于嵌入式与脚本应用开发
- 基于libriscv架构构建，具备极具竞争力的解释器性能（约1.8万行代码）
- 核心特性：带可选JIT的快速龙芯解释器（~4纳秒超低延迟调用开销），完整支持64位龙芯架构(LA64)
- 支持向量指令集LSX/LASX，提供C++接口及Rust/Go语言绑定
- 零依赖、执行超时控制、内存安全机制、一流的暂停/恢复功能支持
- 特别适合游戏引擎脚本系统，相比传统方案显著降低调用开销
- CMake配置选项支持调试模式、二进制翻译、线程化字节码调度及内存参数设置
- 附龙芯ELF二进制文件加载运行示例
- 性能基准测试显示：高内存吞吐率，CoreMark评分优异，JIT模式可达原生性能77%
How uv got so fast
5 months ago
- uv比pip快得多是由于设计决策，而不仅仅是因为用Rust编写
- PEP 518/517/621/658等Python打包标准通过静态元数据和更快依赖解析实现了提速
- uv通过放弃对.egg文件、pip.conf等遗留功能和非严格解析的支持来加速安装
- 并行下载、全局缓存和HTTP范围请求等优化并不依赖Rust实现
- Rust特有的优化包括零拷贝反序列化、无锁数据结构和紧凑版本表示
- 关键启示在于：静态元数据和避免任意代码执行是快速包管理的核心要素
Uv: An Fast Python Package Manager
5 months ago
- Charlie Marsh是Astral公司的创始人，该公司致力于开发高性能Python开发者工具，包括Ruff（代码检查与格式化工具）和UV（包管理器）。
- UV是用Rust编写的下一代Python包管理器，旨在统一替代pip、pipx、virtualenv和poetry等工具。
- 通过内存高效分配、并发处理、零拷贝反序列化和精心设计的缓存系统等优化手段，UV实现了极快的运行速度。
- Python包生态系统缺乏多版本支持，导致依赖解析成为复杂的NP难问题，UV通过SAT求解器优雅解决了这一难题。
- UV能优雅处理平台特定依赖和标记，确保在不同环境下都能实现可复现的安装。
- 该工具已获得快速普及，月下载量超过1600万次，占PyPI请求总量的10%以上。
- UV的缓存系统采用硬链接和引用链接技术，使已下载包的安装几乎瞬间完成。
- 该包管理器运用了多项智能优化：如采用U64整数压缩版本号表示、部分zip文件下载等，最大限度减少I/O消耗。
- UV致力于为Python提供类似Cargo的体验，通过单一可靠工具满足所有包管理需求。
Tieredsort: Header only, blazing fast (3-4x) C++17 sorting for numeric types
5 months ago
- tieredsort 是一个仅需头文件的 C++17 排序库，针对数值类型进行了优化。
- 在随机数据上比 std::sort 快 3.6 倍，在稠密/少重复数据上快 16-21 倍。
- 能根据数据特征自动选择最佳排序策略。
- 支持 int32_t、uint32_t、int64_t、uint64_t、float 和 double 类型。
- 通过 sort_by_key() 支持对象的稳定排序。
- 无需外部依赖或 SIMD 指令。
- 对 32 位类型有显著加速（3.5-5 倍），对 64 位类型有适度提升（1.4-1.8 倍）。
- 采用三层决策树选择算法：小数据量用 std::sort，稠密范围用计数排序，默认用基数排序。
- 采用 MIT 许可证，欢迎贡献代码。
Why is calling my asm function from Rust slower than calling it from C?
5 months ago
- 识别出特定汇编函数cdef_filter4_pri_edged_8bpc_neon在Rust实现中比C基准慢30%
- 发现性能下降是由于Rust版本中数据加载速度较慢，这源于过多的栈数据存储
- 查明根本原因是编译器无法跨函数指针优化Rust抽象
- 通过使WithOffset结构体FFI安全并重构跨FFI边界的数据传递方式实现修复，将性能差距缩小至C版本的5%以内
- 使用samply和cargo asm等性能分析工具诊断并验证了优化效果
Developing a Beautiful and Performant Block Editor in Qt C++ and QML
5 months ago
- 作者使用Qt C++和QML开发了跨平台块编辑器Daino Notes，旨在实现高性能和原生应用般的操作体验。
- 原生应用应具备视觉吸引力、行为一致性和优异性能。Qt应用程序可以实现'类原生'特性。
- Daino Notes从简易Markdown编辑器发展为受Notion启发的所见即所得块编辑器，聚焦简洁性与灵活性。
- 块编辑器架构采用Qt的MVC模式：数据层（SQLite纯文本）、模型层（C++的BlockModel）和视图层（QML的ListView）。
- 高级功能包括撤销/重做栈、光标下Markdown语法可视化显示，以及看板等复杂块的处理能力。
- 通过创建副本对象实现了拖拽功能，克服了ListView虚拟化带来的技术挑战。
- 虽然受Qt的QML限制存在一些不足，但仍添加了支持外部图片拖放的功能。

About|Login

#performance

Short-Circuiting Correlated Subqueries in SQLite

Partial Inlining

Lite^3, a JSON-Compatible Zero-Copy Serialization Format

Show HN: Orbit a systems level programming language that compiles .sh to LLVM

Show HN: BlazeDiff v2 – Fastest image diff with native binary and SIMD

Show HN: ZXC – Asymmetric, +40% decode vs. LZ4 on ARM (C, BSD-3, Fuzzed)

Sharp: High performance Node.js image processing/optimization

Big GPUs don't need big PCs

Choosing the Right Python Docker Image for Finance Workloads

86Box v5.3

Linux 6.19's Significant ~30% Performance Boost for Old AMD Radeon GPUs

Show HN: ZDS – Zig Data Structures

Tachyon: High frequency statistical sampling profiler

When Compilers Surprise You

Show HN: LoongArch Userspace Emulator

How uv got so fast

Uv: An Fast Python Package Manager

Tieredsort: Header only, blazing fast (3-4x) C++17 sorting for numeric types

Why is calling my asm function from Rust slower than calling it from C?

Developing a Beautiful and Performant Block Editor in Qt C++ and QML