Full Unicode Search at 50× ICU Speed with AVX‑512
5 months ago
- #UTF-8
- #Performance
- #Unicode
- StringZilla 是一个专注于速度和正确性的高性能开源库,用于处理 Unicode 和 UTF-8 编码。
- 它利用 Intel 和 AMD CPU 的 AVX-512 指令集加速常见操作,如文本分词、大小写转换和子字符串搜索。
- StringZilla 比 ICU 和 PCRE2 等替代方案快得多,在某些情况下可实现 10 倍到 20,000 倍的加速。
- 该库经过最新 Unicode 规范和真实数据的测试,确保正确性。
- UTF-8 是互联网上主导的文本编码,截至 2024 年覆盖了 98% 的内容,其余 2% 为传统编码。
- StringZilla 提供多种编程语言的 API,包括 C/C++、Python、Rust、Swift、Node.js 和 Go。
- 未来计划包括优化更多文字(如格鲁吉亚文、韩文)的支持,并移植到 Arm 架构。