Show HN: TokenDagger – A tokenizer faster than OpenAI's Tiktoken
a year ago
- #Tokenization
- #Performance
- #OpenAI
- TokenDagger是OpenAI TikToken的高速实现,专为大规模文本处理而设计。
- 其吞吐量提升2倍,代码样本分词速度加快4倍。
- 采用优化的PCRE2正则表达式引擎,实现高效分词模式匹配。
- 完全兼容OpenAI TikToken分词器,可直接替换使用。
- 简化版BPE算法有效降低大型特殊词表对性能的影响。
- 性能测试显示代码分词速度达TikToken的4.02倍。
- 提供详细的安装配置指南,便于快速部署。
- 需预先安装libpcre2-dev和Python 3开发工具包。