Show HN: Cordon – Reduce large log files to anomalous sections
2 months ago
- #anomaly-detection
- #log-analysis
- #machine-learning
- Cordon采用基于Transformer的嵌入技术和基于密度的评分机制,实现日志文件的语义异常检测。
- 核心原理:重复模式视为正常;异常、罕见或聚集事件会被突出标记。
- 功能特性包括语义分析、密度评分、噪声消除及多后端支持(sentence-transformers或llama.cpp)。
- GPU加速需配备Pascal架构及以上NVIDIA显卡;CPU模式始终可用。
- 安装方式支持pip、uv安装及源码克隆开发模式。
- 基础用法:通过窗口大小、k近邻数和异常百分位等参数运行Cordon分析日志。
- 高级配置支持GPU加速、异常范围过滤及详细结果输出。
- Cordon可将大型日志压缩至语义关键段落,某些场景下缩减率高达98%。
- 工作流涵盖日志摄取、分割、向量化、评分、阈值筛选、合并及格式化。
- 可调参数如窗口尺寸、k近邻数和异常百分位适配不同日志类型。
- 适用场景包括大语言模型预处理、初步分类、异常检测和探索性分析。
- GPU加速显著提升大规模日志处理速度,其中k-NN评分采用PyTorch实现。