Hasty Briefsbeta

双语

Show HN: Cordon – Reduce large log files to anomalous sections

2 months ago
  • #anomaly-detection
  • #log-analysis
  • #machine-learning
  • Cordon采用基于Transformer的嵌入技术和基于密度的评分机制,实现日志文件的语义异常检测。
  • 核心原理:重复模式视为正常;异常、罕见或聚集事件会被突出标记。
  • 功能特性包括语义分析、密度评分、噪声消除及多后端支持(sentence-transformers或llama.cpp)。
  • GPU加速需配备Pascal架构及以上NVIDIA显卡;CPU模式始终可用。
  • 安装方式支持pip、uv安装及源码克隆开发模式。
  • 基础用法:通过窗口大小、k近邻数和异常百分位等参数运行Cordon分析日志。
  • 高级配置支持GPU加速、异常范围过滤及详细结果输出。
  • Cordon可将大型日志压缩至语义关键段落,某些场景下缩减率高达98%。
  • 工作流涵盖日志摄取、分割、向量化、评分、阈值筛选、合并及格式化。
  • 可调参数如窗口尺寸、k近邻数和异常百分位适配不同日志类型。
  • 适用场景包括大语言模型预处理、初步分类、异常检测和探索性分析。
  • GPU加速显著提升大规模日志处理速度,其中k-NN评分采用PyTorch实现。