Hasty Briefsbeta

双语

Classifying aviation-related posts on Hacker News with SLMs

a year ago
  • #machine-learning
  • #data-analysis
  • #aviation
  • 黑客新闻上航空相关内容的数量出人意料地高
  • 作者使用小型语言模型(SLMs)对4200万篇黑客新闻帖子进行了航空相关性分类
  • 数据通过黑客新闻API收集,经处理后存储在Cloudflare R2存储桶中
  • 创建了预处理管道,将标题和正文拼接作为模型输入
  • 为提升效率,在1万篇帖子上进行了模型选择和提示词原型设计
  • 最终分析显示:0.62%的总帖子和1.13%的热门故事与航空相关
  • 航空相关帖子随时间增长,在重大航空事件期间出现峰值
  • 列出了黑客新闻航空内容贡献量最高的30位用户
  • 未来改进方向包括更严格的评估和先进建模技术
  • 作者强调小型预训练模型在大规模数据分析中的有效性