Classifying aviation-related posts on Hacker News with SLMs
a year ago
- #machine-learning
- #data-analysis
- #aviation
- 黑客新闻上航空相关内容的数量出人意料地高
- 作者使用小型语言模型(SLMs)对4200万篇黑客新闻帖子进行了航空相关性分类
- 数据通过黑客新闻API收集,经处理后存储在Cloudflare R2存储桶中
- 创建了预处理管道,将标题和正文拼接作为模型输入
- 为提升效率,在1万篇帖子上进行了模型选择和提示词原型设计
- 最终分析显示:0.62%的总帖子和1.13%的热门故事与航空相关
- 航空相关帖子随时间增长,在重大航空事件期间出现峰值
- 列出了黑客新闻航空内容贡献量最高的30位用户
- 未来改进方向包括更严格的评估和先进建模技术
- 作者强调小型预训练模型在大规模数据分析中的有效性