Hasty Briefsbeta

双语

Feature Extraction with KNN

6 months ago
  • #KNN
  • #Feature Extraction
  • #Machine Learning
  • fastknn包提供了使用KNN进行特征提取的功能,根据观测值与其在每个类别中的k个最近邻之间的距离,生成k * c个新特征。
  • 特征提取过程采用n折交叉验证方法防止过拟合,并支持通过nthread参数实现并行化计算。
  • 该技术灵感来源于Kaggle上Otto集团产品分类挑战赛的冠军解决方案。
  • 示例表明KNN特征可以捕捉GLM等线性模型无法获取的非线性信息,将准确率从83.81%提升至95.24%。
  • 国际象棋和螺旋数据集的附加示例展示了KNN特征如何转换原始空间使类别线性可分。
  • knnExtract()函数在Kaggle Kernel中针对大型数据集进行了演示,突出了其实际应用价值。