Feature Selection: A Primer
4 months ago
- #machine-learning
- #feature-selection
- #statistics
- 特征选择通过识别最相关的特征,对简化模型和减少训练时间至关重要。
- 不同的特征选择方法可分为无监督和有监督方法,后者包括封装法、过滤法和嵌入法。
- 过滤法快速简便,通过分析特征与目标变量之间的统计关系进行筛选。
- 测量级别(名义、有序、区间、比率)决定了适用哪些特征选择方法。
- 皮尔逊相关系数衡量连续变量之间的线性关系,利用协方差和标准差计算。
- 肯德尔Tau系数和斯皮尔曼Rho系数衡量有序或单调关系,比皮尔逊R更能处理非线性数据。
- 卡方检验评估分类变量之间的独立性,适用于名义或有序数据。
- 互信息可检测任意类型的关系,因此适用于多种数据类型。
- ANOVA F值评估连续特征区分分类目标类别的能力。
- 点二系列相关是专门针对二元目标变量与连续特征的方法,能提供方向性信息。