特征工程梗概

博客 分享
0 192
优雅殿下
优雅殿下 2022-03-15 16:56:43
悬赏:0 积分 收藏

特征工程梗概

作为机器学习重要的一环,特征工程也遵循二八法则。即80%的时间用来处理数据和特征,20%用来进行模型训练和优化(可能nlp和cv领域除外)。特征工程主要包括以下几个方面:
  1. 特征清洗:处理数据中的对齐、异常值和缺失值,提升数据质量。
  2. 特征处理:将特征变换成适当的形式,方便机器处理和理解。
  3. 特征抽取:从现有特征中派生出有价值的额外特征(跟特征处理不同,特征抽取一般要保留原始特征,而特征处理一般不会保留原有特征,这两者界限比较模糊)。
  4. 特征选择:从大量特征中选取价值最高的特征组,减少模型计算量,一定程度上减少过拟合。
  5. 特征压缩(降维):将大量稀疏的特征映射到少量稠密的特征空间(实际业务中应用较少,另外经过映射后,特征的解释性变弱,不利于debug)。因此后面的介绍中该节略去。
 
 
参考资料:
  • https://segmentfault.com/a/1190000024522693
  • https://www.slideshare.net/HJvanVeen/feature-engineering-72376750
  • https://www.zhihu.com/question/29316149
posted @ 2022-03-15 16:46 我为代码狂 阅读(0) 评论(0) 编辑 收藏 举报
回帖
    优雅殿下

    优雅殿下 (王者 段位)

    2018 积分 (2)粉丝 (47)源码

    小小码农,大大世界

     

    温馨提示

    亦奇源码

    最新会员