数据探索与可视化

提要

处理数值属性的缺失值

  • 3种方法
  • Impute

处理文本型属性(转为onehot)

  • 文本->数字: OrdinalEncoder
  • 文本/数字->OntHot : OneHotEncoder

自定义转换器API

  • 定义fit(),transform,fit_transform
  • 如果继承TansformerMixin免掉第三个

定义转换流水线

  • num_pipline
  • cat_pipline
  • full_pipline
  • 注意新旧版本区别

最后放代码:

Boston_House系列