No algorithm is always superior to others
没有什么算法能在所有问题上都取得优异效果

No parameter setting is optimal over all problems
没有针对所有问题的最佳参数设置

Factors to consider(需要考虑的因素)

  • Applicability(适用性)
  • Computational Complexity(计算复杂度)
  • Interpretability(可解释性)

永远从简单的算法开始尝试

如图数据是正相关还是负相关,总体来看负相关。

如果对数据进行分组,这两组数据在内部就是正相关,注意数据的内部分组特性。

有相关性,但不一定存在因果关系,如图随着美国暴力游戏的销量增加,美国犯罪率减少,只能说两条曲线有相关性,但不能说其具备因果关系

Survivorship Bias(幸存者偏差)
根据飞机的着弹点判断应该加固哪一部分,应该加固没有着弹点的部分。

忽略了时间维度,判断不了数据是从左往右还是从右往左。

数据预处理

  • 数据清洗
  • 数据转换
  • 数据描述
  • 特征选择
  • 特征提取

Real data are notoriously dirty! Notorious a.臭名昭著,路人皆知的
真实的数据都是非常的“脏”的。

  • Incomplete  Occupancy=“” 比如居住地没有填
  • Noisy  age=”-42” 年龄填了负数
  • Inconsistent  比如年龄填了18生日却填的2010年
  • Redundant 冗余信息

数据缺失可能的原因

  • Equipment malfunction 机器故障
  • Data not provided 数据没有被提供
  • Not Applicable(N/A)不适用的

数据缺失的程度

  • 完全随机缺失Missing completely at random
  • 条件随机缺失 Missing conditionally at random
  • 非随机缺失 Not missing at random

数据缺失的处理方法

忽略缺失数据,根据domain knowledge(相关领域内的知识)手工填补数据,自动填补数据(全部用固定常量来补充,用均值或中位值)

Outliers离群点 anomaly异常点 LOF (Local Outlier Factor)

增加编码维度,给不同颜色进行编码时,不通过简单的序号进行编码,因为不同颜色间的距离不相同,故可以通过增加编码维度的方式来减少距离对分类的影响

说点什么
支持Markdown语法
好耶,沙发还空着ヾ(≧▽≦*)o
Loading...