No algorithm is always superior to others
没有什么算法能在所有问题上都取得优异效果
No parameter setting is optimal over all problems
没有针对所有问题的最佳参数设置
Factors to consider(需要考虑的因素)
- Applicability(适用性)
- Computational Complexity(计算复杂度)
- Interpretability(可解释性)
永远从简单的算法开始尝试
如图数据是正相关还是负相关,总体来看负相关。

如果对数据进行分组,这两组数据在内部就是正相关,注意数据的内部分组特性。

有相关性,但不一定存在因果关系,如图随着美国暴力游戏的销量增加,美国犯罪率减少,只能说两条曲线有相关性,但不能说其具备因果关系

Survivorship Bias(幸存者偏差)
根据飞机的着弹点判断应该加固哪一部分,应该加固没有着弹点的部分。

忽略了时间维度,判断不了数据是从左往右还是从右往左。

数据预处理
- 数据清洗
- 数据转换
- 数据描述
- 特征选择
- 特征提取
Real data are notoriously dirty! Notorious a.臭名昭著,路人皆知的
真实的数据都是非常的“脏”的。
- Incomplete Occupancy=“” 比如居住地没有填
- Noisy age=”-42” 年龄填了负数
- Inconsistent 比如年龄填了18生日却填的2010年
- Redundant 冗余信息
数据缺失可能的原因
- Equipment malfunction 机器故障
- Data not provided 数据没有被提供
- Not Applicable(N/A)不适用的
数据缺失的程度
- 完全随机缺失Missing completely at random
- 条件随机缺失 Missing conditionally at random
- 非随机缺失 Not missing at random
数据缺失的处理方法
忽略缺失数据,根据domain knowledge(相关领域内的知识)手工填补数据,自动填补数据(全部用固定常量来补充,用均值或中位值)
Outliers离群点 anomaly异常点 LOF (Local Outlier Factor)
增加编码维度,给不同颜色进行编码时,不通过简单的序号进行编码,因为不同颜色间的距离不相同,故可以通过增加编码维度的方式来减少距离对分类的影响
