本笔记在学习“清华大学-数据挖掘:理论与算法”时记录
数据挖掘-分类
分类是一种程序,其中,基于有关一个或多个特征(称为变量)的定量信息,以及基于一组先前标记的项目的训练,将各个项目分组。
分类算法
- 决策树(Decision Tree)
- K近邻(K-Nearest Neighbours)
- 神经网络(Neural Networks)
- 支持向量机(Support Vector Machines)
过拟合问题

交叉验证

混淆矩阵

- TPR=TP/(TP+FN)
- TNR=TN/(TN+FP)
- Accuracy=(TP+TN)/(P+N)
- 真阳性(True Positive, TP): 真实值和预测值都是正例
- 真阴性(True Negative, TN): 真实值和预测值都是负例
- 假阳性(False Positive, FP): 真实值为负例而预测值为正例
- 假阴性(False Negative, FN): 真实值为正例而预测值为负例
衍生出更多评估目标
- 正确率(Accuracy): 正确分类的样本比例 (TP+TN)/Total
- 错误率(Error Rate): 错误分类的样本比例 (FP+FN)/Total
- 精准率(Precision): 实际正例在预测正例中的占比 TP/(TP+FP)
- 真阳率(Ture Positive Rate, TPR): 也叫召回率(Recall), 正确预测的正例在实际正例中的占比 TP/(TP+FN)
- 真阴率(True Negative Rate, TNR): 正确预测的负例在实际负例中的占比TN/(TN+FP)
- 假阳率(False Positive Rate): 错误预测为正例在实际正例中的占比 FP/(TP+FN)
cost-sensitive 代价敏感问题
在实际应用场景中,要特别注意不同场景下TP和TN的影响力会不一样,是把一封正常邮件错判为垃圾邮件从而放进垃圾箱影响大还是一封垃圾邮件未能放进垃圾箱影响大? 显然前者。是把一个发烧病人判断成癌症患者影响大还是把一个癌症患者诊断为发烧影响大?显然后者。