数据挖掘-聚类

聚类是一种将一组观察值划分为不同子集且子集中的元素都有相似特征的方法。与分类不同的是聚类是一种无监督的方法。

距离指标(Distance Metrics)

  • 欧氏距离(Euclidean Distance)几何距离
  • 曼哈顿距离(Manhattan Distance)绝对轴距总和
  • 马氏距离(Mahalanobis Distance)可以看作是欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题

算法

  • K-Means(K均值)
  • Sequential Leader(序列数据)
  • Affinity Propagation(AP)

分类方式

  • Hierarchical 层次聚类:对象总是和与之临近的对象相关性更强,计算每个对象和其他对象之间的距离,不断将距离最短的两个对象合并成一类,直到所有的对象合并成单个类别为止。
  • Density-based 密度聚类:定一个距离半径最少有多少个对象,然后把可以达到的对象都连起来判定为同类,简单的说就是画圈,需要定义两个参数,圈的最大半径和圈内最少容纳的对象数量。DBSCAN通过优先对高密度(high density)进行搜索,然后根据高密度的特点设置参数。
  • Model-based 模型聚类:指基于概念模型或者神经网络模型的方法,同一类的数据属于同一种概率分布。最典型方法就是高斯混合模型(GMM,Gaussian Mixture Models)
  • Association Rule 关联规则:买面包会一起买牛奶
  • Regression 回归:拟合曲线-多项式拟合曲线

数据预处理

GIGO:garbage in garbage out

典型问题

  • Missing Attribute Values 缺少属性值
  • Different Coding/Naming Schemes 不同的编码/命名方案
  • Infeasible Values 不可行值
  • Inconsistent Data 不一致的数据
  • Outliers 异常值

数据质量

  • Accuracy 准确性
  • Completeness 完整性
  • Consistency 一致性
  • Interpretability 可解释性
  • Credibility 可靠性
  • Timeliness 及时性

数据清理

  • 填充缺失数据
  • 修正矛盾数据标度
  • 识别异常值和噪点

数据集成:将数据从不同的数据源组合起来

数据转换

  • 正常化(Normalization)
  • 聚合(Aggregation)
  • 类型转换(Type Conversion)

数据缩减

  • 特征提取(Feature Selection)
  • 采样(Sampling)

隐私保护问题

数据是一把双刃剑:人们可以从数据分析中获益很多;信息泄露的后果是灾难性的。由于隐私问题,人们可能不愿意提供敏感信息比如服用的药物,收入和性取向。如何在不知道每个人的真实答案的情况下,找出具有特定属性的人的百分比。
设计了两个问题
问题1:具有特征A?
问题2:不具有特征A?
受测试人群有P的概率分到问题1,1-P的概率分到问题2,但并不知道每个人分到的是问题几。
P*(True)所有人回答True的概率,P(True)具有属性A的人的概率。
P*(True)=p×P(True)+(1-p)×P(False)

说点什么
支持Markdown语法
好耶,沙发还空着ヾ(≧▽≦*)o
Loading...