本笔记在学习“清华大学-数据挖掘:理论与算法”时记录

数据储量急剧增加,在2000年后数据发生了从模拟到数字的显著转变。

同时,算力也在大幅度增长。

数据挖掘相关的顶级会议:

  1. International Conference on Data Mining
  2. International Conference on Data Engineering
  3. International Conference on Machine Learning
  4. International Joint Conference on Artificial Intelligence
  5. Pacific-Asia Conference on Knowledge Discovery and Data Mining
  6. ACM SIGKDD Conference on Knowledge Discovery and Data Mining

数据的定义

数据是代表变量或一组变量的定性或定量属性的信息。 数据通常被认为是从中获得信息和知识的最低抽象级别

数据的分类

  • 连续型,二进制
  • 离散型,字符串
  • 符号型

存储结构

  • 物理性质 01010101
  • 逻辑性质 LDAP数据库,星型存储结构

大数据

3V特征:数据量大volume(数据量由tb-zb);产生速度快velocity(batch-streaming data);数据种类庞大variety(从structured到unstructured)

开放数据(Opendata)

法律上公开允许获取,技术上公开容易获取

数据挖掘(datamining)

数据挖掘是从通常庞大,不完整和嘈杂的数据中自动提取有趣且有用的隐藏模式的过程。

从数据到智能:数据库-数据预处理-数据挖掘-决策模型

说点什么
支持Markdown语法
好耶,沙发还空着ヾ(≧▽≦*)o
Loading...