本笔记在学习“清华大学-数据挖掘:理论与算法”时记录

数据储量急剧增加,在2000年后数据发生了从模拟到数字的显著转变。

同时,算力也在大幅度增长。
数据挖掘相关的顶级会议:
- International Conference on Data Mining
- International Conference on Data Engineering
- International Conference on Machine Learning
- International Joint Conference on Artificial Intelligence
- Pacific-Asia Conference on Knowledge Discovery and Data Mining
- ACM SIGKDD Conference on Knowledge Discovery and Data Mining
数据的定义
数据是代表变量或一组变量的定性或定量属性的信息。 数据通常被认为是从中获得信息和知识的最低抽象级别
数据的分类
- 连续型,二进制
- 离散型,字符串
- 符号型
存储结构
- 物理性质 01010101
- 逻辑性质 LDAP数据库,星型存储结构
大数据
3V特征:数据量大volume(数据量由tb-zb);产生速度快velocity(batch-streaming data);数据种类庞大variety(从structured到unstructured)
开放数据(Opendata)
法律上公开允许获取,技术上公开容易获取
数据挖掘(datamining)
数据挖掘是从通常庞大,不完整和嘈杂的数据中自动提取有趣且有用的隐藏模式的过程。
从数据到智能:数据库-数据预处理-数据挖掘-决策模型
