布隆过滤器(Bloom Filter)是1970年由布隆提出的。实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。 优点是不需要存储 key,节省空间, […]
大数据
分类
使用Random Forest,SVM和GBDT三种分类算法,对约10000条随机数据进行训练,并用约20000条随机数据进行验证。
网络协议有数百种,我们通过Kmeans方法针对协议层数和协议平均长度这两个属性进行聚类,可以发现在Y轴上区分度不大,大多数协议的层数都在8层以内,X轴上也没有明显的区分度,通过绘制聚类效果的折线图,可 […]
这也是我第一次用Python来画图,选了简单的饼图和柱状图来画,用了matplotlib包。主要工作在画图前的数据处理上,把并不规则的数据排序并抽取画图需要的数据。
工控协议数据处理这个专题主要是记录一下自己的大数据作业,我选了工控协议数据作为处理对象,使用Python进行处理,用了BeautifulSoup包爬取数据。使用了Pyshark解析协议数据包
如何构建数字孪生体;数字孪生体与仿真的区别与联系;物理模型,行为模型,规则模型
数字孪生指的是对复杂产品进行的一种综合多物理、多尺度的概率模拟,进而反映孪生产品的生命周期,是实现智能制造的关键技术。
不平衡数据集的度量指标。为什么要做特征选择,为了降维。熵(entropy)用来衡量系统的不确定性。PCA(Principal Component Analysis),PCA不考虑分类。LDA(Line […]
数据挖掘算法需要考虑的因素:适用性,计算复杂度,可解释性。如果对数据进行分组,这两组数据在内部就是正相关,注意数据的内部分组特性。数据缺失可能的原因:机器故障,数据没有被提供,不适用。数据缺失的程度: […]
数据挖掘-聚类,距离指标:欧氏距离,曼哈顿距离,马氏距离;算法:K-Means,Sequential Leader,Affinity Propagation;分类方式:层次聚类,密度聚类,模型聚类,关 […]