首页 > 社交 > 科普中国

数据挖掘是如何运作的?

常驻编辑 科普中国 2022-11-16 估计值   变量   算法   步骤   流程   现象   目标   模式   知识   数据

读懂数据等于掌握财富密码。但并不是所有数据都有价值,这就是数据挖掘的价值所在,本文介绍大数据挖掘的全流程65Z拜客生活常识网

大多数时候当人们搜索数据挖掘的时候,他们所感兴趣的是整个流程,数据挖掘只是流程中的一个环节。数据挖掘也可以被理解为为如何在数据中发现“知识”65Z拜客生活常识网

从原始数据开始,使用计算和算法工具,直到获得有价值的数据,我们可以称之为知识,步骤如图65Z拜客生活常识网

Data Mining Process65Z拜客生活常识网

从原始数据到进行数据的选择得到Target Data65Z拜客生活常识网

假设我们我们有很多关于某种现象的信息现象,我们想得出一些在这种情况下,关于这个问题的知识。有时我们有一些数据不是有用的数据,有些数据还没有准备好在这种情况下被使用。例如,我们要做的基本处理是颜色选择,然后我们得到数据到目标日期,有了这个目标数据,我们可以对这个目标数据做转换处理。在此之前,我们需要对数据进行预处理65Z拜客生活常识网

方法一:异常值检测65Z拜客生活常识网

Outlier Detection65Z拜客生活常识网

假设我们有数据的变量分布,我们可以看到或者我们也可以用算法来检测这个红色的点是一个离群点,在某些情况下一些算法可能无法正常工作。如果我们的数据与整个分布非常不同与整个分布非常不同,这被称为离群点,我们可以尝试去掉并得到这个经过处理的数据65Z拜客生活常识网

Red Outlier65Z拜客生活常识网

方法二:检测缺失值65Z拜客生活常识网

Detect Missing Values65Z拜客生活常识网

假设我们有这个数据分布,我们可以来做一个估计。使用那条绿线,所以我们可以尝试填充估计值65Z拜客生活常识网

Detect Missing Values65Z拜客生活常识网

接下来,是数据归一化处理,因为有时我们有一些数据的值是从0到1,另一些数据可能是文本数据。另一个步骤是寻找相关的变量,假设我们有这两个变量,我们可以看到它们有很高的相关性,这意味着,使用这两个变量是没有用的65Z拜客生活常识网

Correlated Variables65Z拜客生活常识网

我们可以用这些变量做什么呢?我们可以在数据中应用一些转换来使这些变量不相关65Z拜客生活常识网

Transformation65Z拜客生活常识网

接下来是整个步骤的主要内容,也就是所谓的从转换后的数据中挖掘出的数据。我们如何做可以得到这些模式?我们可以应用几种分类算法或数据挖掘算法,但在当前这种情况下,我们可以应用几种算法,如K最近的邻居,甚至是一个决策树或支持向量机。这些都是可能的数据挖掘算法或分类算法,我们将这些算法应用于数据,以获得模式65Z拜客生活常识网

KNN65Z拜客生活常识网

Patterns65Z拜客生活常识网

开始将数据变成模式,然后流程的最后一步是对这些模式的解释。这不是一个自动程序,用户观察应用中的模式解释,以认可该模式,用户可以看一下发现的模式,看看是否有一些多余的或不相关的模式65Z拜客生活常识网

有了这些东西,他就可以从数据中获得数据的认可,我们有所有这些绿色箭头,这意味着我们可以返回到前面的任何一个步骤,我们以改善我们的模式的概念,也是我们说的知识65Z拜客生活常识网

Knowledge65Z拜客生活常识网

以上就是数据挖掘全工作流程的简单介绍,谢谢你的关注65Z拜客生活常识网

相关阅读:

  • 火星直升机
  • ts类型断言(二)
  • 山西大学苏晓龙教授研究组在远程制备非高斯态方面取得
  • 基于深度学习Autoencoder的信用卡欺诈异常检测,效果非
  • 双缝实验更恐怖,贝尔不等式检测,世界真实存在性迎来终极
  • 时间变量理论:运动速度越快,其时间就过得越慢
  • 万丘林教授提出:宇宙或许是个巨大的神经网络,难道它真是
  • ansible
  • Matlab基础入门手册(第六章
  • 全局变量和局部变量在内存中的区别
    • 网站地图 |
    • 声明:登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。