目录
什么是数据挖掘
从广义的观点
,数据挖掘是从大型数据集(可能是不完全的,有噪音的,不确定的,各种存储形式的)中,挖掘隐含在其中的,人们事先不知道的,对决策有用的知识的完整过程。
从狭义的观点
,可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。
从商业角度来看
,数据挖掘就是按企业的限定业务目标,对大量的企业数据进行深层次分析以揭晓隐藏的,未知的规律性并将其模型化,从而支持商业决策活动。数据挖掘技术只有面向特定的商业领域才有应用价值。 数据挖掘是KDD(知识发现)过程的一个步骤 KDD看成数据挖掘的一个特例 KDD与数据挖掘(Data Mining)含义相同
什么是分类,什么是聚类,分类和聚类的区别
分类
是数据挖掘中的一个重要的目标和任务,其目的是学会一个分类模型(成为分类器),该模型能把数据库中的数据项映射到给定类别中。
聚类
是把一组个体按照相似性归成若干类别,其目的是使得属于同一类别的个体之间的差别尽可能得小,而不同类别上的个体间的差别尽可能大。
区别
:聚类和分类技术不同,前者总是在特定的类标识下寻求新元素属于哪个类,而后者则是通过对数据的分析比较生成新的类标识
KDD(知识发现)的基本过程
-
问题定义
-
数据抽取:选取相应的源数据库,并根据要求从数据库中提取相应的数据。
-
数据预处理:对前一阶段抽取的数据进行再加工,检查数据的完整性及数据的一致性
-
数据挖掘:通过建立挖掘模型并通过实施对应算法来完成知识形成的。
-
模式评估:将发现的知识以用户能了解的方式呈现,根据需要对知识发现过程中的某些阶段进行优化,直到满足要求。
知识发现处理过程的模型
-
阶梯处理过程模型
特点是阶梯状递进,在每个处理阶段,KDD系统都可以借助相应的处理工具来完成相应的工作,在知识进行评估后,根据结果可以决定是否重新进行某些处理过程,在处理的任务阶段都可以返回以前的阶段进行处理。
-
螺旋处理过程模型
强调领域专家参与的重要性,并以问题的定义为中心循环评价挖掘的结果。
-
以用户为中心的处理模型
着重于对用户进行知识发现的整个过程的支持,强调用户在整个KDD全过程的交互式方式的使用
-
联机KDD模型
此模型的每个层次分别承担着不同的任务。它们围绕着从数据到知识这一条主线构成一个有机会的整体,形成数据的在线智能分析能力
-
支持多数据源多知识模型的KDD处理模型
数据抽取过程中,将数据和挖掘算法尽量分离