数据挖掘简答题

  • Post author:
  • Post category:其他



目录


什么是数据挖掘


什么是分类,什么是聚类,分类和聚类的区别


KDD(知识发现)的基本过程


知识发现处理过程的模型

什么是数据挖掘


从广义的观点

,数据挖掘是从大型数据集(可能是不完全的,有噪音的,不确定的,各种存储形式的)中,挖掘隐含在其中的,人们事先不知道的,对决策有用的知识的完整过程。


从狭义的观点

,可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。


从商业角度来看

,数据挖掘就是按企业的限定业务目标,对大量的企业数据进行深层次分析以揭晓隐藏的,未知的规律性并将其模型化,从而支持商业决策活动。数据挖掘技术只有面向特定的商业领域才有应用价值。 数据挖掘是KDD(知识发现)过程的一个步骤 KDD看成数据挖掘的一个特例 KDD与数据挖掘(Data Mining)含义相同

什么是分类,什么是聚类,分类和聚类的区别


分类

是数据挖掘中的一个重要的目标和任务,其目的是学会一个分类模型(成为分类器),该模型能把数据库中的数据项映射到给定类别中。


聚类

是把一组个体按照相似性归成若干类别,其目的是使得属于同一类别的个体之间的差别尽可能得小,而不同类别上的个体间的差别尽可能大。


区别

:聚类和分类技术不同,前者总是在特定的类标识下寻求新元素属于哪个类,而后者则是通过对数据的分析比较生成新的类标识

KDD(知识发现)的基本过程

  1. 问题定义

  2. 数据抽取:选取相应的源数据库,并根据要求从数据库中提取相应的数据。

  3. 数据预处理:对前一阶段抽取的数据进行再加工,检查数据的完整性及数据的一致性

  4. 数据挖掘:通过建立挖掘模型并通过实施对应算法来完成知识形成的。

  5. 模式评估:将发现的知识以用户能了解的方式呈现,根据需要对知识发现过程中的某些阶段进行优化,直到满足要求。

知识发现处理过程的模型

  • 阶梯处理过程模型

    特点是阶梯状递进,在每个处理阶段,KDD系统都可以借助相应的处理工具来完成相应的工作,在知识进行评估后,根据结果可以决定是否重新进行某些处理过程,在处理的任务阶段都可以返回以前的阶段进行处理。

  • 螺旋处理过程模型

    强调领域专家参与的重要性,并以问题的定义为中心循环评价挖掘的结果。

  • 以用户为中心的处理模型

    着重于对用户进行知识发现的整个过程的支持,强调用户在整个KDD全过程的交互式方式的使用

  • 联机KDD模型

    此模型的每个层次分别承担着不同的任务。它们围绕着从数据到知识这一条主线构成一个有机会的整体,形成数据的在线智能分析能力

  • 支持多数据源多知识模型的KDD处理模型

    数据抽取过程中,将数据和挖掘算法尽量分离



版权声明:本文为m0_46400910原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。