数据挖掘简答题

Post author:xfxia
Post published:2023年9月4日
Post category:其他

什么是数据挖掘

从广义的观点

，数据挖掘是从大型数据集（可能是不完全的，有噪音的，不确定的，各种存储形式的）中，挖掘隐含在其中的，人们事先不知道的，对决策有用的知识的完整过程。

从狭义的观点

，可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。

从商业角度来看

，数据挖掘就是按企业的限定业务目标，对大量的企业数据进行深层次分析以揭晓隐藏的，未知的规律性并将其模型化，从而支持商业决策活动。数据挖掘技术只有面向特定的商业领域才有应用价值。数据挖掘是KDD(知识发现)过程的一个步骤 KDD看成数据挖掘的一个特例 KDD与数据挖掘(Data Mining)含义相同

什么是分类，什么是聚类，分类和聚类的区别

分类

是数据挖掘中的一个重要的目标和任务，其目的是学会一个分类模型(成为分类器)，该模型能把数据库中的数据项映射到给定类别中。

聚类

是把一组个体按照相似性归成若干类别，其目的是使得属于同一类别的个体之间的差别尽可能得小，而不同类别上的个体间的差别尽可能大。

区别

：聚类和分类技术不同，前者总是在特定的类标识下寻求新元素属于哪个类，而后者则是通过对数据的分析比较生成新的类标识

KDD(知识发现)的基本过程

问题定义
数据抽取：选取相应的源数据库，并根据要求从数据库中提取相应的数据。
数据预处理：对前一阶段抽取的数据进行再加工，检查数据的完整性及数据的一致性
数据挖掘：通过建立挖掘模型并通过实施对应算法来完成知识形成的。
模式评估：将发现的知识以用户能了解的方式呈现，根据需要对知识发现过程中的某些阶段进行优化，直到满足要求。

知识发现处理过程的模型

阶梯处理过程模型

特点是阶梯状递进，在每个处理阶段，KDD系统都可以借助相应的处理工具来完成相应的工作，在知识进行评估后，根据结果可以决定是否重新进行某些处理过程，在处理的任务阶段都可以返回以前的阶段进行处理。
螺旋处理过程模型

强调领域专家参与的重要性，并以问题的定义为中心循环评价挖掘的结果。
以用户为中心的处理模型

着重于对用户进行知识发现的整个过程的支持，强调用户在整个KDD全过程的交互式方式的使用
联机KDD模型

此模型的每个层次分别承担着不同的任务。它们围绕着从数据到知识这一条主线构成一个有机会的整体，形成数据的在线智能分析能力
支持多数据源多知识模型的KDD处理模型

数据抽取过程中，将数据和挖掘算法尽量分离

原文链接：https://blog.csdn.net/m0_46400910/article/details/121845801

什么是数据挖掘

什么是分类，什么是聚类，分类和聚类的区别

KDD(知识发现)的基本过程

知识发现处理过程的模型

你可能也喜欢