数据挖掘笔记(一)

  • Post author:
  • Post category:其他



Hadoop为我们提供了一个可靠的共享存储和分析系统。HDFS实现数据的存储,Mapreduce实现数据的分析和处理,这两个是hadoop的核心价值。



关于离群点数据:相差远,与平常不同,偷税漏税。(银行卡盗用)



机器学习:获取技能,模拟人类学习行为(如医学诊断等)


模式识别:计算机代替人进行识别。(图像、声音)



信息爆炸时代,信息冗余、信息真假难辨识、安全难以保证,信息形式不一。



数据挖掘思想来自于:机器学习、模式识别、统计、数据库系统。


数据挖掘的定义:


(1)         技术层面上:数据挖掘是从大量数据中提取潜在有用的信息过程。(潜在:以前所不了解的)


(2)         从商业层面:对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。



数据挖掘对象:


(关系数据库、数据仓库)、事务数据库、空间数据库、流数据、多媒体数据库、文本数据库、万维网数据。



流数据:暂时保存,如流媒体,看完后丢包,无任何保存。



数据挖掘的任务:预测性任务和描述性任务。


预测任务(找出其他属性的预测特定属性的值):回归、分类、离群点检测;


描述性任务(寻找数据中潜在联系的模式):聚类分析、关联分析、演化分析、序列模式挖掘。



数据挖掘:分类、聚类、关联


(1)         关联:啤酒和尿布的故事。(推出关联规则)


(2)         聚类:广告精准投放、智能搜索(物以类聚,人以群分)


(3)         分类:客户流失 、入侵检测——预测模型


……..



数据挖掘仅仅是一个工具,挖掘得到的模型可以告诉你如何,但是不会说明为什么。



版权声明:本文为qq_36411874原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。