关联规则apriori算法_sklearn(九)apriori 关联规则算法,以及FP-growth 算法

是什么：

apriori算法是第一个关联规则挖掘算法，利用逐层搜索的迭代方法找出数据库中的项集（项的集合）的关系，以形成规则，其过程由连接（类矩阵运算）与剪枝（去掉没必要的中间结果）组成。是一种挖掘关联规则的频繁项集算法，一种最有影响的挖掘布尔关联规则频繁项集的算法。核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。

关联规则挖掘，在最早提出时，是为了发现交易数据库中不同商品之间的联系规则。刻画顾客购买行为模型，指导商家科学地进行进货，库存以及货架设计等。

改进的算法有：并行关联规则挖掘Parallel Association Rule Mining，以及数量关联规则挖掘Quantitive Association Rule Mining。提高挖掘规则算法的效率，适应性，可用性以及应用推荐。

频繁项集的评估标准：支持度，置信度，提升度三个方面。

应用领域：在商业，网络安全广泛使用。通过对数据的关联性进行了分析和挖掘，挖掘出的这些信息在决策制定过程中具有重要的参考价值。

在消费市场价格分析中，能够很快求出各种产品之间的价格关系和它们之间的影响，可以瞄准目标客户，采用个人股票行市，最新细心，特殊的市场推广活动或其他的一些特殊信息手段，减少广告预算和增加收入。预测客户的消费习惯。

相关概念：

FP-Tree ：将事务数据表中的各个事务数据项按照支持度排序后，把每个事务中的数据项按降序一次插入到一颗以null为根节点的树中，同时在每个节点处记录该节点出现的支持度。

条件模式基：包含FP-Tree中与后缀模式一起出现的前缀路径的集合。

条件树：将条件模式基按照FP-Tree的构造原则形成的一个新的FP-Tree。

基本思路：不断的迭代FP-Tree的构造和投影过程。

算法描述：

对于每个频繁项，构造ta 的条件投影数据库和投影FP-Tree
对每个新构建的FP-Tree重复这个过程，知道构造新的FP-Tree为空，或者只包含一条路径。
当构造的FP-Tree为空时，其前缀即为频繁模式，当只包含一条路径时，通过枚举所以可能组合并与此树的前缀连接即可得到频繁模式。

该算法的流程为：首先构造FP树，然后利用ta来挖掘频繁项集。在构造fp树时，需要对数据集扫描两次，一次为用来统计频率（频次和频率），第二次扫描至考虑频繁项集。

缺点：

对数据库扫描数次过多
apriori会产生大量的中间项集
采用唯一支持度
算法的适应面窄

参考：

https://bainingchao.github.io/2018/09/27/%E4%B8%80%E6%AD%A5%E6%AD%A5%E6%95%99%E4%BD%A0%E8%BD%BB%E6%9D%BE%E5%AD%A6%E5%85%B3%E8%81%94%E8%A7%84%E5%88%99Apriori%E7%AE%97%E6%B3%95/bainingchao.github.io

数据挖掘十大算法–Apriori算法_小硒—代码无疆-CSDN博客blog.csdn.net

Suranyi：Apriori 算法简介及 python3实现zhuanlan.zhihu.com

机器学习（九）-FP-growth算法 – Yabea – 博客园www.cnblogs.com

FP Tree算法原理总结 – 刘建平Pinard – 博客园www.cnblogs.com

FP-growth算法–原理_jmhIcoding-CSDN博客blog.csdn.net

Superman：FP-Growth算法简介zhuanlan.zhihu.com

原文链接：https://blog.csdn.net/weixin_42164931/article/details/113331976

你可能也喜欢