关联分析
# 关联分析
# 1、作用
关联分析是一种从大量数据中发现相互依赖关系和关联关系的方法,其广泛应用于医学、金融、互联网等多个领域。其主要包含两个任务,首先根据支持度的阈值得到频繁项集,然后在发现的频繁项集中得到关联规则。
# 2、输入输出描述
输入: 定类的待分析变量和索引变量。
输出: 数据的频繁项集和关联规则。
# 3、案例示例
案例:某超市使用关联分析对最近一段时间的用户消费记录进行分析,得到商品之间的关联关系,用于指导货架的摆放以及对部分商品进行组合推销,从而提升销售额。
# 4、案例数据
关联分析案例数据
# 5、案例操作
Step1:新建分析;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
Step4:选择【关联分析】;
Step5:查看对应的数据数据格式,【关联分析】要求待分析变量和索引变量都为定类变量;
Step6:点击【开始分析】,完成全部操作。
# 6、输出结果分析
输出结果1:频繁项集
图表说明:
上表展示了频繁项集的预览结果。对于参数“最大项集长度”=2,最小支持度为0.2。按照这两个参数,表格中展示了支持度大于0.2的频繁集,频繁集可以只有1项,也可以有2项。
比如说{酸奶}的频繁集=0.714,这个频繁集只有1项,说明有0.714的概率,大家都会买酸奶这个产品。
比如说{酸奶、热带水果}的频繁集=0.454,这个频繁集只有2项,说明有0.454的概率,大家会同时买酸奶和热带水果这个产品。
输出结果 2:关联规则
图表说明:关联规则是形如A→B的关系,A和B分别称为关联规则的前项和后项,图中几项指标意义分别为:
(1)前者支持度,也就是“前项”它单独的支持度,即它单独出现的概率。
(2)后者支持度,也就是“后项”它单独的支持度,即它单独出现的概率。
(3)总支持度:意义为前项A与后项B同时出现的概率。如果总支持度越大,认为A与B的关系越大。
(4)置信度:意义为A出现时,B出现的概率。如果置信度越大,认为A与B的关系越大。
(5) 提升率:意义为{A->B}的置信度/B的支持度,提升度体现的相对于不用规则,使用规则可以提高多少: 提升度大于1,则说明应用该关联规则是正向影响的; -如果提升度小于1,说明应用该关联规则起到了负面影响; -提升度为1时,认为A与B相互独立。
(6)杠杆率:意义为{A->B}的支持度-(A的支持度*B的支持度),用于衡量A与B的独立性,认为杠杆率为0时A和B独立,越大A和B的关系越密切。
(7) 信念率:(意义为1-B的支持度)/(1-{A->B}的置信度),同样为A与B的独立性衡量指标,值越大说明A和B的关系越密切。
我们可以任意选择一个指标做来寻找关系比较强的关联规则,其中最常用的就是置信度。其中置信度值越大说明关联关系越强。
由于我们的参数“关联规则评估准则”=置信度,评估指标阈值=0.6,表格中展示的置信度大于0.6的所有关联规则。比如说对于热带水果-->酸奶,它的置信度为0.72,说明在购买了热带水果的情况下,顾客有0.72的概率去购买酸奶,这或许是想要吃“水果捞”,所以超市在进行促销活动,将酸奶与热带水果进行捆绑打折销售等等。
输出结果 3:关联热力图
图表说明:上图展示了关联规则的可视化热力图,根据热力图可以更直观的分析A与B之间的关联关系,热力图里的值为关联规则评估指标的值,这里的值是根据我们选择的参数“关联规则评估准则”=置信度,以及”评估指标阈值“=0.6,以上热力图就展现了所有置信度大于0.6的关联规则。其中纵坐标是关联规则的前项,横坐标是关联规则的后项。
# 7、注意事项
- 待分析项只允许拖入分类水平不超过30个的定类变量,若要进行大数据分析,请到客户端进行分析。
# 8、模型理论
关联分析步骤:
- 发现频繁项集,即计算所有可能组合数的支持度,找出不少于人为设定的最小支持度的集合。
- 发现关联规则,即计算不小于人为设定的最小支持度的集合的置信度,找到不小于认为设定的最小置信度规则。
可以根据以下指标的来选择较强的关联规则。
(1)支持度
支持度表示两个或多个商品组合同时出现的频率,如果商品组合一起出现的频率非常小,那么就说明了这个商品组合之间的联系并不大。支持度公式如下:
(2)置信度
置信度也称为可靠度,置信度表示了这条规则有多大程度上值得可信。在A发生的情况下B发生的概率为多少P(B|A),表达式为:
(3)提升度
提升度,表示出现A的条件下同时出现B的可能性与没有任何条件下出现B的可能性之比,可用数学表达式表示为:
提升度Lift(A→B) =1,表示A与B相互独立,即是否有A,对于B的出现无影响。
若Lift(A→B)>1,则规则“A→B”是有效的强关联规则。
若Lift(A→B)<=1,则规则“A→B”是无效的强关联规则。
(4)杠杆率
杠杆率,用于衡量A与B的独立性,认为杠杆率为0时A和B独立,越大A和B的关系越密切。
(5)信念率
信念率,同样为A与B的独立性衡量指标,值越大说明A和B的关系越密切。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2] 蔡伟杰,张晓辉,朱建秋,朱扬勇.关联规则挖掘综述[J].计算机工程,2001(05):31-33+49.
[3] 陆丽娜,陈亚萍,魏恒义,杨麦顺.挖掘关联规则中Apriori算法的研究[J].小型微型计算机系统,2000(09):940-943.