Apriori算法在大数据集上的高效应用

龙源期刊网 http://m.wendangku.net/doc/f96c25dc54270722192e453610661ed9ac515565.html

Apriori算法在大数据集上的高效应用

作者:陈邦豪

来源:《智能计算机与应用》2018年第04期

摘要:Apriori算法是经典的挖掘频繁项集和关联规则的数据挖掘算法。本文通过实例使用Python语言将Apriori算法用到电影推荐上,从大量电影打分数据形成的大数据集中找到可用于电影推荐的关联规则。整个过程由两个阶段构成,先借助Apriori算法寻找数据中的频繁项集,然后根据找到的频繁项集,生成关联规则。由此算法得到结果更高效、快捷、灵活,也取得了良好的电影推荐效果。同时也为下一步针对Apriori算法的改进及更大范围的应用提供了方向,具有较大的应用价值。

关键词:Apriori算法;数据挖掘;电影推荐;大数据集

Abstract: Apriori algorithm is a classical data mining algorithm for mining frequent itemsets and association rules. This article uses Python language to apply Apriori algorithm to movie recommendations. It can be used for movie recommendation from large data sets formed by a large number of movie scoring data, and association rules are given out. The whole process is divided into two major stages. First, the Apriori algorithm is used to find frequent itemsets in the data. Then,based on the found frequent itemsets, an association rule is generated. The result of this algorithm is more efficient, faster, and more flexible. It also achieves good movie recommendations. At the same time, it also provides direction for the improvement of the Apriori algorithm and a wider range of applications in the next step, and has great application value.

Key words: Apriori algorithm; data mining; movie recommendation; large data set

引言

产品推荐是一项在大数据集中进行应用的重要技术。如网上商店经常基于此来向潜在用户推荐潜在的产品。而一个好的建议算法可以带来更高的销售业绩,据统计每年至少有上亿用

户网上购买,通过向人们推荐更多产品,有着更为可观的潜在收益。

本文中Apriori算法是通过数据集中频繁出现的数据中选取共同出现的数据组成频繁项集(frequent itemset),避免了出现因复杂度呈指数级增长的问题。一旦找到频繁项集,生成关联规则就很容易了。近年来,如何高效的处理大数据集并从中获取有价值的信息一直是一个焦点问题,而本文通过实例就Apriori算法如何高效的应用在大数据集中展开研究。

1 相关介绍

1.1 Apriori算法简述

相关推荐
相关主题
热门推荐