PFIMD: a parallel MapReduce-based algorithm for frequent itemset mining

被引：0

作者：

Mao Yimin

Geng Junhao

Deborah Simon Mwakapesa

Yaser Ahangari Nanehkaran

Zhang Chi

Deng Xiaoheng

Chen Zhigang

机构：

[1] Jiangxi University of Science and Technology,School of Information Engineering

[2] Central South University,School of Computer Science and Engineering

来源：

Multimedia Systems | 2021年 / 27卷

关键词：

DiffNodeset structure; MapReduce; 2-Way comparison strategy; Load balancing strategy based on dynamic grouping; Frequent item mining;

D O I：

暂无

中图分类号：

学科分类号：

摘要：

Frequent itemset mining (FIM) is a significant data mining technique which is widely adopted in numerous applications for exploring frequent items. With the rapid growth and expansion of datasets, FIM has become an interesting topic for many researchers, which has triggered many innovations of numerous FIM algorithms in the big data environment. This study aims to design an optimization parallel frequent itemset mining algorithm based on MapReduce, named as PFIMD\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$${\text{PFIMD}}$$\end{document} algorithm, to deal with the problem of time and space complexity during processing and computing item sets, as well as the failure to adequately balance the load among parallel tasks in the existing parallel FIM algorithms. First, a structure called DiffNodeset\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$${\text{DiffNodeset}}$$\end{document} is adopted for avoiding the increase of N-list\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$N{-}list$$\end{document} cardinality in the MRPrePost\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$${\text{MRPrePost}}$$\end{document} algorithm effectively. Then, a 2-way comparison strategy is designed to speed up the DiffNodeset\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$${\text{DiffNodeset}}$$\end{document} generation of 2-itemsets and reduce the time complexity of the algorithm. Finally, the steps of the improved algorithm are parallelized using the cloud computing platform Hadoop and the programming model MapReduce. Moreover, to achieve a uniform grouping of each item in F-list\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$F{-}list$$\end{document}, a load balancing strategy based on dynamic grouping is proposed, which solves the problem of uneven load of each node in the cluster. The experimental results show that the modified algorithm not only overcomes the shortcoming of MRPrePost\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$${\text{MRPrePost}}$$\end{document} in the big data environment, but also greatly reduces the time and space complexity. Finally, the specific applications of PFIMD\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$${\text{PFIMD}}$$\end{document} algorithm in several multimedia data sets are listed to illustrate its universality.

引用

页码：709 / 722

页数：13

共 50 条

[21] MapReduce-Based Frequent Pattern Mining Framework with Multiple Item Support
Wang, Chen-Shu
Lin, Shiang-Lin
Chang, Jui-Yen
INTELLIGENT INFORMATION AND DATABASE SYSTEMS (ACIIDS 2017), PT II, 2017, 10192 : 65 - 74
[22] Frequent itemset mining with parallel RDBMS
Shang, XQ
Sattler, KU
ADVANCES IN KNOWLEDGE DISCOVERY AND DATA MINING, PROCEEDINGS, 2005, 3518 : 539 - 544
[23] Asynchronous and anticipatory filter-stream based parallel algorithm for frequent itemset mining
Veloso, A
Meira, W
Ferreira, R
Neto, DG
Parthasarathy, S
KNOWLEDGE DISCOVERY IN DATABASES: PKDD 2004, PROCEEDINGS, 2004, 3202 : 422 - 433
[24] Fast Mining Algorithm of Frequent Itemset Based on Spark
Ding J.-M.
Li H.-B.
Deng B.
Jia L.-Y.
You J.-G.
Ruan Jian Xue Bao/Journal of Software, 2023, 34 (05): : 2446 - 2464
[25] The Algorithm of Mining Frequent Itemsets Based on MapReduce
He, Bo
PROCEEDINGS OF INTERNATIONAL CONFERENCE ON SOFT COMPUTING TECHNIQUES AND ENGINEERING APPLICATION, ICSCTEA 2013, 2014, 250 : 529 - 534
[26] Frequent Itemset Mining Algorithm based on Sampling Method
Li, Haifeng
Zhang, Ning
Zhang, Yuejin
PROCEEDINGS OF THE 2015 5TH INTERNATIONAL CONFERENCE ON COMPUTER SCIENCES AND AUTOMATION ENGINEERING, 2016, 42 : 852 - 855
[27] A parallel algorithm for mining constrained frequent patterns using MapReduce
Yan, Xiaowu
Zhang, Jifu
Xun, Yaling
Qin, Xiao
SOFT COMPUTING, 2017, 21 (09) : 2237 - 2249
[28] Frequent Itemset Mining Algorithm Based on Linear Table
Lu, Jun
Xu, Wenhe
Zhou, Kailong
Guo, Zhicong
JOURNAL OF DATABASE MANAGEMENT, 2023, 34 (01)
[29] A Parallel MapReduce Algorithm to Efficiently Support Itemset Mining on High Dimensional Data
Apiletti, Daniele
Baralis, Elena
Cerquitelli, Tania
Garza, Paolo
Pulvirenti, Fabio
Michiardi, Pietro
BIG DATA RESEARCH, 2017, 10 : 53 - 69
[30] A Distributed Frequent Itemset Mining Algorithm Based on Spark
Gui, Feng
Ma, Yunlong
Zhang, Feng
Liu, Min
Li, Fei
Shen, Weiming
Bai, Hua
PROCEEDINGS OF THE 2015 IEEE 19TH INTERNATIONAL CONFERENCE ON COMPUTER SUPPORTED COOPERATIVE WORK IN DESIGN (CSCWD), 2015, : 271 - 275

← 1 2 3 4 5 →