當前位置:歷史故事大全網 - 範文作文 - 關聯規則之Apriori算法

關聯規則之Apriori算法

Apriori算法的主要思想是找出存在於事物數據集中的最大頻繁項集,再利用得到的最大頻繁項集與預先設定的最小置信度閾值生成強關聯規則。

項集是項的集合。包含k個項的項集成為k項集。項集的出現頻率是所有包含項集的事務計數,又稱為絕對支持度或支持度計數。如果項集I的相對支持度滿足預定義的最小支持度閾值,則I是頻繁項集。頻繁k項集通常記作k。

項集A、B同時發生的概率稱為關聯規則的支持度(也稱為相對支持度)。

項集A發生,則項集B發生的概率為關聯規則的置信度。

最小支持度是用戶或專家定義的衡量支持度的壹個閾值,表示項目集在統計意義上的最低重要性;最小置信度是用戶或專家定義的衡量置信度的壹個閾值,表示關聯規則的最低可靠性。同時滿足最小支持度閾值和最小置信度閾值的規則稱為強規則。

項集A的支持度計數是事務數據集中包含項集A的事務個數,簡稱為項集的頻率或計數。

頻繁項集哦的所有非空自己也必須是頻繁項集。根據該性質可以得出:向不是頻繁項集I的項集中添加事務A,新的項集I U A壹定也不是頻繁項集。

1)找出所有的頻繁項集(支持度必須大於等於給丁的最小支持度閾值),在這個過程中連接步和剪枝步互相融合,最終得到最大頻繁項集Lk。

連接步的目的是找到K項集,對給定的最小支持度閾值,分別對1項候選集C1,剔除小於該閾值的項集得到1項頻繁項集L1;下壹步由L1自身連接產生2項候選集C2,保留C2中滿足約束條件的項集得到2項頻繁集,記為L2;再下壹步由L2與L3連接產生3項候選集C3,保留C2中滿足約束條件的項集得到3項頻繁集,記為L3···這樣循環下去,得到最大頻繁項集Lk。

剪枝步緊接著連接步,在產生候選項Ck的過程中起到減小搜索空間的目的。由於Ck是Lk-1與L1連接產生的,根據Apriori的性質頻繁項集的所有非空子集也必須是頻繁項集,所以不滿足該性質的項集不會存在於Ck中,該過程就是剪枝。

2)由頻繁項集產生強關聯規則:由過程1)可知未超過預定的最小支持度閾值的項集已被提出,如果剩下這些規則又滿足了預定的最小置信度閾值,那麽就挖掘出了強關聯規則。

  • 上一篇:三相固态继电器都有多少伏的?麻烦具体说一下。
  • 下一篇:大學生社會實踐報告1500字精選
  • copyright 2024歷史故事大全網