数据挖掘模型(Data Mining): Association rules model

Apriori 算法不分析模式,而是生成"候选项集",然后计算该项集的数目。根据要分析的数据类型,项目可表 示事件、产品或属性值。布尔值关联规则是最常见的模式。在该模式下,将 yes/no 或 Missing/Existing 值分配给每个属性,如产品名称或事件名称。例如,市场篮分析就是一种包含布尔值变量的关联规则。

该算法为每个项集创建表示支持和置信度的分数。这些分数可用于排名以及从项集中获取感兴趣的规则。

关联规则还可与定量方法一起使用。在这种情况下,使用存储桶对连续数字进行分组,或将其"离散化"。然后,即可将离散化值作为布尔值或属性值对来处理。

支持、概率和重要性

"支持"(有时候将其称为"频率")表示包含目标项目或项目组合的事例的数目。只有至少具有指定支持量的项目才可包含在模型中。

"常用项集" 指满足以下条件的项目集合:该项目集合所具有的支持超过由 MINIMUM_SUPPORT 参数定义的阈值。例如,如果项集为 {A,B,C} 且 MINIMUM_SUPPORT 值为 10,则必须在要包括在模型中的至少 10 个事例中找到每个单个项目 A、B 和 C,而且这些项目的组合 {A,B,C} 也必须可在至少 10 个事例中找到。

注意 通过指定项集的最大长度(这里长度指项目数目),还可控制挖掘模型中项集的数目。

默 认情况下,对任何特定项目或项集的支持均表示包含该项目或项集的事例的计数。不过,也可将 MINIMUM_SUPPORT 表示为占数据集中总事例的百分比,方法是键入小于 1 的小数。例如,如果将 MINIMUM_SUPPORT 值指定为 0.03,就意味着数据集中总事例的至少 3% 必须包含要包括在模型中的该项目或项集。应当试用模型,以确定是使用计数还是百分比更有意义。

恰恰相反,规则的阈值不用计数或百分比表示,而用概率(有时称为"置信度") 表示。例如,如果项集 {A,B,C} 和项集 {A,B,D} 均出现在 50 个事例中,而项集 {A,B} 出现在另外 50 个事例中,则很明显,{A,B} 不是 {C} 的强预测因子。因此,为了将某个特定结果对所有已知结果加权,Analysis Services 通过以下方法来计算单个规则(例如 If {A,B} Then {C})的概率:用对项集 {A,B,C} 的支持除以对所有相关项集的支持。

可以通过设置 MINIMUM_PROBABILITY 的值来限制模型生成的规则的数目。

每个规则输出一个指示其"重要性"(也称为"提升")的分数。项集和规则的提升重要性的计算方法不同。

项集重要性的计算方法为项集概率除以项集中各个项的合成概率。例如,如果项集包含 {A,B},Analysis Services 首先计算包含此 A 和 B 组合的所有事例的数目,并用此事例数除以事例总数,然后将得到的概率规范化。

规则重要性的计算方法为:在已知规则左侧的情况下,求规则右侧的对数可能性值。例如,如果规则为 If {A} Then {B},则 Analysis Services 计算具有 A 和 B 的事例与具有 B 但不具有 A 的事例之比,然后使用对数刻度将该比率规范化。

功能选择

关联规则算法不执行任何一种自动功能选择,而是提供参数来控制其自身使用的数据。上述情况可能包括对每个项集大小的限制,或对将项集添加到模型中所需的最大和最小支持的设置。

若要筛选出太常见因而不受关注的项目和事件,请减小 MAXIMUM_SUPPORT 的值以将常见项集从模型中删除。
若要筛选出罕见的项目和项集,请增大 MINIMUM_SUPPORT 的值。
若要筛选出规则,请增大 MINIMUM_PROBABILITY 的值。

0 comments:

Post a Comment