数据挖掘在企业CRM中的研究
目前已经出现了好几种决策树分类算法,如:ID3;C4.5;CHAID;CHART;SLIQ;SPRINT;PUBLIC等,现列出与本课题相关的具有代表性的一些算法。
ID3算法虽然是比较经典也是最老的一种算法,可是它存在许多的不足:一是它不能处理连续属性值,对于连续值属性,它都要把该属性离散化,这样就大大降低了分类的精确度;二是算法过程不灵活,不能处理有空缺值的样本集合,这就对训练样本集合的质量提出很高的要求。三是生成的决策树太大,因为对于每个离散属性如果作为分裂属性,如果有n个属性值,那么就会长出n个子树。
SPRINT 算法是一种比较成熟的决策树分类算法,它几乎克服了以往已经提出的算法中的一些缺憾,可是该算法的侧重点在于处理超大形容量的数据。此算法可以不受到机器主存大小的限制,可以把数据在主存与辅存之间来回切换。本人认为在本文所建立的CRM系统中所处理的数据是与客户有关,而象中小型企业这样的客户容量远没有这样的大,所以不建议使用该算法。
C4.5算法是Quinlan的ID3算法的改进版本,该算法克服了ID3中的缺憾,能够直接处理连续值属性,能够处理有空缺值的样本集合。它从树的根结点处的所有训练样本开始,选取一个属性来区分这些样本。对属性的每一个值产生一个分支,分支属性值的相应样本子集被移到新生成的子结点上,这个算法递归地应用于每个子结点上,直到结点的所有样本都分区到某个类中,到达决策树的叶结点的每条路径表示一个分类规则。这样自顶向下的决策树的生成算法的关键性决策是对结点属性值的选择。该算法简单易懂,而且效率高,这也正是我们所追求的目标。所以本文中,我们选择该算法为CRM实现客户的保持分析功能。