决策树(decision tree)是一种基本的机器学习算法

分类决策树模型是表示基于特征对实例进行分类的树形结构;决策树可以转换成一个 if-then 规则的集合,也可以看作是定义在特征空间划分上的类的条件概率分布

决策树学习算法包括3部分:

  • 特征选择

  • 决策树的生成

  • 决策树的修剪,常用的算法有 ID3、 C4.5 和 CART

决策树模型与学习

决策树模型

分类决策树模型是一种描述对实例进行分类的树形结构,由以下两部分组成:

  • 结点(node):包括

    • 内部节点(internal node):表示一个特征或属性

    • 叶结点(leaf node):表示一个类

  • 有向边(directed edge)

if-then 规则

可以将决策树看成一个 if-then 规则的集合:

由决策树的根节点到叶结点的每一条路径构建一条规则,路径上内部结点的特征对应着规则的条件,而叶结点的类对应着规则的结论

if-then 规则要互斥而且完备

决策树学习

假设有训练集

其中,为输入实例, 为输入的特征个数, 为类标记, 为样本容量

决策树学习的目标是根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类

特征选择

特征选择在于选取对训练数据具有分类能力的特征,通常特征选择的准则是信息增益或信息增益比

在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量。设是一个取有限个值的离散随机变量,其概率分布为

则随机变量的熵定义为

在上式中,若,则定义,易知,熵只依赖于的分布,与的取值无关,故也可记为

通常,式中的对数以为底,熵的单位分别为比特(bit)或者纳特(nat)

熵越大,随机变量的不确定性就越大,可以验证,