首页 » python机器学习 » python机器学习全文在线阅读

《python机器学习》3.6 决策树

关灯直达底部

决策树吸引人的地方在于其模型的可解释性。正如其名称“决策树”所意味的那样,我们可以把此模型看作将数据自顶向下进行划分,然后通过回答一系列问题来做出决策的方法。

以下图为例,我们使用决策树来决定某一天的活动:

基于训练数据集的特征,决策树模型通过一系列的问题来推断样本的类标。虽然上面的示例在类别变量的基础上给出了决策树的概念,但这些概念在面对特征变量时也同样适用。此模型也适用于数据特征取值为实数的鸢尾花数据集。例如,我们可以简单为萼片宽度设定一个临界值,并提出一个二元问题:“萼片宽度是否达到2.8厘米?”

使用决策树算法,我们从树根开始,基于可获得最大信息增益(information gain,IG)的特征来对数据进行划分,我们将在下一节详细介绍信息增益的概念。通过迭代处理,在每个子节点上重复此划分过程,直到叶子节点。这意味着在每一个节点处,所有的样本都属于同一类别。在实际应用中,这可能会导致生成一棵深度很大且拥有众多节点的树,这样容易产生过拟合问题,由此,我们一般通过对树进行“剪枝”来限定树的最大深度。