机器学习笔记 - 决策树模型(一)CART决策树
决策树的基本原理非常简单,就是通过一系列类似于if/else…then…的逻辑推导判断,得到最后的结论
决策树按照算法划分有许多类型,包括ID3、C4.5、CART
CART决策树
CART决策树主要使用基尼指数进行运算,且CART树为二叉树,即只仅限于True&False的判断(左侧边默认是True,右侧边默认是False)
基尼指数gini(D): 用于计算一个系统中的失序现象,即系统的混乱程度(纯度)。基尼指数越高,系统的混乱程度就越高(不纯),建立决策树模型的目的就是降低数据集的混乱程度(提高纯度),从而得到合适的数据分类效果
数据集D的纯度可用基尼指数来度量,基尼指数越小,数据集D的纯度越高: