python惩罚函数惩罚函数法包括

小程序：扫一扫查出行
【扫一扫了解最新限行尾号】
复制小程序

2019-03-02

集成学习：构建并结合多个学习器来完成学习任务。

同质：集成中只包含同种类型的个体学习器（基学习器）；

异质：集成中的个体学习器（组件学习器）由不同学习算法生成。

个体学习器的“准确性”和“多样性”很重要，且相互冲突。

分类：个体学习器间存在强依赖关系，必须串行生成的序列化方法，eg，Boosting；个体学习器间不存在强依赖关系，可同时生成的并行化方法，eg，Bagging和随机森林。

工作机制：先从初始训练集训练出一个基学习器1，根据基学习器误差率表现更新训练样本权重，使弱学习器1学习误差率高的训练样本权重变高，让这些点在弱学习器2中得到更多的重视，然后基于调整权重后的训练集训练学习器2,...重复进行，直至弱学习器数目达到指定的值T，最终将这T个基学习器进行加权结合。

Boosting族算法最著名的代表是AdaBoost，是“Adaptive Boosting（自适应增强）”的缩写。它的自适应在于：前一个基本分类器分错的样本会得到加强，加权后的全体样本再次被用来训练下一个基本分类器。同时，在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。

算法过程

优点：作为分类器时精度很高；在AdaBoost框架下，可使用各种回归分类模型来构建学习器；不易发生过拟合（会加入正则化项）。

缺点：对异常样本点敏感，异常样本在迭代中可能会获得较高的权重，影响最终的强学习器的预测准确性。

两者均是0/1误差的平滑近似：

梯度提升算法首先给定一个目标损失函数，它的定义域是所有可行的基函数集合，提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部最小值。

GB每一次建立模型是在之前建立模型损失函数的梯度下降方向。一般认为损失函数越小，性能越好，因此最好是使损失函数沿着梯度方向下降，模型得以不断改进提升性能。

GBDT是GB和DT的结合，是以决策树为基学习器的gb算法，此处的决策树是回归树。GBDT中的决策树深度一般不超过5，叶子结点数不超过10。GBDT核心在于：每一棵树学得是之前所有树结论和的残差，这个残差就是一个加预测值后能得真实值的累加量。比如A的真实年龄是18岁，但第一棵树的预测年龄是12岁，差了6岁，即残差为6岁。那么在第二棵树里我们把A的年龄设为6岁去学习，如果第二棵树真的能把A分到6岁的叶子节点，那累加两棵树的结论就是A的真实年龄；如果第二棵树的结论是5岁，则A仍然存在1岁的残差，第三棵树里A的年龄就变成1岁，继续学习。

xgboost是在GBDT基本思路上改善而来，主要改变有

1）在损失函数中加入防止过拟合的惩罚函数

T是叶子的个数，w是预测函数的参数，也就是决策树算法下叶子节点的权重值。可以控制γ和λ这两个超参数来调整正则化的惩罚力度。其实这里的惩罚函数也就定义了模型复杂度，比如γ越大，λ越大，复杂度越小越不易过拟合。

2）用二阶泰勒展式将损失函数展开，同时用到了一阶和二阶导数

第t次的loss：

对上式做二阶泰勒展开：g为一阶导数，h为二阶导数

3)CART回归树中寻找最佳分割点的衡量标准是最小化均方差，xgboost 寻找分割点的标准是最大化，lamda，gama与正则化项相关

xgboost算法的步骤和GB基本相同，都是首先初始化为一个常数，gb是根据一阶导数ri，xgboost是根据一阶导数gi和二阶导数hi，迭代生成基学习器，相加更新学习器。

为得到泛化性能强的集成，集成中的个体学习器应尽可能相互独立，考虑使用相互有交叠的采样子集。

并行式集成学习的最著名代表，基于自助采样法，算法流程如下：

优点：训练一个Bagging集成与直接使用基学习算法训练一个学习器的复杂度同阶；与标准AdaBoost只适用于二分类任务不同，Bagging能不经修改的用于多分类、回归任务；初始训练集63.2%用于训练，36.8%用作验证集对泛化性能做“包外估计”。

但从偏差-方差分解角度看，Bagging主要关注降低方差。

随机森林是Bagging的一个扩展变体，在以决策树为基学习器构建Bagging集成的基础上，在决策树训练过程中引入了随机属性选择。即对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含k（kd，d为所有属性个数）个属性的子集，然后从中选一个最优属性用于划分。若k=d，则为传统决策树；k=1，则随机选择一个属性划分。一般推荐。

RF起始性能相对较差，但随着学习器数目的增加，会收敛到更低的泛化误差。另外RF的训练效率常优于Bagging，因为Bagging使用“确定型”决策树，选择划分属性时要对结点所有属性进行考察，而RF使用“随机型”决策树，只需考虑一个属性子集。

学习器结合可能会从三个方面带来好处：

1）统计方面：当多个假设达到同等性能时，可减小因误选单学习器导致泛化性能不佳的风险；

2）计算方面：降低陷入糟糕局部极小点的风险；

3）表示方面：扩大相应假设空间，学习更好的近似。

对数值型输出，最常见的结合策略是平均法。

简单平均：

(特殊的加权平均法，宜在个体学习器性能相近时使用)

加权平均法：

其中是个体学习器的权重，一般从训练数据中学习而得，通常要求，宜在个体学习器相差较大时使用。

对分类任务，学习器从类别标记集合中预测出一个标记，最常见的结合策略是投票法。

绝大多数投票法：

相对多数投票法：

预测为得票最多的标记，若同时有多个标记获得最高票，则从中随机选取一个。

加权投票法：

与加权平均法类似，是的权重，通常。

个体学习器的输出类型：

类标记：硬投票。，若将样本x预测为类别则取值为1，否则为0。

类概率：软投票。，相当于对后验概率的一个估计。

不同类型的值不能混用；对一些能在预测出类别标记的同时产生分类置信度的学习器，其分类置信度可转化为类概率使用；分类置信度应规范化后使用；基于类概率进行结合优于直接基于类标记进行结合；若基学习器类型不同，不能直接比较类概率值，应先将其转化为类标记输出（eg类概率输出最大的设为1，其他为0）再投票。

当训练数据很多时，常使用通过另一个学习器来进行结合的“学习法”，代表算法Stacking

第一阶段获得各个模型对样本x1的预测标签值；第二阶段将各个模型的预测标签值作为一个新的特征（x1的真实标签值还是标签值），再用某个算法进行训练，获得一个融合模型，用这个融合模型进行测试集的预测。

周志华《机器学习》

机器学习中L1正则化和L2正则化的区别是什么？

L1正则假设参数的先验分布是Laplace分布，可以保证模型的稀疏性，也就是某些参数等于0；

L2正则假设参数的先验分布是Gaussian分布，可以保证模型的稳定性，也就是参数的值不会太大或太小

L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归。下图是Python中Lasso回归的损失函数，式中加号后面一项α||w||1即为L1正则化项。

机器学习中L1正则化和L2正则化的区别

L1正则假设参数的先验分布是Laplace分布，可以保证模型的稀疏性，也就是某些参数等于0；

L2正则假设参数的先验分布是Gaussian分布，可以保证模型的稳定性，也就是参数的值不会太大或太小

在实际使用中，如果特征是高维稀疏的，则使用L1正则；如果特征是低维稠密的，则使用L2正则。

最后，附一张示意图。

右侧是L1正则，最优解位于坐标轴上，意味着某些参数是0。

正则化项L1和L2的直观理解及L1不可导处理

正则化（Regularization）

机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作 ℓ1-norm 和 ℓ2-norm ，中文称作 L1正则化和 L2正则化，或者 L1范数和 L2范数。

L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）。下图是Python中Lasso回归的损失函数，式中加号后面一项α||w||1即为L1正则化项。

下图是Python中Ridge回归的损失函数，式中加号后面一项α||w||22即为L2正则化项。

一般回归分析中回归w表示特征的系数，从上式可以看到正则化项是对系数做了处理（限制）。 L1正则化和L2正则化的说明如下：

L1正则化是指权值向量w中各个元素的绝对值之和，通常表示为||w||1

L2正则化是指权值向量w中各个元素的平方和然后再求平方根（可以看到Ridge回归的L2正则化项有平方符号），通常表示为||w||2

一般都会在正则化项之前添加一个系数，Python中用α表示，一些文章也用λ表示。这个系数需要用户指定。

那添加L1和L2正则化有什么用？下面是L1正则化和L2正则化的作用，这些表述可以在很多文章中找到。

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择

L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合

稀疏模型与特征选择

上面提到L1正则化有助于生成一个稀疏权值矩阵，进而可以用于特征选择。为什么要生成一个稀疏矩阵？

稀疏矩阵指的是很多元素为0，只有少数元素是非零值的矩阵，即得到的线性回归模型的大部分系数都是0.

通常机器学习中特征数量很多，例如文本处理时，如果将一个词组（term）作为一个特征，那么特征数量会达到上万个（bigram）。在预测或分类时，那么多特征显然难以选择，但是如果代入这些特征得到的模型是一个稀疏模型，表示只有少数特征对这个模型有贡献，绝大部分特征是没有贡献的，或者贡献微小（因为它们前面的系数是0或者是很小的值，即使去掉对模型也没有什么影响），此时我们就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。

L1和L2正则化的直观理解

这部分内容将解释为什么L1正则化可以产生稀疏模型（L1是怎么让系数等于零的），以及为什么L2正则化可以防止过拟合。

L1正则化和特征选择

假设有如下带L1正则化的损失函数：

J=J0+α∑w|w|(1)

其中J0是原始的损失函数，加号后面的一项是L1正则化项，α是正则化系数。注意到L1正则化是权值的绝对值之和，J是带有绝对值符号的函数，因此J是不完全可微的。机器学习的任务就是要通过一些方法（比如梯度下降）求出损失函数的最小值。当我们在原始损失函数J0后添加L1正则化项时，相当于对J0做了一个约束。令L=α∑w|w|，则J=J0+L，此时我们的任务变成在L约束下求出J0取最小值的解。考虑二维的情况，即只有两个权值w1和w2，此时L=|w1|+|w2|对于梯度下降法，求解J0的过程可以画出等值线，同时L1正则化的函数L也可以在w1w2的二维平面上画出来。如下图：

图1 L1正则化

图中等值线是J0的等值线，黑色方形是L函数的图形。在图中，当J0等值线与L图形首次相交的地方就是最优解。上图中J0与L在L的一个顶点处相交，这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)。可以直观想象，因为L函数有很多『突出的角』（二维情况下四个，多维情况下更多），J0与这些角接触的机率会远大于与L其它部位接触的机率，而在这些角上，会有很多权值等于0，这就是为什么L1正则化可以产生稀疏模型，进而可以用于特征选择。

而正则化前面的系数α，可以控制L图形的大小。α越小，L的图形越大（上图中的黑色方框）；α越大，L的图形就越小，可以小到黑色方框只超出原点范围一点点，这是最优点的值(w1,w2)=(0,w)中的w可以取到很小的值。

类似，假设有如下带L2正则化的损失函数：

J=J0+α∑ww2(2)

同样可以画出他们在二维平面上的图形，如下：

图2 L2正则化

二维平面下L2正则化的函数图形是个圆，与方形相比，被磨去了棱角。因此J0与L相交时使得w1或w2等于零的机率小了许多，这就是为什么L2正则化不具有稀疏性的原因。

L2正则化和过拟合

拟合过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，专业一点的说法是『抗扰动能力强』。

那为什么L2正则化可以获得值很小的参数？

以线性回归中的梯度下降法为例。假设要求的参数为θ，hθ(x)是我们的假设函数，那么线性回归的代价函数如下：

J(θ)=12m∑i=1m(hθ(x(i))−y(i))(3)

那么在梯度下降法中，最终用于迭代计算参数θ的迭代式为：

θj:=θj−α1m∑i=1m(hθ(x(i))−y(i))x(i)j(4)

其中α是learning rate. 上式是没有添加L2正则化项的迭代公式，如果在原始代价函数之后添加L2正则化，则迭代公式会变成下面的样子：

θj:=θj(1−αλm)−α1m∑i=1m(hθ(x(i))−y(i))x(i)j(5)

其中 λ就是正则化参数。从上式可以看到，与未添加L2正则化的迭代公式相比，每一次迭代，θj都要先乘以一个小于1的因子，从而使得θj不断减小，因此总得来看，θ是不断减小的。

最开始也提到L1正则化一定程度上也可以防止过拟合。之前做了解释，当L1的正则化系数很小时，得到的最优解会很小，可以达到和L2正则化类似的效果。

正则化参数的选择

L1正则化参数

通常越大的λ可以让代价函数在参数为0时取到最小值。下面是一个简单的例子，这个例子来自 Quora上的问答。为了方便叙述，一些符号跟这篇帖子的符号保持一致。