%!s(int64=7) %!d(string=hai) anos · 9ae95a3c8e
--- a/Learning》学习笔记(1)--绪论.md
+++ b/Learning》学习笔记(1)--绪论.md
@@ -59,9 +59,7 @@
 
				 
			
 
				 可以得知：在过拟合问题中，训练误差十分小，但测试误差教大；在欠拟合问题中，训练误差和测试误差都比较大。目前，欠拟合问题比较容易克服，例如增加迭代次数等，但过拟合问题还没有十分好的解决方案，过拟合是机器学习面临的关键障碍。
			
 
				 
			
 
				-```
			
 
				-![1.png](https://i.loli.net/2018/10/17/5bc7181172996.png)
			
 
				-```
			
 
				+![](https://i.loli.net/2018/10/17/5bc7181172996.png)
			
 
				 
			
 
				 **2.2 评估方法**
			
 
				 
			
@@ -83,9 +81,7 @@
 
				 
			
 
				 将数据集D划分为k个大小相同的互斥子集，满足D=D1∪D2∪...∪Dk，Di∩Dj=∅（i≠j），同样地尽可能保持数据分布的一致性，即采用分层抽样的方法获得这些子集。交叉验证法的思想是：每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集，这样就有K种训练集/测试集划分的情况，从而可进行k次训练和测试，最终返回k次测试结果的均值。交叉验证法也称“k折交叉验证”，k最常用的取值是10，下图给出了10折交叉验证的示意图。
			
 
				 
			
 
				-```
			
 
				-![2.png](https://i.loli.net/2018/10/17/5bc718115d224.png)
			
 
				-```
			
 
				+![](https://i.loli.net/2018/10/17/5bc718115d224.png)
			
 
				 
			
 
				 与留出法类似，将数据集D划分为K个子集的过程具有随机性，因此K折交叉验证通常也要重复p次，称为p次k折交叉验证，常见的是10次10折交叉验证，即进行了100次训练/测试。特殊地当划分的k个子集的每个子集中只有一个样本时，称为“留一法”，显然，留一法的评估结果比较准确，但对计算机的消耗也是巨大的。
			
 
				 
			
@@ -95,9 +91,7 @@
 
				 
			
 
				 自助法的基本思想是：给定包含m个样本的数据集D，每次随机从D 中挑选一个样本，将其拷贝放入D'，然后再将该样本放回初始数据集D 中，使得该样本在下次采样时仍有可能被采到。重复执行m 次，就可以得到了包含m个样本的数据集D'。可以得知在m次采样中，样本始终不被采到的概率取极限为：
			
 
				 
			
 
				-```
			
 
				-![3.png](https://i.loli.net/2018/10/17/5bc71811246dd.png)
			
 
				-```
			
 
				+![](https://i.loli.net/2018/10/17/5bc71811246dd.png)
			
 
				 
			
 
				 这样，通过自助采样，初始样本集D中大约有36.8%的样本没有出现在D'中，于是可以将D'作为训练集，D-D'作为测试集。自助法在数据集较小，难以有效划分训练集/测试集时很有用，但由于自助法产生的数据集（随机抽样）改变了初始数据集的分布，因此引入了估计偏差。在初始数据集足够时，留出法和交叉验证法更加常用。
			
 
				 
			
--- a/Learning》学习笔记(2)--性能度量.md
+++ b/Learning》学习笔记(2)--性能度量.md
@@ -8,80 +8,84 @@
 
				 
			
 
				 在回归任务中，即预测连续值的问题，最常用的性能度量是“均方误差”（mean squared error）,很多的经典算法都是采用了MSE作为评价函数，想必大家都十分熟悉。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170314786)
			
 
				+![1.png](https://i.loli.net/2018/10/17/5bc71daf76276.png)
			
 
				 
			
 
				 在分类任务中，即预测离散值的问题，最常用的是错误率和精度，错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例，易知：错误率+精度=1。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170337122)
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170431349)
			
 
				+![2.png](https://i.loli.net/2018/10/17/5bc71daf4c704.png)
			
 
				+
			
 
				+![3.png](https://i.loli.net/2018/10/17/5bc71daf6fb84.png)
			
 
				 
			
 
				 **2.5.2 查准率/查全率/F1**
			
 
				 
			
 
				 错误率和精度虽然常用，但不能满足所有的需求，例如：在推荐系统中，我们只关心推送给用户的内容用户是否感兴趣（即查准率），或者说所有用户感兴趣的内容我们推送出来了多少（即查全率）。因此，使用查准/查全率更适合描述这类问题。对于二分类问题，分类结果混淆矩阵与查准/查全率定义如下：
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170458036)
			
 
				+![4.png](https://i.loli.net/2018/10/17/5bc71daf885a4.png)
			
 
				 
			
 
				 初次接触时，FN与FP很难正确的理解，按照惯性思维容易把FN理解成：False->Negtive，即将错的预测为错的，这样FN和TN就反了，后来找到一张图，描述得很详细，为方便理解，把这张图也贴在了下边：
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170513155)
			
 
				+![5.png](https://i.loli.net/2018/10/17/5bc71daf871a6.png)
			
 
				 
			
 
				 正如天下没有免费的午餐，查准率和查全率是一对矛盾的度量。例如我们想让推送的内容尽可能用户全都感兴趣，那只能推送我们把握高的内容，这样就漏掉了一些用户感兴趣的内容，查全率就低了；如果想让用户感兴趣的内容都被推送，那只有将所有内容都推送上，宁可错杀一千，不可放过一个，这样查准率就很低了。
			
 
				 
			
 
				 “P-R曲线”正是描述查准/查全率变化的曲线，P-R曲线定义如下：根据学习器的预测结果（一般为一个实值或概率）对测试样本进行排序，将最可能是“正例”的样本排在前面，最不可能是“正例”的排在后面，按此顺序逐个把样本作为“正例”进行预测，每次计算出当前的P值和R值，如下图所示：
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170539437)
			
 
				+![6.png](https://i.loli.net/2018/10/17/5bc71dafc4411.png)
			
 
				 
			
 
				 P-R曲线如何评估呢？若一个学习器A的P-R曲线被另一个学习器B的P-R曲线完全包住，则称：B的性能优于A。若A和B的曲线发生了交叉，则谁的曲线下的面积大，谁的性能更优。但一般来说，曲线下的面积是很难进行估算的，所以衍生出了“平衡点”（Break-Event Point，简称BEP），即当P=R时的取值，平衡点的取值越高，性能更优。
			
 
				 
			
 
				 P和R指标有时会出现矛盾的情况，这样就需要综合考虑他们，最常见的方法就是F-Measure，又称F-Score。F-Measure是P和R的加权调和平均，即：
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170613662)
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170623178)
			
 
				+![7.png](https://i.loli.net/2018/10/17/5bc71daf40ff6.png)
			
 
				+
			
 
				+![8.png](https://i.loli.net/2018/10/17/5bc71daf75407.png)
			
 
				 
			
 
				 特别地，当β=1时，也就是常见的F1度量，是P和R的调和平均，当F1较高时，模型的性能越好。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170654438)
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170705209)
			
 
				+![9.png](https://i.loli.net/2018/10/17/5bc71daf20885.png)
			
 
				+
			
 
				+![10.png](https://i.loli.net/2018/10/17/5bc71daf4b90a.png)
			
 
				 
			
 
				 有时候我们会有多个二分类混淆矩阵，例如：多次训练或者在多个数据集上训练，那么估算全局性能的方法有两种，分为宏观和微观。简单理解，宏观就是先算出每个混淆矩阵的P值和R值，然后取得平均P值macro-P和平均R值macro-R，在算出Fβ或F1，而微观则是计算出混淆矩阵的平均TP、FP、TN、FN，接着进行计算P、R，进而求出Fβ或F1。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170725772)
			
 
				+![11.png](https://i.loli.net/2018/10/17/5bc71ed70230e.png)
			
 
				 
			
 
				 **2.5.3 ROC与AUC**
			
 
				 
			
 
				 如上所述：学习器对测试样本的评估结果一般为一个实值或概率，设定一个阈值，大于阈值为正例，小于阈值为负例，因此这个实值的好坏直接决定了学习器的泛化性能，若将这些实值排序，则排序的好坏决定了学习器的性能高低。ROC曲线正是从这个角度出发来研究学习器的泛化性能，ROC曲线与P-R曲线十分类似，都是按照排序的顺序逐一按照正例预测，不同的是ROC曲线以“真正例率”（True Positive Rate，简称TPR）为横轴，纵轴为“假正例率”（False Positive Rate，简称FPR），ROC偏重研究基于测试样本评估值的排序好坏。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170802830)
			
 
				+![12.png](https://i.loli.net/2018/10/17/5bc71ed6bee91.png)
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170817803)
			
 
				+![13.png](https://i.loli.net/2018/10/17/5bc71ed75cefe.png)
			
 
				 
			
 
				 简单分析图像，可以得知：当FN=0时，TN也必须0，反之也成立，我们可以画一个队列，试着使用不同的截断点（即阈值）去分割队列，来分析曲线的形状，（0,0）表示将所有的样本预测为负例，（1,1）则表示将所有的样本预测为正例，（0,1）表示正例全部出现在负例之前的理想情况，（1,0）则表示负例全部出现在正例之前的最差情况。限于篇幅，这里不再论述。
			
 
				 
			
 
				 现实中的任务通常都是有限个测试样本，因此只能绘制出近似ROC曲线。绘制方法：首先根据测试样本的评估值对测试样本排序，接着按照以下规则进行绘制。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170835600)
			
 
				+![14.png](https://i.loli.net/2018/10/17/5bc71ed740a24.png)
			
 
				 
			
 
				 同样地，进行模型的性能比较时，若一个学习器A的ROC曲线被另一个学习器B的ROC曲线完全包住，则称B的性能优于A。若A和B的曲线发生了交叉，则谁的曲线下的面积大，谁的性能更优。ROC曲线下的面积定义为AUC（Area Uder ROC Curve），不同于P-R的是，这里的AUC是可估算的，即AOC曲线下每一个小矩形的面积之和。易知：AUC越大，证明排序的质量越好，AUC为1时，证明所有正例排在了负例的前面，AUC为0时，所有的负例排在了正例的前面。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170854832)
			
 
				+![15.png](https://i.loli.net/2018/10/17/5bc71ed6e2c57.png)
			
 
				 
			
 
				 **2.5.4 代价敏感错误率与代价曲线**
			
 
				 
			
 
				 上面的方法中，将学习器的犯错同等对待，但在现实生活中，将正例预测成假例与将假例预测成正例的代价常常是不一样的，例如：将无疾病-->有疾病只是增多了检查，但有疾病-->无疾病却是增加了生命危险。以二分类为例，由此引入了“代价矩阵”（cost matrix）。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170913554)
			
 
				-                  
			
 
				+![16.png](https://i.loli.net/2018/10/17/5bc71ed6ed582.png)
			
 
				+
			
 
				 在非均等错误代价下，我们希望的是最小化“总体代价”，这样“代价敏感”的错误率（2.5.1节介绍）为：
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120170959023)
			
 
				+![17.png](https://i.loli.net/2018/10/17/5bc71ed70bebe.png)
			
 
				 
			
 
				 同样对于ROC曲线，在非均等错误代价下，演变成了“代价曲线”，代价曲线横轴是取值在[0,1]之间的正例概率代价，式中p表示正例的概率，纵轴是取值为[0,1]的归一化代价。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120171021865)
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120171032537)
			
 
				+![18.png](https://i.loli.net/2018/10/17/5bc71ed6e952e.png)
			
 
				+
			
 
				+![19.png](https://i.loli.net/2018/10/17/5bc71ed6eee7b.png)
			
 
				 
			
 
				 代价曲线的绘制很简单：设ROC曲线上一点的坐标为(TPR，FPR) ，则可相应计算出FNR，然后在代价平面上绘制一条从(0，FPR) 到(1，FNR) 的线段，线段下的面积即表示了该条件下的期望总体代价；如此将ROC 曲线土的每个点转化为代价平面上的一条线段，然后取所有线段的下界，围成的面积即为在所有条件下学习器的期望总体代价，如图所示：
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161120171042695)
			
 
				+![20.png](https://i.loli.net/2018/10/17/5bc71ed716e0d.png)
			
 
				 
			
 
				 在此模型的性能度量方法就介绍完了，以前一直以为均方误差和精准度就可以了，现在才发现天空如此广阔~
			
--- a/Learning》学习笔记(3)--假设检验&方差&偏差.md
+++ b/Learning》学习笔记(3)--假设检验&方差&偏差.md
@@ -8,45 +8,47 @@
 
				 
			
 
				 “假设”指的是对样本总体的分布或已知分布中某个参数值的一种猜想，例如：假设总体服从泊松分布，或假设正态总体的期望u=u0。回到本篇中，我们可以通过测试获得测试错误率，但直观上测试错误率和泛化错误率相差不会太远，因此可以通过测试错误率来推测泛化错误率的分布，这就是一种假设检验。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161204191755060)
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161204191923152)
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161204191932964)
			
 
				+![1.png](https://i.loli.net/2018/10/17/5bc7211aed8e3.png)
			
 
				+
			
 
				+![2.png](https://i.loli.net/2018/10/17/5bc7211a5817d.png)
			
 
				+
			
 
				+![3.png](https://i.loli.net/2018/10/17/5bc7211a336b5.png)
			
 
				 
			
 
				 ###**2.6.2 交叉验证t检验**
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161204200704985)
			
 
				+![4.png](https://i.loli.net/2018/10/17/5bc7211a68ef9.png)
			
 
				 
			
 
				 ###**2.6.3 McNemar检验**
			
 
				 
			
 
				 MaNemar主要用于二分类问题，与成对t检验一样也是用于比较两个学习器的性能大小。主要思想是：若两学习器的性能相同，则A预测正确B预测错误数应等于B预测错误A预测正确数，即e01=e10，且|e01-e10|服从N（1，e01+e10）分布。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161204192503373)
			
 
				+![5.png](https://i.loli.net/2018/10/17/5bc7211a2c7f9.png)
			
 
				 
			
 
				 因此，如下所示的变量服从自由度为1的卡方分布，即服从标准正态分布N（0,1）的随机变量的平方和，下式只有一个变量，故自由度为1，检验的方法同上：做出假设-->求出满足显著度的临界点-->给出拒绝域-->验证假设。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161204192543623)
			
 
				+![6.png](https://i.loli.net/2018/10/17/5bc7211a34e96.png)
			
 
				 
			
 
				 ###**2.6.4 Friedman检验与Nemenyi后续检验**
			
 
				 
			
 
				 上述的三种检验都只能在一组数据集上，F检验则可以在多组数据集进行多个学习器性能的比较，基本思想是在同一组数据集上，根据测试结果（例：测试错误率）对学习器的性能进行排序，赋予序值1,2,3...，相同则平分序值，如下图所示：
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161204192559170)
			
 
				+![7.png](https://i.loli.net/2018/10/17/5bc7211a2db45.png)
			
 
				 
			
 
				 若学习器的性能相同，则它们的平均序值应该相同，且第i个算法的平均序值ri服从正态分布N（（k+1）/2，（k+1）(k-1)/12），则有：
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161204192610373)
			
 
				+![8.png](https://i.loli.net/2018/10/17/5bc7211a45349.png)
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161204192621649)
			
 
				+![9.png](https://i.loli.net/2018/10/17/5bc7211a2684c.png)
			
 
				 
			
 
				 服从自由度为k-1和(k-1)(N-1)的F分布。下面是F检验常用的临界值：
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161204192756417)
			
 
				+![10.png](https://i.loli.net/2018/10/17/5bc7211a7e3f0.png)
			
 
				 
			
 
				 若“H0：所有算法的性能相同”这个假设被拒绝，则需要进行后续检验，来得到具体的算法之间的差异。常用的就是Nemenyi后续检验。Nemenyi检验计算出平均序值差别的临界值域，下表是常用的qa值，若两个算法的平均序值差超出了临界值域CD，则相应的置信度1-α拒绝“两个算法性能相同”的假设。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161204193610522)
			
 
				+![11.png](https://i.loli.net/2018/10/17/5bc722232932b.png)
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161204193621866)
			
 
				+![12.png](https://i.loli.net/2018/10/17/5bc7222348519.png)
			
 
				 
			
 
				 ##**2.7 偏差与方差**
			
 
				 
			
@@ -58,5 +60,5 @@ MaNemar主要用于二分类问题，与成对t检验一样也是用于比较两
 
				 
			
 
				 易知：方差和偏差具有矛盾性，这就是常说的偏差-方差窘境（bias-variance dilamma），随着训练程度的提升，期望预测值与真实值之间的差异越来越小，即偏差越来越小，但是另一方面，随着训练程度加大，学习算法对数据集的波动越来越敏感，方差值越来越大。换句话说：在欠拟合时，偏差主导泛化误差，而训练到一定程度后，偏差越来越小，方差主导了泛化误差。因此训练也不要贪杯，适度辄止。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161204193150016)
			
 
				+![13.png](https://i.loli.net/2018/10/17/5bc722234b09f.png)
			
 
				 
			
--- a/Learning》学习笔记(4)--线性模型.md
+++ b/Learning》学习笔记(4)--线性模型.md
@@ -4,7 +4,7 @@
 
				 
			
 
				 谈及线性模型，其实我们很早就已经与它打过交道，还记得高中数学必修3课本中那个顽皮的“最小二乘法”吗？这就是线性模型的经典算法之一：根据给定的（x，y）点对，求出一条与这些点拟合效果最好的直线y=ax+b，之前我们利用下面的公式便可以计算出拟合直线的系数a,b（3.1中给出了具体的计算过程），从而对于一个新的x，可以预测它所对应的y值。前面我们提到：在机器学习的术语中，当预测值为连续值时，称为“回归问题”，离散值时为“分类问题”。本篇先从线性回归任务开始，接着讨论分类和多分类问题。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211145157660?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				+![1.png](https://i.loli.net/2018/10/17/5bc722b068e48.png)
			
 
				 
			
 
				 
			
 
				 ##**3.1 线性回归**
			
@@ -19,63 +19,71 @@
 
				 
			
 
				 （1）当输入属性只有一个的时候，就是最简单的情形，也就是我们高中时最熟悉的“最小二乘法”（Euclidean distance），首先计算出每个样本预测值与真实值之间的误差并求和，通过最小化均方误差MSE，使用求偏导等于零的方法计算出拟合直线y=wx+b的两个参数w和b，计算过程如下图所示：
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211145501749?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				+![2.png](https://i.loli.net/2018/10/17/5bc722b0ccec4.png)
			
 
				 
			
 
				 （2）当输入属性有多个的时候，例如对于一个样本有d个属性{（x1,x2...xd）,y}，则y=wx+b需要写成：
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211150019603?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				+![0.png](https://i.loli.net/2018/10/17/5bc72567b8bcd.png)
			
 
				 
			
 
				 通常对于多元问题，常常使用矩阵的形式来表示数据。在本问题中，将具有m个样本的数据集表示成矩阵X，将系数w与b合并成一个列向量，这样每个样本的预测值以及所有样本的均方误差最小化就可以写成下面的形式：
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211145550037?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211145603443?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211145625100?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				+![3.png](https://i.loli.net/2018/10/17/5bc722b0ad8f7.png)
			
 
				+
			
 
				+![4.png](https://i.loli.net/2018/10/17/5bc722b0af652.png)
			
 
				+
			
 
				+![5.png](https://i.loli.net/2018/10/17/5bc722b090543.png)
			
 
				 
			
 
				 同样地，我们使用最小二乘法对w和b进行估计，令均方误差的求导等于0，需要注意的是，当一个矩阵的行列式不等于0时，我们才可能对其求逆，因此对于下式，我们需要考虑矩阵（X的转置*X）的行列式是否为0，若不为0，则可以求出其解，若为0，则需要使用其它的方法进行计算，书中提到了引入正则化，此处不进行深入。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211145653439?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				+![6.png](https://i.loli.net/2018/10/17/5bc722b0cde33.png)
			
 
				 
			
 
				 另一方面，有时像上面这种原始的线性回归可能并不能满足需求，例如：y值并不是线性变化，而是在指数尺度上变化。这时我们可以采用线性模型来逼近y的衍生物，例如lny，这时衍生的线性模型如下所示，实际上就是相当于将指数曲线投影在一条直线上，如下图所示：
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211145719190?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				+![7.png](https://i.loli.net/2018/10/17/5bc722b103cbf.png)
			
 
				 
			
 
				 更一般地，考虑所有y的衍生物的情形，就得到了“广义的线性模型”（generalized linear model），其中，g（*）称为联系函数（link function）。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211145733299?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				+![8.png](https://i.loli.net/2018/10/17/5bc722b0a2841.png)
			
 
				 
			
 
				 ##**3.2 线性几率回归**
			
 
				 
			
 
				 回归就是通过输入的属性值得到一个预测值，利用上述广义线性模型的特征，是否可以通过一个联系函数，将预测值转化为离散值从而进行分类呢？线性几率回归正是研究这样的问题。对数几率引入了一个对数几率函数（logistic function）,将预测值投影到0-1之间，从而将线性回归问题转化为二分类问题。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211145830253?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211145946946?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				+![9.png](https://i.loli.net/2018/10/17/5bc722b0c7748.png)
			
 
				+
			
 
				+![10.png](https://i.loli.net/2018/10/17/5bc722b0a655d.png)
			
 
				 
			
 
				 若将y看做样本为正例的概率，（1-y）看做样本为反例的概率，则上式实际上使用线性回归模型的预测结果器逼近真实标记的对数几率。因此这个模型称为“对数几率回归”（logistic regression），也有一些书籍称之为“逻辑回归”。下面使用最大似然估计的方法来计算出w和b两个参数的取值，下面只列出求解的思路，不列出具体的计算过程。
			
 
				-     
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211145913446?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)         
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211145925817?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)  
			
 
				+
			
 
				+![11.png](https://i.loli.net/2018/10/17/5bc723b824f0c.png)
			
 
				+
			
 
				+![12.png](https://i.loli.net/2018/10/17/5bc723b817961.png)
			
 
				+
			
 
				+
			
 
				 
			
 
				 ##**3.3 线性判别分析**
			
 
				 
			
 
				 线性判别分析（Linear Discriminant Analysis，简称LDA）,其基本思想是：将训练样本投影到一条直线上，使得同类的样例尽可能近，不同类的样例尽可能远。如图所示：
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211150045259?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211150519184?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				+![13.png](https://i.loli.net/2018/10/17/5bc723b863ebb.png)![14.png](https://i.loli.net/2018/10/17/5bc723b85bfa9.png)
			
 
				 
			
 
				 想让同类样本点的投影点尽可能接近，不同类样本点投影之间尽可能远，即：让各类的协方差之和尽可能小，不用类之间中心的距离尽可能大。基于这样的考虑，LDA定义了两个散度矩阵。
			
 
				 
			
 
				 + 类内散度矩阵（within-class scatter matrix）
			
 
				-  ![这里写图片描述](http://img.blog.csdn.net/20161211150115619?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				+
			
 
				+![15.png](https://i.loli.net/2018/10/17/5bc723b8156e1.png)
			
 
				+
			
 
				 + 类间散度矩阵(between-class scaltter matrix)
			
 
				-  ![这里写图片描述](http://img.blog.csdn.net/20161211150133335?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				+
			
 
				+![16.png](https://i.loli.net/2018/10/17/5bc723b7e9db3.png)
			
 
				 
			
 
				 因此得到了LDA的最大化目标：“广义瑞利商”（generalized Rayleigh quotient）。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211150147304?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				+![17.png](https://i.loli.net/2018/10/17/5bc723b7e8a61.png)
			
 
				 
			
 
				 从而分类问题转化为最优化求解w的问题，当求解出w后，对新的样本进行分类时，只需将该样本点投影到这条直线上，根据与各个类别的中心值进行比较，从而判定出新样本与哪个类别距离最近。求解w的方法如下所示，使用的方法为λ乘子。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211150204086?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				+![18.png](https://i.loli.net/2018/10/17/5bc723b83d5e0.png)
			
 
				 
			
 
				 若将w看做一个投影矩阵，类似PCA的思想，则LDA可将样本投影到N-1维空间（N为类簇数），投影的过程使用了类别信息（标记信息），因此LDA也常被视为一种经典的监督降维技术。    
			
 
				              
			
@@ -89,8 +97,9 @@
 
				 
			
 
				 + MvM：给定数据集D，假定其中有N个真实类别，每次取若干个类作为正类，若干个类作为反类（通过ECOC码给出，编码），若进行了M次划分，则生成了M个二分类学习器，在测试阶段（解码），得出M个结果组成一个新的码，最终通过计算海明/欧式距离选择距离最小的类别作为最终分类结果。
			
 
				 
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211150218744?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				-![这里写图片描述](http://img.blog.csdn.net/20161211150238039?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				+![19.png](https://i.loli.net/2018/10/17/5bc723b862bfb.png)
			
 
				+
			
 
				+![20.png](https://i.loli.net/2018/10/17/5bc723b8300d5.png)
			
 
				 
			
 
				 ##**3.5 类别不平衡问题**
			
 
				 
			
@@ -98,8 +107,7 @@
 
				 
			
 
				 1.  在训练样本较多的类别中进行“欠采样”（undersampling）,比如从正例中采出100个，常见的算法有：EasyEnsemble。
			
 
				 2.  在训练样本较少的类别中进行“过采样”（oversampling）,例如通过对反例中的数据进行插值，来产生额外的反例，常见的算法有SMOTE。
			
 
				-3.  直接基于原数据集进行学习，对预测值进行“再缩放”处理。其中再缩放也是代价敏感学习的基础。
			
 
				-  ![这里写图片描述](http://img.blog.csdn.net/20161211150251352?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMTgyNjQwNA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
			
 
				+3.  直接基于原数据集进行学习，对预测值进行“再缩放”处理。其中再缩放也是代价敏感学习的基础。![21.png](https://i.loli.net/2018/10/17/5bc726fe87ae2.png)