在介绍支持向量机（Support Vector Machine，SVM）算法之前，本文先向大家介绍SVM算法的理论基础——统计学习理论的一些主要知识，希望对大家理解SVM算法有所帮助。

统计学习理论

统计方法是从事物的外在数量上的表现去推断该事物可能的规律性，即从观测自然现象或者专门安排的实验所得到的数据去推断该事物可能的规律性。

传统统计学研究的是样本数目趋于无穷大时的渐近理论，即当样本趋于无穷多时的统计性质，比如，当试验次数趋于无穷大时，频率≈概率。但在实际问题中，样本数目往往是有限的。
统计学习理论(Statistical Learning Theory，SLT) ，它为有限样本的机器学习问题建立了一个良好的理论框架，较好地解决了小样本、非线性、高维数和局部极小点等实际问题。即统计学习理论是小样本统计估计和预测学习的最佳数学理论。

统计学习理论是支持向量机理论发展的基础。

经验风险和结构风险

预测与问题真实解之间的累积误差就叫做风险。

在进行机器学习任务时，我们往往都是通过从训练样本集中训练得到一个模型，然后再用这个模型来进行预测。

训练误差：

设定一个训练误差来表示模型对训练样本集的拟合程度，即模型在训练样本集上的性能表现。

一般误差：

虽然训练误差对模型的性能评估具有一定的参考价值，但实际上，我们并不关心模型对训练样本集的预测有多么准确。我们更关心的是使用之前训练得到的模型对一个全新的数据集进行测试时，模型性能表现如何，由此产生的误差称作一般误差。因此，要求我们的模型需要具备一定的泛化能力，即能够在新的数据集上保持较好的预测性能。

可以证明，训练误差是一般误差的一个很好的估计，当样本数量很大时，训练误差接近于一般误差。

但是由于样本有限，模型在训练样本集上的训练误差（经验风险）较小，但是在新数据集上的一般误差（期望风险）可能会很大，因为可能会出现过拟合的情况。

神经网络中经常出现的过拟合问题就是经验风险最小化原则失败的一个典型例子，所以后来才会考虑在模型中加入一个衡量模型复杂度的正则化项。

经验风险最小化（Empiried Risk Minization，ERM）

理解为，由一般误差引起的损失，即认为模型在已知训练样本集上的误差越小，经验风险越小，模型越好。

结构风险最小化(Structural Risk Minimization）

理解为，在原有的优化目标上（一般误差最小），加入模型的复杂度这一优化目标。使得模型能够保证在训练样本集上的性能（经验风险越小）的同时，降低模型的 VC 维，从而提高机器学习模型的泛化能力，使得模型的期望风险得到控制。

模型越复杂其在训练样本集上的表现越好，但是其泛化能力可能会变差，因此结构风险最小化就是模型在训练样本集上的精确度和模型的复杂度之间的一个权衡。

函数集的VC维

对于一个指示函数（即只有0和1两种取值的函数）集，如果存在h个样本能够被函数集里的函数按照所有可能的2^h种形式分开，则称函数集能够把h个样本打散，函数集的VC维就是能够打散的最大样本数目h。

一般而言，模型的VC维越大，学习能力就越强，但模型也就越复杂。

n维实数空间中线性分类器和线性实函数集的VC维是n+1

比如，2维空间中线性分类器的VC维是3。因为当h=4的时候，不存在一条直线能够把如图中的两个红点和两个白点分开，因此对于线性分类器，h最大是3，即线性分类器的VC维是3。

2维空间中线性分类器的VC维是3

2维空间中线性分类器的VC维不能是4

常用数据挖掘算法从入门到精通第十章支持向量机理论基础

统计学习理论

经验风险和结构风险

函数集的VC维

头条热榜

精彩视频

常用数据挖掘算法从入门到精通 第十章 支持向量机理论基础

统计学习理论

经验风险和结构风险

函数集的VC维

头条热榜

精彩视频

常用数据挖掘算法从入门到精通第十章支持向量机理论基础