统计学习方法

时间：2022-10-01 05:10:42 学习方法我要投稿

统计学习方法

　　统计学习三要素

统计学习方法

　　模型

　　模型就是所要学习的条件概率分布或决策函数。或模型的假设空间包括所有可能的条件概率分布或决策函数。或。其中的取值空间称为参数空间。

　　策略

　　策略也即学习的准则。一般来说监督学习的策略即指经验风险或结构风险函数最优化。

　　经验风险

　　损失函数

　　0-1损失函数

　　平方损失函数

　　绝对损失函数

　　对数损失函数

　　风险函数

　　风险函数(risk function)又叫期望损失(expected loss)，是理论模型关于联合分布的平均意义下的损失。

　　经验风险

　　风险函数和联合分布，用作为模型的后者求作为策略的前者，显然是病态的。故取训练数据集上的平均损失称为经验风险(empirical risk)。

　　当训练样本数量趋于无穷时，趋于。

　　结构风险

　　结构风险(structural risk)在经验风险的基础上添加正则化项(regularization，也叫罚项(penalty term))。

　　-------------

　　经验风险最小化

　　在找到一个使得最小。

　　p.s. 当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。

　　结构风险最小化

　　为防止经验风险最小化有可能带来的过拟合，添加代表模型复杂度的罚项。

　　算法

　　最优化算法

　　模型评估与模型选择

　　误差

　　训练误差

　　训练误差(training error)是学习到的模型关于训练数据集的平均损失。

　　测试误差

　　测试误差(test error)是学习到的模型关于测试数据集的平均损失。

　　当损失函数是0-1损失时，测试误差即为测试数据集上的误差率。

　　正则化

　　正则化方法就是在经验风险函数上添加正则化项。正则化项(regularizer)一般是模型复杂度的单调递增函数。如可以是模型参数向量的范数。

　　* 奥卡姆剃刀(Occam's razor)原理：在所有可能选择的模型中，能够很好解释已知数据并且十分简单才是最好的模型。

　　交叉验证

　　将数据集随机分为训练集、验证集(validation set)和测试集，分别用于模型的训练、选择和评估。

　　1. 简单交叉验证

　　分两部分：训练集和测试集

　　2. 折交叉验证

　　等分部分：份做训练集，1份做测试集。重复进行。

　　3. 留一交叉验证

　　折交叉验证的特例。

　　泛化能力

　　泛化误差

　　泛化误差(generalization error)学到的模型对未知数据预测的误差。

　　泛化误差就是学习到的模型的期望风险。

　　泛化误差上界

　　样本容量增加，泛化误差上界趋近于0

　　假设空间容量增加，泛化误差上界增大

　　监督学习分类

　　按学习方法分类

　　生成方法->生成模型

　　由数据学习联合概率分布后，求出概率分布。

　　包括：朴素贝叶斯法、隐马尔科夫模型

　　判别方法->判别模型

　　由数据直接学习决策函数或者条件概率分布。

　　包括：k近邻法、感知机、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法、条件随机场。

　　区别：

　　生成方法：

　　可还原出学习收敛速度快，当N增大时，更快收敛于真实模型

　　当存在隐变量时，仍可以使用

　　判别方法

　　直接学习或，往往学习的准确率更高

　　可对数据进行抽象、特征定义以简化学习问题

　　按

　　分类问题

　　评价指标

　　精确率(precision)

　　召回率(recall)

　　标注问题

　　回归问题

【统计学习方法】相关文章：

学习方法10-26

《统计》教案10-08

学习方法作文02-06

学习方法的作文06-01