学习方法

统计学习方法

时间:2022-10-01 05:10:42 学习方法 我要投稿

统计学习方法

  统计学习三要素

统计学习方法

  模型

  模型就是所要学习的条件概率分布或决策函数。 或 模型的假设空间包括所有可能的条件概率分布或决策函数。 或。 其中的取值空间称为参数空间。

  策略

  策略也即学习的准则。一般来说监督学习的策略即指经验风险或结构风险函数最优化。

  经验风险

  损失函数

  0-1损失函数

  平方损失函数

  绝对损失函数

  对数损失函数

  风险函数

  风险函数(risk function)又叫期望损失(expected loss),是理论模型关于联合分布的平均意义下的损失。

  经验风险

  风险函数和联合分布,用作为模型的后者求作为策略的前者,显然是病态的。故取训练数据集上的平均损失称为经验风险(empirical risk)。

  当训练样本数量趋于无穷时,趋于。

  结构风险

  结构风险(structural risk)在经验风险的基础上添加正则化项(regularization,也叫罚项(penalty term))。

  -------------

  经验风险最小化

  在找到一个使得最小。

  p.s. 当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

  结构风险最小化

  为防止经验风险最小化有可能带来的过拟合,添加代表模型复杂度的罚项。

  算法

  最优化算法

  模型评估与模型选择

  误差

  训练误差

  训练误差(training error)是学习到的模型关于训练数据集的平均损失。

  测试误差

  测试误差(test error)是学习到的模型关于测试数据集的平均损失。

  当损失函数是0-1损失时,测试误差即为测试数据集上的误差率。

  正则化

  正则化方法就是在经验风险函数上添加正则化项。正则化项(regularizer)一般是模型复杂度的单调递增函数。如可以是模型参数向量的范数。

  * 奥卡姆剃刀(Occam's razor)原理:在所有可能选择的模型中,能够很好解释已知数据并且十分简单才是最好的模型。

  交叉验证

  将数据集随机分为训练集、验证集(validation set)和测试集,分别用于模型的训练、选择和评估。

  1. 简单交叉验证

  分两部分:训练集和测试集

  2. 折交叉验证

  等分部分:份做训练集,1份做测试集。重复进行。

  3. 留一交叉验证

  折交叉验证的特例。

  泛化能力

  泛化误差

  泛化误差(generalization error)学到的模型对未知数据预测的误差。

  泛化误差就是学习到的模型的期望风险。

  泛化误差上界

  样本容量增加,泛化误差上界趋近于0

  假设空间容量增加,泛化误差上界增大

  监督学习分类

  按学习方法分类

  生成方法->生成模型

  由数据学习联合概率分布后,求出概率分布。

  包括:朴素贝叶斯法、隐马尔科夫模型

  判别方法->判别模型

  由数据直接学习决策函数或者条件概率分布。

  包括:k近邻法、感知机、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法、条件随机场。

  区别:

  生成方法:

  可还原出学习收敛速度快,当N增大时,更快收敛于真实模型

  当存在隐变量时,仍可以使用

  判别方法

  直接学习或,往往学习的准确率更高

  可对数据进行抽象、特征定义以简化学习问题

  按

  分类问题

  评价指标

  精确率(precision)

  召回率(recall)

  标注问题

  回归问题

【统计学习方法】相关文章:

初中数学统计学习方法10-06

探讨统计学的学习方法10-08

学习方法10-26

经典的学习方法10-26

高一学习方法指导与学习方法12-07

统计局统计述职报告06-25

统计局统计述职报告10-26

《统计》教案10-08

学习方法作文02-06

学习方法的作文06-01