机器学习概念
机器学习(监督式)系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。
标签(Labels)是我们要预测的事物 y
特征(Features)是输入变量 x
样本是指数据的特定实例
- 有标签样本
- 无标签样本
模型定义了特征与标签之间的关系
模型生命周期的两个阶段:
- 训练表示创建或学习模型
- 推断表示将训练后的模型应用于无标签样本
回归模型可预测连续值
分类模型可预测离散值
检查多个样本并尝试找出可最大限度地减少损失的模型;这一过程称为经验风险最小化
损失是一个数值,表示对于单个样本而言模型预测的准确程度
- 平方损失(又称为 L2 损失)
- 均方误差 (MSE)
降低损失(Reducing loss):
- 梯度下降法
- 导数
- 偏导数:略微改动一个变量时,函数会发生多大的变化
- 梯度:偏导数相对于所有自变量的矢量(方向,大小)
- 学习速率:用梯度乘以一个称为学习速率(有时也称为步长)的标量,以确定下一个点的位置
- // 超参数是编程人员在机器学习算法中用于调整的旋钮
- 随机梯度下降法 (SGD):随机选择一个样本作为批量计算梯度
- 批量指的是用于在单次迭代中计算梯度的样本总数
- 小批量随机梯度下降法(小批量 SGD)是介于全批量迭代与 SGD 之间的折衷方案
- ...
过拟合是由于模型的复杂程度超出所需程度而造成的
通过降低复杂模型的复杂度来防止过拟合,这种原则称为正则化
泛化:
- 我们从分布中随机抽取独立同分布 (i.i.d) 的样本。换言之,样本之间不会互相影响。(另一种解释:i.i.d. 是表示变量随机性的一种方式)。
- 分布是平稳的;即分布在数据集内不会发生变化。
- 我们从同一分布的数据划分中抽取样本。
训练数据集训练出一个模型;
测试数据集测试训练的模型并可以调整模型继续训练测试;
"调整模型"指的是调整您可以想到的关于模型的任何方面,从更改学习速率、添加或移除特征,到从头开始设计全新模型。引入验证集可以大幅降低过拟合的发生几率;1. 选择在验证集上获得最佳效果的模型。2. 使用测试集再次检查该模型。该工作流程之所以更好,原因在于它暴露给测试集的信息更少。
最后选择效果最好的模型;
从原始数据中提取特征的过程称为特征工程,好特征:
- 应具有非零值, 并在我们的数据集中出现至少几次或更多次
- 应具有清晰明确的意义,不应采用"神奇"的值
- 不应随时间发生变化
- 特征不应采用不理性的离群值
表示 (Representation):清理数据
- 缩放特征值,使用线性缩放,Z得分等
- 处理极端离群值,取对数或者限制最大/小值
- 分箱
- 清查
特征组合
- 相加
- 相乘
以最小化损失和复杂度为目标,这称为结构风险最小化
简化正则化 (Regularization for Simplicity)(规则化)
- L₂ 正则化:所有特征权重的平方和
- Lambda
早停法指的是在模块完全收敛之前就结束训练。
逻辑回归是一种极其高效的概率计算机制
- "按原样"
- 转换成二元类别
逻辑回归的损失函数是对数损失函数
神经网络:在输入和输出间添加隐藏层,添加非线性转换层(激活函数)
- 相较于 S 型函数等平滑函数,修正线性单元激活函数(简称为 ReLU)的效果通常要好一点,同时还非常易于计算