极速1分快3开户贝叶斯神经网络(系列):第二篇 | 雷锋网

  • 时间:
  • 浏览:5

本文为 AI 研习社编译的技术博客极速1分快3开户,原标题 :

Bay极速1分快3开户esian Neural Network Series Post 2: Background Knowledge

作者 | Kumar Shridhar

翻译 | 微白o         

校对 | 酱番梨        审核 | 约翰逊·李加薪       分派 | 立鱼王

原文链接:

https://medium.com/neuralspace/bayesian-neural-network-series-post-2-background-knowledge-fdec6ac62d43

这是贝叶斯卷积网极速1分快3开户络系列八篇中的第二篇文章。

如需查看第一篇文章,请点击:贝叶斯神经网络(系列)第一篇

让大伙将贝叶斯神经网络分解成贝叶斯和神经网络来结速。

贝叶斯推断是概率论和统计学机器学习中的重要组成每段。 它是基于由著名统计学家托马斯贝叶斯给出的贝叶斯定理。 在贝叶斯推断中,随着更多证据或信息的经常 出现,假设概率得到更新。

我其他人面,神经网络也能被认为是模仿人类大脑的端到端系统或一组算法(有的是每我其他人都相信,但它是基础),并试图在数据集中学习繁复的表示来输出结果。

  神经网络

神经网络上已有非常好的教程。 我会试着简要介绍一下神经网络与大脑的移觉,并着重解释大伙以前要研究的概率论机器学习每段。

大脑的移觉

感知器是由著名心理学家罗森布拉特(Rosenblatt)设想的描述神经元怎么才能 才能 在大伙的大脑中发挥作用的数学模极速1分快3开户型。 根据罗森布拉特的说法,神经元采用一组二进制输入(付进 的神经元),将每个输入乘以连续值权重(每个付进 神经元的突触强度单位),后会以前 sum足够大,则将这种 加权输入的总和阈值输出为1,后会为0(同理神经元要么有效,要么无效)。

 生物激励神经网络(源地址:http://cs231n.github.io/neural-networks-1/)

人工神经网络

受到生物神经系统的启发,人工神经网络(ANN)的价值形式被设计成像人脑一样极速1分快3开户外理信息。 多量层厚互连的外理单元(神经元)协同工作使神经网络也能外理繁复的什么的问题。 就像人类通过实例学习一样,神经网络也是越来越。 在生物系统中学习涉及对突触连接的调整,其这类于神经网络中的权重更新。

神经网络由三层组成:输入层为模型提供数据,隐藏层学习怎么才能 才能 表示,输出层输出结果或预测。 神经网络也能被认为是这种 端到端的系统,其也能在非常繁复的、只能由人教给机器的数据中找到这种 特有的模式。

一一三个 多 隐藏层的神经网络

卷积神经网络

休伯尔(Hubel)和威塞尔(Wiesel)在大伙的层次模型中提到了一一三个 多 神经网络,它在视觉表面包含一一三个 多 层次价值形式。 LGB(外侧膝状体)组成简单细胞,后会组成繁复细胞,继而形成低级超复合细胞,最终形成高级超复合细胞。

此外,低阶超繁复细胞和高阶超繁复细胞之间的网络在价值形式上这类于简单细胞和繁复细胞之间的网络。 在该层次价值形式中,较高级的细胞通常倾向于选着性地响应激励模式的更繁复的价值形式,低级细胞则倾向于简单价值形式。还有,较高阶段的细胞具有较大的感受野,后会对激励模式的位置变化不敏感。

与层次模型这类,神经网络起始层学习较简单的价值形式,如边缘,后续的神经层学习繁复的价值形式,如颜色,纹理等。此外,较高级的神经元具有较大的感受野,其构建在初始层上。然而,与多层感知器不同,其中来自同一层的所有神经元与下一层中的所有神经元连接,权重共享是卷积神经网络最主要的每段。示例:不像以前的做法,对于输入图像的每个像素(权重是28x 28),每个神经元有的是不同的权重。现在神经元只能一一三个 多 小的权重集(5 * 5),其应用于一大堆小的、相同大小的图像的子集中。第一层后的神经层有的是以这类的法律法律依据 工作,采用在以前隐藏层中找到的“局部”价值形式,而有的是像素图像。后会连续地看得人图像的较大每段,以前它们组合了关于图像的很多的子集信息。最后,最后一层对输出集进行了正确的预测。

以前数学上还不清楚句子,越来越很显然顶端的解释非常有用:以前越来越倘若的约束,神经网络将前要为图像的每个每段消耗多量时间学习完全相同的简单事物(这类检测边缘,角落等)。 后会以前发生约束,只能一一三个 多 神经元前要学习每个简单的价值形式,后会总体上权重要少得多,它也能做得非常快! 此外,以前这种 价值形式的位置(精确到像素)无关紧要,神经元基本上也能跳过图像的相邻子集———即子采样,现在称为池化类型———当应用权重时,进一步减少了训练时间。 增加这这种 类型的层——— 卷积层和池化层,是卷积神经网络(CNN / ConvNets)与普通旧的神经网络的主要区别。

   机器学习的概率论法律法律依据

为了简要叙述机器学习的概率论法律法律依据 ,大伙把它分成概率论和机器学习分别讨论。

机器学习倘若开发一点算法,在给定一点数据的状况下执行一点任务。 它包括从非价值形式化数据中查找模式来对电子邮件分类,从语言理解到自动驾驶汽车。 基于观察到的数据,通过机器学习法律法律依据 进行一点推断。 训练模型从观察到的数据(训练数据)中学习一点模式和假设,并对未观察到的数据(测试数据)进行推断。以前每个推理都包含预测置信度,后会得出结论。 然而,以前多种原困 ,模型的预测以前不准确:输入噪声,噪声灵敏度,测量误差,非最佳超参数设置等。

机器学习中的概率模型表明,所有形式的不选着性有的是是真正结果,而更像是概率,后会大伙也能用概率论的知识来回答所有什么的问题。 概率分布用于模拟学习,不选着性和未观察到的状况。 在观察数据以前定义先验概率分布,一旦观察到数据就结速学习,后会数据分布变为后验分布。 贝叶斯学习的基础倘若用概率论的知识从数据中学习。

不选着性在贝叶斯学习中起着重要作用,来仔细研究不选着性的类型:

贝叶斯学习法律法律依据 中的不选着性

(神经)网络中的不选着性是衡量模型预测的准确程度的指标。 在贝叶斯模型中,发生这种 主要的不选着性类型:偶然不选着性和认知不选着性。

偶然不选着性衡量了观测中固有的噪声。 这种 类型的不选着性发生于数据分派法律法律依据 中,比如伴随数据集的均匀的传感器噪声或运动噪声。 即使分派更多数据,倘若能减少不选着性。

认知不选着性是模型这种 造成的不选着性。 给定更多数据也能减少这种 不选着性,后会通常称为模型不选着性。偶然不选着性也能进一步分为同方差不选着性,不同输入下不变的不选着性,以及取决于模型输入的异方差不选着性,其中一点输入以前具有比一点输入更多的噪声输出。 异方差的不选着性尤为重要,它也能外理模型的输出过于优化。

也能通过在模型参数或模型输出打上去入概率分布来估计不选着性。 通过在模型的权重打上去入先验分布,后会尝试捕获这种 权重在给定数据的状况下变化十几个 来对认知不选着性建模。 我其他人面,偶然不选着性,是通过在模型的输出打上去入分布来建模的。

现在,大伙对概率机器学习基础,贝叶斯学习和神经网络有了一一三个 多 很好的认识。 将贝叶斯法律法律依据 和神经网络结合看起来是一一三个 多 不错的想法,但在实践中,训练贝叶斯神经网络是很难的。 训练神经网络最流行的法律法律依据 是反向传播,大伙用它来训练贝叶斯神经网络。 大伙来完全介绍一下这种 法律法律依据 。

   反向传播

鲁姆哈特在1986年提出了神经网络中的反向传播,它是训练神经网络最常用的法律法律依据 。 反向传播是这种 根据网络权重计算梯度下降的技术。 它分一一三个 多 阶段运行:首先,输入价值形式通过网络的正向传播,以计算函数输出,从而计算与参数相关的损失。 其次,训练损失对权重的导数从输出层传回输入层。这种 已计算的导数还用于更新网络的权重。 这是一一三个 多 连续的过程,权重在每次迭代中不断更新。

尽管反向传播很受欢迎,后会在基于反向传播的随机优化中发生一点超参数,其前要特定的调整,这类学习率,动量,权重衰减等。找到最优值所需的时间与数据大小成比例。 对于使用反向传播训练的网络,仅在网络中实现权重的点估计。 结果,这种 网络得出了过度的预测结果,并越来越考虑参数的不选着性。 不足不选着性法律法律依据 会使(神经)网络过拟合并前要正则化。

神经网络的贝叶斯法律法律依据 提供了反向传播法律法律依据 的缺点,贝叶斯法律法律依据 自然地解释了参数估计中的不选着性,后会也能将这种 不选着性加入到预测中。

此外,对参数值取均值而有的是仅选着单点估计值使得模型对过拟合具有鲁棒性。

过去以前提出了几种用于贝叶斯神经网络学习的法律法律依据 :拉普拉斯近似,MC丢失和变分推理。 大伙使用反向传播的贝叶斯来完成的工作,接下来进行说明。

反向传播的贝叶斯

贝叶斯反向传播算法石油Blundell等人提出的,用于学习神经网络权重的概率分布。 整个法律法律依据 可归纳如下:

该法律法律依据 有的是训练单个网络,倘若训练网络集合,其中每个网络的权重来自共享的学习概率分布。 与一点集合法律法律依据 不同,该法律法律依据 通常仅使参数的数量加倍,后会使用无偏的蒙特卡罗梯度估计来训练无穷集合。

通常,对神经网络权重的精确贝叶斯推断是难以外理的,以前参数的数量非常大,后会神经网络的函数形式不适合精确积分。 相反,大伙采用变分近似而有的是蒙特卡罗法律法律依据 来找到似然贝叶斯后验分布。

好了,至此大伙以前说通了。 那再深入一点,以前这种 法律法律依据 构成了大伙法律法律依据 的基础,将在顶端的博客中进行解释。 大伙首先前要理解为这种 分布变得难以外理以及前要近似它。 让大伙从贝叶斯定理结速:

 贝叶斯定理

如上所述,根据贝叶斯定理,大伙试图在给定一点数据x的状况下找到模型参数θ的概率。 这被称为后验,大伙想计算它。 现在分子的P(θ)是大伙的先验(在看得人数据以前的估计)和P(x |θ)这是以前性后会显示数据分布。 这种 个 多 值都很容易计算。 分母P(x)是证据,它显示数据x是不是从模型生成的。 现在,事情有点痛 棘手了, 大伙只能通过整合所有以前的模型值来计算:

可见,这种 积分使得整个过程难以外理,外理它的唯一法律法律依据 是近似它。 后会,大伙将使用变分推理来近似函数形式。

还有一点法律法律依据 可用于近似积分,而流行的法律法律依据 是马尔可夫链蒙特卡罗和蒙特卡洛丢弃法。

变分推论

假设大伙有所有的密度函数,后会想估计它。 大伙首先选着一一三个 多 分布(可是不是高斯分布,以前它最常用),经常 修改到非常接近大伙你要的函数,即后验概率。 大伙希望尽以前接近真正的分布,其是难以直接外理的,大伙也能通过最小化两者之间的相对熵来完成。

后会,大伙有一一三个 多 函数P(w|D)(顶端得到的后验概率),大伙想用倘若分布q(w|D)用一点变分参数θ来近似它。

注意到此处的符号已更改,以使其与费利克斯 · 劳曼伯格概率层厚学习保持一致:反向传播的贝叶斯理论也能很好地解释它。

相对熵使什么的问题成为优化什么的问题,并也能最小化为:



一张图很好地展示怎么才能 才能 近似难外理的后验概率

来源:https://medium.com/neuralspace/probabilistic-deep-learning-bayes-by-backprop-c4a3de0d9743

但这有的是结速。 以前大伙外理相对熵,以前发生积分函数,又经常 出现了一一三个 多 难以外理的方程:

 源地址:https://arxiv.org/abs/11006.05978

现在大伙以前无法近似一一三个 多 近似函数了。 后会,大伙也能从近似函数q(w|D)中进行采样,以前从近似函数q(w|D)中采样权重要比难外理的真后验函数p(w | D)容易。 在倘若做时,大伙得到如下所述的易外理函数:

这种 采样权重w,被用在神经网络的反向传播中去学习后验分布。

现在,正如大伙所看得人的,也能通过反向传播法律法律依据 训练贝叶斯神经网络,后会贝叶斯神经网络能自动合并正则化。 大伙将在接下来的博客中学习使用变分推理法律法律依据 的贝叶斯卷积神经网络。 大伙在卷积中使用一一三个 多 操作(更多细节在即将发布的博客中或在此处阅读),后会与基于CNN的点估计相比,贝叶斯卷积神经网络的参数数量翻倍。 后会,为了减少网络参数,大伙精简了神经网络架构,让大伙看看它是怎么才能 才能 完成的。

   反模型权重剪枝

模型剪枝减少了层厚神经网络中各种连接矩阵的稀疏性,从而减少了模型包含价值的参数的数量。模型剪枝的整个想法是减少参数的数量而不不损失模型的准确性。 这减少了使用正则化的大型参数化模型的使用,并有助了密集连接的较小模型的使用。 最近的一点工作表明,网络也能实现模型尺寸的大幅减少,一并精度也相差无几。模型剪枝在降低计算成本,推理时间和能量强度单位方面具有十几个 优点。 得到的剪枝模型通常具有稀疏连接矩阵。 使用这种 稀疏模型的有效推断前要有能加载稀疏矩阵后会/以前执行稀疏矩阵向量运算的专用硬件。 后会,使用新的剪枝模型也能减少总体内存使用量。

有几种法律法律依据 也能实现剪枝模型,最常用的法律法律依据 是将低贡献权重映射到零并减少整体非零值权重的数量。 这也能通过训练大型稀疏模型并进一步修剪来实现,这使其与训练小型密集模型相当。

通过应用L_0(L-zero)范数也能形式化为大多数价值形式赋予权重零和仅向重要价值形式分配非零权重,以前它对所有非零权重应用恒定惩罚。L_0范数也能被认为是价值形式选着器范数,其仅将非零值分配给重要的价值形式。 然而,L_0范数是非凸的,后会,不可微分使得它成为NP-hard什么的问题后会只能在P = NP时有效地求解。L_0范数的替代是L_1范数,其等于绝对权重值的总和。 L_1范数是凸的,后会是可微分的,也能用作L_0范数的近似值。 L_1范数通过令多量系数等于零而充当稀疏有助正则化器,是一一三个 多 很好的价值形式选着器。

这篇博客倘若为了提供以前的博客中使用的术语和概念的背景知识,以前我遗漏了这种 ,请我就知道。

以前您想提前阅读,请查看论文工作或论文。

PyTorch中的实现点击阅读原文可获得。

如需查看第一篇文章,请点击:贝叶斯神经网络(系列)第一篇

你要继续查看该篇文章相关链接和参考文献?

点击【贝叶斯神经网络(系列):第二篇】或长按下方地址:

https://ai.yanxishe.com/page/TextTranslation/1466

AI研习社今日推荐雷锋网雷锋网雷锋网(公众号:雷锋网)

卡耐基梅隆大学 2019 春季《神经网络自然语言外理》是CMU语言技术学院和计算机学院联合开课,主要内容是教学生怎么才能 才能 用神经网络做自然语言外理。神经网络对于语言建模任务而言,也能称得上是提供了这种 强大的新工具,与此一并,神经网络也能改进诸多任务中的最新技术,将过去不容易外理的什么的问题变得轻松简单。

加入小组免费观看视频:https://ai.yanxishe.com/page/groupDetail/33