记忆网络首先被提出解决一个玩具问答任务
记忆网络最开始是被用来完成一个玩具问答任务
记忆网络首先被提出解决一个玩具问答任务
记忆网络最开始是被用来完成一个玩具问答任务
我们不可能一下子描述全面覆盖主题的所有略微相似的应用 。
我们不可能全面描述与此主题相关的所有应用 。
在本文写作之时,这项调查尽可能提供了有代表性的样本。
本项调查提供了在本文写作之时的具有代表性的样本。
,其中的挑战更困难并且远远没有解决(相比目前为止所描述的情况)。
。并且相比目前为止所描述的情况,其中的挑战更困难并且远远没有解决。
包括
包括了
像
相当于
最大化捕获他们联合分布的训练目标
以最大化捕获他们联合分布为训练目标
没有
则没有
深度学习方法在语言模型、机器翻译和自然语言处理方面非常成功,因为使用符号{cite?}和词嵌入{cite?}。
由于使用了符号\citep{Rumelhart86b-small}和词嵌入\citep{Deerwester90,BenDucVin01-small},深度学习方法在语言模型、机器翻译和自然语言处理方面非常成功。
行动
动作
行动
动作
操作
动作
直到学习者选择正确的决定之前都无法学习正确的决定。
在学习者选择正确的决定之前,该系统都无法学习正确的决定。
:
。
挑选
选择
少于监督的情况(其中真实标签yyy是可直接访问的)
比有监督的情况(其中真实标签$y$是可直接访问的)少
无论这是否是正确的类别都只能获得反馈
然后只能获得该类别正确与否的反馈
专用深度学习架构
专用的深度学习架构
赢得Netflix比赛方法
Netflix比赛方法的获胜方法中
Netflix奖(目的是仅基于大量匿名用户的之前评级预测电影的评级)的竞争中
Netflix奖的预测比赛中(目的是仅基于大量匿名用户的之前评级预测电影的评级)
丢失的条目
缺失条目
两个或三个
二维或三维
推广
泛化
这种关联问题像监督学习问题一样处理
这种关联问题可以视作监督学习问题来处理
使用
都使用了
如果展示了广告或向该用户推荐了该产品,推荐系统要么预测一些行为的概率(用户购买产品或该行为的一些代替)或预期增益(其可取决于产品的价值)。
推荐系统通过预测一些行为的概率(用户购买产品或该行为的一些代替)或预期增益(其可取决于产品的价值)来向用户展示广告或是推荐产品。
,
。
标准
基础的
建模词
对词建模
标志
为标志
在
在对
甚至
删去
具有相同含义的句子具有类似表示是有用的
学习具有相同含义的句子的表示是有用的
为图像生成标题
图像的标题生成
理想地
理想情况下
集成的领域
集成学习领域
避免每次计算时使用所有参数的模型是例外。
当然,避免每次计算时使用所有参数的模型则是一个例外。
随机选择负词,如使用启发式采样更可能被误解的词。
负词是被随机选取的,如使用启发式采样更可能被误解的词。
可能是昂贵的
的成本可能是很高的
,
;
项
项,
presoftmax
pre-softmax
应该
删去
加速神经语言模型训练的一种方式是避免明确计算所有词(未出现在下一位置)对梯度的贡献。
加速神经语言模型训练的一种方式是,避免明确计算所有未出现在下一位置的词对梯度的贡献。
计算所有|𝕋||T||\SetT|个词
计算所有$|\SetV|$个词
分支因子为|𝕋|‾‾‾√|T|\sqrt{|\SetT|}的树
分支因子为$\sqrt{|\SetV|}$的树
不值得努力
事倍功半
等等
等等。
无需
无需进行
激发
引发
模型
删去
。
。在
了
删去
同时
都有
这增加了表示该矩阵的高存储成本,以及乘以它的高计算成本。
这造成了表示该矩阵的高存储成本,以及与之相乘的高计算成本。
计算可能是昂贵的
计算成本是非常高的
用于
使用
不用
不仅仅
相对句子长度是指数多
句子长度的指数级别数量
神经语言模型在识别两个相似的词的基础上,而不丧失将每个词编码为彼此不同的能力。
神经语言模型能够识别两个相似的词,并且不丧失将每个词编码为彼此不同的能力。
为了提高
此处应分段
使用
使用了
边缘概率
边际概率
演示
将演示
最后的字符
最后一个字符
这使得它很容易计算概率
这使得下式可以简单地通过查找两个存储的概率来计算
简单地查找两个存储的概率就能计算。
删去。(并入上一句)
因为最大似然估计可以简单地统计每个可能的nnn-gram在训练集中出现的次数。
因为最大似然估计可以通过简单地统计每个可能的$n$-gram在训练集中出现的次数来获得。
语言模型
\emph{语言模型}
通常必须使用
通常我们必须使用
,
、
学习者必须用一种人类语言读取句子并用另一种人类语言发出等同的句子
学习者需要读取一种人类语言的句子,并另一种人类语言发出等同的句子
自然语言处理中的应用如机器翻译
自然语言处理包含了诸如机器翻译等的应用
会违背
可能不遵循
让简单的程序能够高效明确地解析,计算机程序通常读取和发出特殊化的语言
为了让简单的程序能够高效明确地解析,计算机程序读取与发出的语言通常是经过特殊化的
使用
能够使用
对时间
在时域上
时间和频率维度
在时域与频域上
卷积网络
删去空格
在这之前的长达十年左右的时间基于GMM-HMM的系统的传统技术已经停滞不前了,尽管数据集的规模是随时间增长的
在这之前的长达十年左右的时间内,尽管数据集的规模随时间增长,然而基于GMM-HMM的系统的传统技术已经停滞不前了
,
。
移动手机端
手机端
是
则是
可以
这可以
关于基本电话通道识别的一个扩展工作包括了
对于基本的电话识别工作流程的一个扩展工作是
结果
结果是
这个结果优于或者是可比于基于HMM的结果
这个结果优于或者说是可以与基于HMM的结果相比
在那段时间
当时
音素子状态
子音素状态
自动语音识别
\emph{自动语音识别}
应用于网络隐藏层的非线性作用
作为一种非线性函数应用于网络隐藏层
元素层面的
删去
元素层面
元素级
标准化
归一化
这是使用
使用的则是
局部对比度归一化
\emph{局部对比度归一化}
sphering
\emph{sphering}
白化
\emph{白化}
主要分量
主成分
给了一个说明
对此有所说明
包括除以像素数量
包括除以像素数量这一步
允许
能够
因此
从而
补丁
小区域
有趣
感兴趣的
引入
引入一个
没有
因为没有
可以为许多任务安全移除的最明显的变化源之一是图像中的对比度量。
在许多任务中,对比度是能够安全移除的最为明显的变化源之一。
对比度仅指图像中亮像素和暗像素之间差异的大小。
简单地说,对比度指的是图像中亮像素和暗像素之间差异的大小。
%应该变得不变。
为啥注释也出来了
减少数据中的变化量可以减少泛化误差并减小拟合训练集所需模型的大小。
减少数据中的变化量既能够减少泛化误差,也能够减小拟合训练集所需模型的大小。
目的
其目的
生成模型相同输入的许多不同版本
将同一输入的许多不同版本传给模型
相关想法
类似想法
测试时间
测试时
预处理训练集
一种只对训练集做预处理
池区域
池化区域
许多应用领域需要复杂精细的预处理,因为原始输入以许多深度学习架构难以表示的形式出现。
由于原始输入往往以深度学习架构难以表示的形式出现,许多应用领域需要复杂精细的预处理。
修复图像中的缺陷或从图像中移除对象这样的计算机视觉任务
即修复图像中的缺陷或从图像中移除对象这样的计算机视觉任务
因为生成模型已经是深度学习研究的指导原则,还有大量使用深度模型的图像合成工作
由于生成模型已经是深度学习研究的指导原则,因此还有大量图像合成工作使用了深度模型
一直以来
一直以来,
并且乘法
而乘法已经
,
。
动态定点表示
而动态定点表示
限制为固定范围
被限制在了一个固定范围之内
可以用于
能够
数字
对与数字的
因此,在针对诸如手机等低功率设备开发新的硬件设计时,研究专用硬件是进一步推动其发展的方式,旨在用于深度学习的一般公众应用(例如,具有语音、计算机视觉或自然语言功能的设施)。
因此,在针对诸如手机等低功率设备开发新的硬件设计,并且想要用于深度学习的一般公众应用(例如,具有语音、计算机视觉或自然语言功能的设施)等时,研究专用硬件能够进一步推动其发展。
这与20世纪90年代的情况(前面的神经网络时代)非常不同,其中神经网络的硬件实现(从开始到芯片的可用性可能需要两年)不能跟上快速进展和价格低廉的通用CPU的脚步
这与20世纪90年代的情况(上一个神经网络时代)的不同之处在于,神经网络的硬件实现(从开始到芯片可用可能需要两年)跟不上快速进展和价格低廉的通用CPU的脚步
建立后
在制造完成后
可编程门阵列
现场可编程门阵列
基于作为电压或电流连续值的物理实现
基于以电压或电流表示连续值的物理实现
在实时系统中,样本必须连续处理,对工作负载进行分区可能会导致负载均衡问题
然而在实时系统中,样本必须连续处理,对工作负载进行分区可能会导致负载均衡问题
可以将样本分成组缓解这些问题,这些组都采用相同的分支并且同时处理这些样本组
可以通过将样本分成组,并且都采用相同的分支并且同时处理这些样本组的方式来缓解这些问题
GPU的实现也将是缓慢的,因为缺乏级联的内存操作以及warp成员使用不同分支时需要串行化操作
此外,由于缺乏级联的内存操作以及warp成员使用不同分支时需要串行化操作,GPU的实现也会很慢
CPU实现将是缓慢的
CPU实现会十分缓慢
在
将在
因此不能收获动态结构所有可能的计算益处
因而不能完全得到动态结构所带来的计算益处
一种形式的隐藏单元的条件Dropout
一种隐藏单元的条件Dropout的形式
的时间
删去
% 刚性~
删去
专家混合体
\emph{专家混合体}
选通器
\emph{选通器}
,
:
级联的早期成员
级联前部的成员
硬性的注意机制
硬注意机制
,许多窗口会被检查,如果它们不包含面部则被拒绝。
。分类器检查许多的窗口,如果这些窗口内不包含面部则拒绝。
实现
实现了
系统作为一个整体显然具有高容量,因为它的一些个体成员是高容量的
由于系统中的一些个体成员具有高容量,因此系统作为一个整体显然也具有高容量
最终的
最后一个
第一
第一个
高容量、运行昂贵
高容量、运行成本高
当目标是检测罕见对象(或事件)的是否存在
当目标是检测罕见对象(或事件)是否存在时
级联
\emph{级联}
条件计算
\emph{条件计算}
动态结构
\emph{动态结构}
最好能够从一个类似于真实的测试数据(后面会用到)的分布中
最好从类似于之后将提供给模型的真实测试数据的分布中
在
使其能够在
我们就可以生成一个拥有了无穷多训练样本的训练集,只需将fff作用于任意生成的xx\Vx。
我们就可以通过将$f$应用与随机采样点$x$,来生成有无穷多训练样本的训练集
仅仅训练样本数是有限的,所以网络的规模是受限的。
只是因为训练样本数是有限的,所以模型的规模才变得必要。
学习某个函数f(x)f(x)f(\Vx)时
能够学习到某个函数$f(x)$
是昂贵的
的成本很高
原始模型的规模很大,且主要为了防止过拟合时
当原始模型由于为了防止过拟合而变得很大时
只需更少内存和运行时间来存储和评估
从而使得用来存储于评估所需的内存与运行时间更少
模型压缩
\emph{模型压缩}
然后发布到移动手机上
然后将其部署到手机上
研究者们
开发者们
相对较廉价的硬件系统中
使用相对廉价的硬件系统
关注于
仍专注于
被
并被
基本方法
基本策略
依然是
保留了
参数服务器
\emph{参数服务器}
这种方法减少了每一个梯度下降所获得的平均提升,因为一些核把其他的核所更新的参数(写)覆盖了。
由于一些核把其他的核所更新的参数覆盖了,因此这种方法减少了每一步梯度下降所获得的平均提升。
了
删去 了
了
删去 了
,然后
并
来说
看
步
步骤
通常我们得到反馈少于线性的反馈
通常我们得到的回报并不会线性增长
训练中,数据并行在某种程度上说更难
在训练过程中,数据并行某种程度上来说更加困难
学习
训练
模型并行
\emph{模型并行}
同样的
同样地
数据并行
\emph{数据并行}
因此
因此,
机器学习库Pylearn2 {cite?}通过调用Theano {cite?}和cuda-convnet {cite?}提供的高性能操作,囊括了许多机器学习算法
机器学习库Pylearn2 {cite?}将其所有的机器学习算法都通过调用Theano {cite?}和cuda-convnet {cite?}所提供的高性能操作来指定。
构建
组织好
上的分支操作是很困难的
难以执行分支操作
。
,那么内存操作就易于级联。
对应
访问
相对一个很强的浮点运算系统3倍的加速
3倍于一个强浮点运算系统的速度
很好
良好
接纳了
所采用
语言
模型
使用显卡训练神经网络的热度在通用GPU发布以后开始爆炸性增长
在通用GPU发布以后,使用显卡训练神经网络的热度开始爆炸性地增长
加速训练监督卷积网络
加速监督卷积网络的训练
将计算的输出值作为像素值写入缓冲区,GPU可以用于科学计算
只要将计算的输出值作为像素值写入缓冲区,GPU就可以用于科学计算
并不涉及分支运算和复杂的控制指令
通常并不涉及大量的分支运算与复杂的控制指令
GPU极高的内存带宽成为了一个显著的优势
GPU一个显著的优势是其极高的内存带宽