一份不可多得的深度学习技巧指南

  • 时间:
  • 浏览:1
  • 来源:神彩IOS下载_彩神IOS下载官方

降低

What历史:后会仅仅将当前帧作为输入,可是将最后的帧与输入叠加,结合间隔为4的跳帧,这原因亲戚亲戚大伙儿三个 多多多多多含t、t-4、t-8及t-12的帧栈

网络压缩

RefPlaying Atari with Deep Reinforcement Learning, V. Mnih. 

What:对于t-分布领域嵌入算法(t-SNE),原作者建议对于大小为1000~1000之间的数据集,将困惑度设置为5和100之间[1],对于更大的数据集,相应的困惑度也会增。

RefAn Empirical Exploration of Recurrent Network Architectures, Rafal Jozefowicz et al.

RefAsynchronous Methods for Deep Reinforcement Learning, V. Mnih.

本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。

RefCS231n Convolutional Neural Networks for Visual Recognition.

What:使用跳跃式连接,直接将里边层连接到输入/输出层。

增加

Why其他好的解释在此

权值衰减系数

RefAccelerating Deep Network Training by Reducing Internal Covariate Shift, S. Ioffe and C. Szegedy.

RefDistilling the Knowledge in a Neural Network / Dark knowledge, G. Hinton et al.

调整优化

原因

What:大多数的宽度学习框架提供了三个 多多多多结合SoftMax和Log的函数但会 是在损失函数中计算SoftMax(在Tensorflow中是softmax_cross_entropy_with_logits,在Torch中是nn.LogSoftMax),哪些应该被更好地使用。

 Conchylicultor谷歌大脑参与者,专注于机器学习和软件开发

What:除了使用真值硬化目标外,同样要能使用软化目标(softmax输出)训练网络。

隐藏节点的增加会增加模型每次操作的时间和内存代价

Why:根据作者的观点,累似 简单的数据变换极大提升了LSTM的性能。

常言道,师傅领进门,修行靠当时人,相信什么都有有人其他是在别人的建议或带领下步入宽度学习累似 大坑,但会 师傅说宽度学习是个玄学,里边就靠当时人修行,瞬间就懵了对不对?但会 里边经过当时人不断实验积累相关经验,会有其他当时人的学习心得。本文可谓是宽度学习中的一份秘籍,帮助你少走其他弯路。在本文中,列举了其他常用的机器学习的训练技巧,目的是对哪些技巧进行简单的介绍并说明它们的工作原理。另外其他建议是斯坦福的CS231n课程及就让总结的网络特性

Ref

RefPrioritized Experience Replay, Tom Schaul et al.

What:批量标准化(Batch Normalization, BN),增添了三个 多多多多新的层,作者给出其他额外的技巧加速BN层的工作:

本文的目录如下:

增加

RefDeep Reinforcement Learning with Double Q-learning, V. Mnih.

Why:Log(SoftMax)在数值上不稳定是小概率,从而原因溢出等不良结果。另外某种流行的辦法 是在Log中加入其他小数防止不稳定。

What:权重若初始化合理要能提升性能并加快训练时延,偏置一般设置为0,对于权重而言,建议统一到一定区间内:

训练

更宽的核原因三个 多多多多更窄的输出维度

正则化

What异步:以不同的勘探政策一块儿训练多个代理,提升了鲁棒性

作者信息

Why:这允许网络有其他动量信息。

(本次要原作者没有写,以当时人的理解及相关补充这次要内容)

哪些状况下增加性能

Why:直觉是训练结束了了时,我就让信息在细胞之间传播,故不希望细胞忘记它的状况。

Why:在Atari游戏中工作得很好,但会 使用累似 技巧以合适4倍的时延加快了训练过程。

When:在其他CNN特性中或RNN中其他重要的层。

WhatParallel Advantage Actor Critic(PAAC):通过代理的经验以及使用三个 多多多多单一的同步更新模型使得错综复杂A3C算法成为但会 。

增加了大多数操作的时间和内存代价

Ref

网络特性

What:输入神经网络数据的好坏直接关系着网络训练结果,一般要还能不能 对数据进行预防止,常用的数据预防止辦法 有:

RefEfficient Parallel Methods for Deep Reinforcement Learning, Alfredo V. Clemente et al.

丢失更少的节点使得单元有更多的但会 去拟合训练集

What:对于seq2seq而言,为编码器和译码器网络使用不同的权值。

What:为LSTM增加窥视孔连接(连接就让输出到门的输入),根据作者的观点,累似 操作对长时间依赖关系有用。

Dropout的概率

三个 多多多多不合适的学习率会原因模型时延很低

参数

数据预防止

What:对于seq2seq而言,翻转输入序列的顺序,保持目标序列的完整篇 。

隐性的零填充

RefLearning Precise Timing with LSTM Recurrent Networks, Felix A. Gers et al.

文章为简译,更为完整篇 的内容,请查看原文

注意事项

降低

初始化

RefLearning to Generate Reviews and Discovering Sentiment, Ilya Sutskever et al.

RefSequence to Sequence Learning with Neural Networks, Ilya Sutskever et al.

更多宽度文章,请关注云计算频道:https://yq.aliyun.com/cloud

降低权值衰减系数释放模型的参数

增强学习

What在推理中,为了减少层数,通过批量归一化(BN)层要能吸收其它的权值。这不是 则在测试时批量归一化进行地是三个 多多多多简单的线性缩放。

Mail:etiennefg.pot@gmail.com

增加隐藏节点的数量提升了模型的表示能力

RefSequence to Sequence Learning with Neural Networks, Ilya Sutskever et al.

What:以无监督的辦法 训练三个 多多多多网络去预测文本的下三个 多多多多字符(char-RNN),该网络将学习某种能用来监督任务的表示(比如感情分析)。

RefGenerating Sequences With Recurrent Neural Networks, Alex Grave et al.

学习率

RNN的跳跃式连接例子

What:在RNN中使用Dropout,它仅仅应用于非循环连接[1],但会 其他最近的文章提出了其他技巧使得Dropout能应用于循环连接[2]

Why:使用默认的初始化,每个神经元会随着输入数量的增多而指在三个 多多多多方差,通过求根号缩放每个权重能确保神经元有近似的输出分布。

Ref:Some advice for tuning the hyperparameters. Ref: Goodfellow et al 2016 Book

RefMassive Exploration of Neural Machine Translation Architectures, Denny Britz, Anna Goldie et al.

Why:通过对数据进行预防止要能使得它们对模型的影响具有同样的尺度或其他的其他目的。

What:当训练时,强制更正译码器的输入;在测试时,使用先前的步骤,这使得训练在结束了了时非常高效,Samy等人提出了某种基于模型转变的改进辦法 [1]

在卷积前补零保持大尺寸的表示

What:对于RNN和seq2seq模型的其他技巧:

What经验回放:为了防止帧间的相关性,作为三个 多多多多代理后会更新每一帧,最好是在过渡时期的历史中采样其他样本,该思想累似 于有监督学习中训练前打乱数据集。

自然语言防止(NLP)

What跳帧:每隔4帧计算一次动作,而后会每帧都计算,对于其它帧,重复累似 动作

Linkedin:https://www.linkedin.com/in/potetienne/

What:学习率但会 是要还能不能 调参中最重要的三个 多多多多参数,某种策略是选取其他参数均有随机化学习率,并观察十几个 迭代后的测试误差。

增大核宽度提升模型的参数个数

卷积核的宽度

Why:作者的观点是通过减少神经网络的底端与里边之间的防止步骤使得训练宽度网络更加简单,并减轻梯度消失问題。

文章原标题《Deep Learning Tricks》,作者:Conchylicultor,译者:海棠,审阅:

Ref

What:对于长短期记忆网络(LSTM),遗忘偏置一般设置为1,要能加快训练过程。

隐藏节点的数量

Why:困惑度决定了每个点的高斯分布的方差大小,更小的困惑度将获得更多的集群,大的困惑度与之相反,不要 的困惑度没有任何意义;另外要还能不能 考虑的是画出的聚类要能 保留原有的规模,聚类之间的距离不一定代表原始的空间几何,不同的困惑度能在数据特性上提供互补的信息,每次运行后会产生不同的结果[2]

增加

Ref1.Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks, Samy Bengio et al.

猜你喜欢

2019年高级Java程序员面试题汇总

zookeeper是哪此?zookeeper全部都是哪此功能?zookeeper有哪此部署法子 ?zookeeper使用哪此协议?zookeeper的通知机制是怎样才能的?z

2020-01-24

我和男朋友在一起差不多二个月,他现在说对我没感觉,我真不知道怎么办,我很爱他!

追问追答本回答由提问者推荐通常说男女之间有有有另四个保鲜期,这名时间通常不超过120天。要是同居120天后,对对方仍然感到痴迷,那才是真爱。他连保鲜期就只坚持了一半。余下的一生

2020-01-24

为什么我男朋友以前很爱我,现在反而对我越来越冷淡了,开始一有空就去上网,以前都主动给我打电话,现在

应该是厌倦了吧,老婆一般在对你冷淡的之后,说明因为不爱你了。你对你你这一回答的评价是?为你推荐:下载百度知道APP,抢鲜体验可选中这样 或多个下面的关键词,搜索相关资料。也可

2020-01-24

好难过,前天给男朋友发了一条短信,跟他说我们分手吧,他到今天也没回我,我打电话问他,他说好,我好难

可选中另另另六个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个什么的问题。既然不爱从不挽留原先文章出轨马伊琍说过一段话:我不懂哪些地方叫挽留,我只知道,爱我的

2020-01-24

在Ubuntu环境部署Apache Spark集群

1)安装MongoDB3.0.4版 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 https://blog.csdn.net/chszs/a

2020-01-23