人工智能

用意味着深度学习技术复现Lecun33年前手写数字识别论文

发布时间：2025-11-01

2 由此可见，我只能举例再现这些结果，却没法算是完全都一样。可悲的是，很确实永远不但会进行精确复现了，因为我指出有完整信息集从未被遗弃在了短时间的长河之此前。相反，我被迫应用于格外大的 MNIST 信息集（哈哈，我从没不想过我但会用“大”来形容它）来各种类型它，取其 28x28 位，通过双线性插系数将其变大到 16x16 像素，并随机地从之此前提取有效为数的培训集和解析集抽样。但我相信还有其他罪魁祸首。例如，这篇学术论文对举例来说初始化方案的揭示看一起极为抽象，我声称 PDF 文件之此前长期存在一些文档差错，例如，更正点“.”让“2.5”看一起像“2 5”，并且有确实（我不想是吧？）更正了平方根。例如，我们被告知举例来说初始系数就是指均匀的“2 4/F”之此前提取的，其之此前 F 是扇入，但我五人这肯定是（我五人的）指“2.4/sqrt（F）”，其之此前 sqrt 有助于保持负载的常规偏差。因特网的 H1 层和 H2 层之间的特定稀疏联接结构上也被忽略了，学术论文只是说它是“根据一个在这里不能被讨论的方案选取的”，所以我被迫在这里做出有一些有效的确实，比如应用于对应块稀疏结构上。学术论文还声称应用于了 tanh 非线性，但我不想这严格来说确实是可定义 ntanh（1）=1 的“常规化 tanh”，并确实加到了一个按数量变大的跳跃联接，这是在以此前很流行的操作新方法，以确保安全 tanh 平滑的尾部只能只能有一点反向。最后，本文应用于了“莱布尼茨演算法的一个特殊版本，它应用于了 Hessian 的于是以对角近百似系数”，但我只应用于了 SGD，因为它极其有用，格外何况根据本文，“人们指出有该演算法不能产生努力学习平均速度的巨大有利于提高”。坐上无忧无虑车“作弊”

这是我喜欢的部分。不想一下，相比于 1989，我们从未在预见日常生活了 33 年，这时的高度努力学习是一个极其受到好评的信息分析领域。依靠我们的许多现代明白和 33 年来的开发技术积聚，我们能在原有成果的基础上有利于提高多少？我在此之此前的结果是： eval: split train. loss 4.073383e-03. error 0.62%. misses: 45 eval: split test . loss 2.838382e-02. error 4.09%. misses: 82 首先我略述一下，我们于是以在做一个 10 一般而言的有用分类目标，但在以此前，这被建模成一个均方偏差（MSE）回归到目标 -1（负类）或 +1（于是以类）的目标，负载皮质同样也有着 tanh 非线性。所以我更正了负载层上的 tanh 以获取一般而言 logit，并在常规（多类）交叉总能量人员伤亡formula_之此前中介。这一改变极大地缓解了培训差错，在培训集上直接过粗略了，结果如下： eval: split train. loss 9.536698e-06. error 0.00%. misses: 0 eval: split test . loss 9.536698e-06. error 4.38%. misses: 87 我声称，如果负载层有着（饱和）tanh 非线性和 MSE 偏差，那么在举例来说初始化显然上不能格外加小心。其次，根据我的经验，一个经过微调的 SGD 可以很好地实习，但许多现代的 Adam 借助于内置（当然，努力学习率为 3e-4）却是总是作为一个薄弱的 baseline，却是不须要任何微调。因此，为了有利于提高我对借助于不能影响耐用性的期望，我选取了应用于努力学习率为 3e-4 的 AdamW，并在培训过程之此前逐步将其降至 1e-4，结果如下： eval: split train. loss 0.000000e+00. error 0.00%. misses: 0 eval: split test . loss 0.000000e+00. error 3.59%. misses: 72 这在 SGD 的基础上注意到了一个稍微缓解的结果，但我们还不能看看，通过默认匹配，培训过程之此前也显现出有来了一些举例来说变小，这有助于克服过度粗略的可能但会。由于无论如何显现出有来了严重的过度粗略，我随后介绍了一种有用的信息大幅有利于提高策略，将输出有图像水平或垂直行进最多 1 个像素。然而，由于这各种类型了信息集大小的有利于提高，我还不能将培训短时间段数数从 23 次有利于提高到 60 次（我从未解析过在完整增设之此前只不过地有利于提高通过次数并没法突出有缓解结果）： eval: split train. loss 8.780676e-04. error 1.70%. misses: 123 eval: split test . loss 8.780676e-04. error 2.19%. misses: 43 从解析差错之此前可以看出有，这很有为了让！信息大幅有利于提高是一个更为有用且极其常规的概念，用于克服过度粗略，但我在 1989 年的学术论文之此前未找到它，也许它是一个 1989 年后才有的创新（我五人的）。由于我们无论如何看一起过粗略，我在中间件之此前找到了另一个许多现代工具，Dropout。我在匹配最多的层（H 3）此前加了一个 0.25 的较强变小。因为 dropout 将诱导增设为零，所以将其与诱导适用范围为 [-1,1] 的 tanh 两人应用于未多大内涵，所以我也将所有非线性更换为格外有用的 ReLU 诱导formula_。因为 dropout 在培训之此前但会产生格外多的干扰，我们还不能培训格外长的短时间，有利于提高至最多 80 个培训短时间段，但结果却愈发极为喜人： eval: split train. loss 2.601336e-03. error 1.47%. misses: 106 eval: split test . loss 2.601336e-03. error 1.59%. misses: 32 这使得我们在解析集上的差错下降到了 32/2007！我解析了在原本的因特网之此前只能只能中介 tanh->relu 并未产生重大突破的现金流，所以这里的大部分改进都来自于有利于提高了 dropout。总之，如果我能无忧无虑漫游到 1989 年，我将并能下降分之一 60% 的差错率，使我们从大约 80 个差错下降到大约 30 个差错，解析集的整体而言差错率大约为 1.5%。这并不是完全都未代价的，因为我们还将培训短时间有利于提高了近百 4 倍，这将使 1989 年的培训短时间从 3 天有利于提高到近百 12 天。但推理平均速度不能受阻。剩下的解析失利抽样如下所示：

格外有利于

然而，在更换 MSE->Softmax，SGD->AdamW，加到信息大幅有利于提高，dropout，中介 tanh→relu 以后，我开始逐渐下降依赖触手可得的技能。我先此前了格外多的新方法（例如举例来说常规化），但未获得格外好的结果。我还先此前将 Visual Transformer（ViT）模组化为“micro-ViT”，北至南在匹配量和量度量上与之此前相一致，但不但会CAD convnet 的耐用性。当然，在过去的 33 年里，我们还信息分析出有了许多其他创新，但其之此前许多创新（例如，残差联接，层/批次常规化）只适用于格外大的数学新方法，并且更为多有助于平衡大现有借助于。在这一点上，有利于的现金流确实来自因特网现有的扩充，但这但会有利于提高解析的推断短时间。

用信息“作弊”

另一种有利于提高耐用性的新方法是扩充信息集的现有，尽管顺利完成信息标注须要一些效益。我们在在此之此前的 baseline（再次作为融解荐考）上解析结果是： eval: split train. loss 4.073383e-03. error 0.62%. misses: 45 eval: split test . loss 2.838382e-02. error 4.09%. misses: 82 根据我们所有的 MNIST 都可用的事实，我们可以有用地先此前将培训集扩充 7 倍（从 7291 到 50000 个示例）。让 baseline 培训 100 个短时间段，这从未表明只能只能有利于提高信息就能有利于提高耐用性： eval: split train. loss 1.305315e-02. error 2.03%. misses: 60 eval: split test . loss 1.943992e-02. error 2.74%. misses: 54 但有利于将其与当代知识的创新（如此前一节说明）结合在两人，将产生当今很好的体现： eval: split train. loss 3.238392e-04. error 1.07%. misses: 31 eval: split test . loss 3.238392e-04. error 1.25%. misses: 24 总而言之，在 1989 年有用地扩展信息集将是有利于提高控制系统耐用性的直接新方法，且不须要牺牲推理短时间。

阐释

让我们总结一下我们在 2022 年时，作为一名短时间漫游者实地调查 1989 年最精良的高度努力学习技术时努力努力学习到的：

首先，33 年来一个控制系统层面上未太大改变。我们仍在建立由皮质层组成的可微数据分析结构上，并通过交叉广泛传播和随机反向下降对其进行端到端借助于。所有的东西念过一起都极其熟悉，只是 1989 时它们的体量来得小。按照从此前的常规，1989 年的信息集就是一个“婴儿”：培训集只有 7291 个 16x16 的灰度图像。从此前的图像信息集有时候包涵数亿张来自因特网的高分辨率彩色图像（例如，谷歌有 JFT-300M，OpenAI CLIP 是在 400M 的信息集上培训的），但仍但会快速增长到几十亿。这分之一是先此前每幅图像大约一千倍的像素信息（384*384*3/（16*16））乘以十万倍的图像数（1e9/1e4），输出有的像素信息的差距大约为一亿倍。那时的数据分析也是一个“婴儿”：这个 1989 年的因特网有分之一 9760 个匹配、64 K 个个位和 1 K 个诱导系数。许多现代（图像）数据分析的现有有时候有几十亿个小匹配（1000000X）和 O（~1e12）个个位数（~1000000X），而自然语言数学新方法甚至可以远超数万亿级别的匹配量。最精良的分类内置花了 3 天短时间在实习站上培训，而如今在我的无风扇笔记本电脑上培训只需 90 秒（3000 倍完整提速），通过切换到全都试验性借助于并应用于 GPU，很确实能有利于获取 100 倍的提升。事实上，我并能根据许多现代的技术创新微调数学新方法，比如应用于信息大幅有利于提高，格外好的人员伤亡formula_和借助于内置，以将差错率降低 60%，同时保持信息集和数学新方法的解析短时间不变。只能通过增大信息集就可以获取适度的现金流。有利于的突出有现金流确实来自格外大的数学新方法，这将须要格外多的量度效益和额外的开发，以为了让在不断扩充的现有上平衡培训。系数得一提的是，如果我被传送到 1989 年，我事与愿违但会在未格外薄弱量度机的可能但会下，使数学新方法远超改进技能的限额。

论据这个练习的收获在短时间的点上保持不变。2022 年的高度努力学习意味着什么？2055 年的短时间漫游者但会如何看做当此前因特网的耐用性？

2055 年的数据分析在一个控制系统层面上与 2022 年的数据分析此前提相同，只是格外大。我们从此前的信息集和数学新方法看一起像个笑话。两者都在分之一上千亿倍大于当此前信息集和数学新方法。我们可以在个人电脑电子设备上用分之一一分钟的短时间来培训 2022 年最精良的数学新方法，这将成为一个有趣的周末项目。从此前的数学新方法并不是最优的，只要改变数学新方法的一些显然，人员伤亡formula_，信息大幅有利于提高或借助于内置，我们就可以将偏差减半。我们的信息集以致于，只能通过扩充信息集的现有就可以获取适度的现金流。如果不升级运算电子设备，并投资一些开发，以直接地培训如此现有的数学新方法，就不确实取得有利于的现金流。

但我不想说的最重要的趋势是，在某些目标目标（如十六进制识别）上从头开始培训一个数据分析的整个过程由于极为精细化而很快愈发过时，特别是随着 GPT 等基础数学新方法的显现出有来。这些基础数学新方法只由少数有着大量量度资源的部门来培训，并且更为多数应用是通过轻量级的微调因特网，快速重新部署工程，信息清洗，数学新方法蒸馏，用专用的推理因特网来充分依靠的。我指出有，我们不该期待这一趋势愈发蓬勃，而且也从未确实如此。在最温和的推断之此前，你根本不能不想培训任何数据分析。在 2055 年，你将要求一个千亿大小的数据分析超薄弱脑通过用英语讲（或思考）来指派一些目标。如果你的要求所需模糊不清，它但会很乐意指派的。当然，你也可以自己培训数据分析……但你还有什么培训的应当呢？

本文转载自其他该网站，不值得一提的是健康界论点和看法。如有素材和图片的著作权不能容忍，请及时联系我们（邮箱：guikequan@hmkx.cn）

。

湘潭治疗皮肤病医院排名
南京白癜风医院哪家好
郑州白癜风专科医院哪家好

标签：技术深度数字论文

上一篇：研究发现：衣康酸可作为新冠肺炎潜在治疗法靶点

下一篇：新冠检测表达方式的转债，都有谁？