Skip to content

Ilya Sutskever推荐的关键 AI 研究论文

ikaijua edited this page Nov 17, 2024 · 1 revision

2023年5月,一份据称由OpenAI联合创始人Ilya Sutskever整理的机器学习研究文章清单在网络流传,被认为涵盖了AI领域90%的重要内容。据说这份论文清单是 2020 年 OpenAI 的联合创始人、首席科学家 Ilya Sutskever 给另一位计算机领域大神,id Software 联合创始人,致力于转行 AGI 的 John Carmack 编写的。该清单最初包含27项资料,涵盖1993-2020年间的论文、博客文章、课程和书籍章节。

1. Transformer 入门学习

https://nlp.seas.harvard.edu/annotated-transformer

原始论文提出了Transformer架构,这是一种用于自然语言处理任务的全新神经网络架构。Transformer架构使用了注意力机制来代替传统的递归神经网络(RNN),在机器翻译、文本摘要、问答等任务上取得了最先进的结果。

The Annotated Transformer 对原始论文进行了重排,并在整个过程中添加了评论和注释,使读者更容易理解Transformer架构的细节。此外,该论文还提供了TensorFlow和PyTorch的代码实现,方便读者动手实践。对于任何想要学习Transformer架构或将其应用于自然语言处理任务的人来说,这都是必不可少的阅读材料。

2. 复杂动力学第一定律

https://scottaaronson.blog/?p=762 The First Law of Complexodynamics

这篇文章是关于如何使用计算复杂性理论来解释物理系统中复杂性随时间变化的问题,提出了一些有趣的观点和猜想,并鼓励读者进一步探索这个问题。

Aaronson提出了一个可能的答案,他认为可以通过Kolmogorov复杂性的概念来解释这个问题。回顾了熵的第二定律,即封闭系统的熵随时间增加,直到达到最大值。指出,尽管孤立的物理系统熵单调递增,但它们的复杂性或有趣性并不单调递增

3. 循环神经网络的超凡有效性

https://karpathy.github.io/2015/05/21/rnn-effectiveness

The Unreasonable Effectiveness of Recurrent Neural Networks

RNN 是一种强大的工具,可以用于解决各种 NLP 任务。他认为 RNN 的成功得益于其能够捕捉长期依赖关系、学习非线性关系以及泛化能力强等特点。

4. 理解长短期记忆网络(LSTM)

https://colah.github.io/posts/2015-08-Understanding-LSTMs Understanding LSTM Networks

Olah 总结道,LSTM 是一种功能强大的神经网络架构,可以用于解决各种 NLP 任务。他认为 LSTM 的成功得益于其能够捕捉长期依赖关系、克服梯度消失问题以及灵活的学习能力等特点。

5. 递归神经网络正则化

https://arxiv.org/pdf/1409.2329

递归神经网络正则化(Recurrent Neural Network Regularization)是指针对递归神经网络(RNN)模型采取的一系列措施,以防止模型过拟合。RNN 模型由于其能够捕捉序列数据中的长期依赖关系,在自然语言处理 (NLP) 等领域取得了巨大成功。然而,RNN 模型也容易出现过拟合问题,即模型在训练数据集上表现良好,但在测试数据集上表现不佳。

6. 通过最小化权重描述长度来保持神经网络简单

https://www.cs.toronto.edu/~hinton/absps/colt93.pdf

dropout 是神经网络中最成功的一种正则化方法,但它并不适用于循环神经网络 (RNN) 和 LSTM 网络。本论文将展示如何正确地在 LSTM 网络中应用 dropout 技术,并证明这种方法可以显著降低各种任务的过拟合问题。这些任务包括语言建模、语音识别、图像描述生成以及机器翻译。

7. 指针网络

https://arxiv.org/pdf/1506.03134

我们提出了一种新的神经网络架构,用于学习输出序列的条件概率,该序列的元素是离散标记,分别对应输入序列中的位置。现有方法,例如序列到序列学习和神经图灵机,并不能简单地解决这类问题,因为输出序列中每一步的目标类别数量都取决于输入序列的长度(该长度是可变的)。可变长度序列排序和各种组合优化问题都属于这一类问题。 我们的模型利用最近提出的神经注意力机制解决了可变大小输出字典的问题。与之前基于注意力的方法不同,我们的方法不是在解码器的每一步使用注意力将编码器的隐藏单元混合成上下文向量,而是使用注意力作为指针从输入序列中选择一个元素作为输出。我们称这种架构为指针网络 (Ptr-Net)。 我们展示了仅使用训练样例,指针网络就能学习用于解决三个具有挑战性的几何问题的大致解:寻找平面凸包、计算 Delaunay 三角剖分和平面旅行商问题。指针网络不仅优于具有输入注意力的序列到序列模型,还允许我们推广到可变大小的输出字典。我们展示了学习到的模型可以泛化到超出其训练最大长度的序列。我们希望我们在这些任务上取得的结果将鼓励人们更广泛地探索神经学习用于解决离散问题。

8. ImageNet 图像分类与深度卷积神经网络

https://proceedings.neurips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

训练了一个大型深度卷积神经网络,将 ImageNet LSVRC-2010 竞赛中包含的 120 万张高清图像分类为 1000 个不同的类别。在测试数据集上,我们取得了 37.5% 的 top-1 错误率和 17.0% 的 top-5 错误率,这远优于之前的所有最佳水平。 该神经网络具有 6000 万个参数和 65 万个神经元,由五个卷积层(部分后面接有池化层)和三个全连接层组成,最终输出层使用 1000 路径的 softmax 分类器。为了加快训练速度,我们使用了非饱和神经元以及非常高效的 GPU 卷积运算实现。为了减少全连接层中的过拟合,我们采用了一种名为“dropout” 的最新正则化方法,并证明其非常有效。我们还将该模型的改进版本参加了 ILSVRC-2012 竞赛,并以 15.3% 的 top-5 错误率赢得比赛,相比之下排名第二的参赛作品的错误率为 26.2%。

9. 基于序列到序列的集合排序方法:重要性在于顺序

https://arxiv.org/pdf/1511.06391 随着循环神经网络的重新流行,序列在监督学习中扮演着越来越重要的角色。许多复杂任务都需要对观察序列进行映射,而序列到序列 (seq2seq) 框架正好能利用链式法则有效地表示序列的联合概率,从而很好地适用于这类任务。然而,在许多情况下,可变大小的输入和/或输出却不能自然地表示为序列。例如,对于一个排序数字的任务,该如何将数字集合输入模型?类似地,当任务是模拟随机变量未知的联合概率时,我们又该如何组织输出? 本文首先通过各种例子论证了在学习底层模型时,组织输入和/或输出数据的顺序会显著影响结果。然后,我们讨论了 seq2seq 框架的扩展,该扩展超越了序列的限制,并能以一种原则性的方式处理输入集合。此外,我们还提出了一种损失函数,该函数通过在训练过程中搜索可能的顺序来解决输出集缺乏结构的问题。我们展示了关于排序以及修改 seq2seq 框架的实证证据,这些修改应用于基准语言建模和解析任务,以及两个人工任务 - 数字排序和估计未知图形模型的联合概率。

10. GPipe:轻松扩展微批管道并行

https://arxiv.org/pdf/1811.06965

扩展深度神经网络容量是一种改善多种机器学习任务模型质量的有效方法。然而,在许多情况下,增加模型容量到超出单个加速器内存限制的水平需要研发特殊的算法或基础设施。这些解决方案通常针对特定架构,难以应用于其他任务。 为了满足高效且任务无关的模型并行化需求,我们引入了一种名为 GPipe 的流水线并行库。GPipe 可以将任何可表示为层序列的网络进行扩展。通过在独立的加速器上流水并行处理不同层的子序列,GPipe 可以灵活地高效扩展各种不同的网络到超大规模。此外,GPipe 利用了一种新颖的批处理分割流水线算法,当模型划分到多个加速器上时,可以实现几乎线性的加速比。

11. 深度残差学习:用于图像识别

https://arxiv.org/pdf/1512.03385

随着神经网络层数的增加,训练难度也随之增大。本文提出了一种深度残差学习框架,旨在简化远比之前使用的网络更深的网络的训练过程。 我们通过将层改造成学习残差函数(相对于层输入)的方式来替代学习非参考函数的方法。我们提供了大量的实证证据,表明这些残差网络更容易优化,并且可以从极大地增加深度中获益。 在 ImageNet 数据集上,我们评估了具有高达 152 层的残差网络 - 比 VGG 网络 [41] 深 8 倍,但复杂性更低。这些残差网络的集成体在 ImageNet 测试集上实现了 3.57% 的错误率。这一结果赢得了 ILSVRC 2015 分类任务的冠军。我们还展示了在 CIFAR-10 数据集上使用 100 层和 1000 层的分析结果。 表示深度对于许多视觉识别任务至关重要。仅仅由于我们极深的表示,我们在 COCO 对象检测数据集上获得了 28% 的相对改进。深度残差网络是我们提交给 ILSVRC 和 COCO 2015 竞赛的基础,我们还赢得了 ImageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割任务的冠军。

12. 多尺度上下文聚合:扩张卷积及其应用

https://arxiv.org/pdf/1511.07122.pdf

提出了一种基于扩张卷积的多尺度上下文聚合模块,用于提高密集预测网络的性能。扩张卷积是一种有效的卷积操作,它可以捕获多尺度上下文信息,而无需增加网络的深度或参数数量。

13. 神经量子化学

https://arxiv.org/pdf/1704.01212

神经量子化学 (NQC) 是一种利用机器学习方法来研究量子化学的领域。它结合了神经网络的强大表达能力和量子力学的准确性,为探索分子结构、性质和反应提供了新的工具。

14. 注意力就是你需要的一切:Transformer架构简介

https://arxiv.org/pdf/1706.03762

本文提出了一种称为 Transformer 的新颖架构,用于机器翻译和其他自然语言处理任务。Transformer 基于注意力机制,而不是循环神经网络 (RNN),可以并行处理输入序列的所有位置,从而提高训练速度和翻译质量。

15. 神经机器翻译:联合学习对齐和翻译

https://arxiv.org/pdf/1409.0473

本文提出了一种新的神经机器翻译模型,该模型通过联合学习对齐和翻译来提高翻译质量。传统的机器翻译模型通常是分两步进行的:首先学习输入句子和输出句子之间的对齐关系,然后根据对齐关系翻译输入句子。本文提出的模型则将对齐和翻译过程融合在一起,并使用注意力机制来捕获句子之间的长距离依赖关系。

16. 深度残差网络中的恒等映射

https://arxiv.org/pdf/1603.05027

深度残差网络(ResNet)是近年来计算机视觉领域最受欢迎的架构之一。ResNet 的一个关键特征是使用了恒等映射(identity mapping)。恒等映射将输入直接传递到输出,并在网络中添加了一个额外的残差分支。

17. 关系推理的简单神经网络模块:Relation Network简介

https://arxiv.org/pdf/1706.01427

Relation Network (RN) 是一种简单有效的神经网络模块,用于关系推理任务。RN 可以直接嵌入到现有的神经网络架构中,并显著提高模型在各种关系推理任务上的性能,例如视觉问答 (VQA) 和知识图谱补全。

18. 变分有损自编码器

https://arxiv.org/pdf/1611.02731

变分有损自编码器(Variational Lossy Autoencoder,VAE)是一种用于降维和数据生成的神经网络架构。VAE 在传统自编码器的基础上引入了一些改进,使其能够更好地学习数据的潜在表示,并生成更逼真、更具多样性的样本。

19. 关系递归神经网络

https://arxiv.org/pdf/1806.01822

关系递归神经网络(Relational Recurrent Neural Networks,RRNNs)是一种用于关系推理的神经网络架构。RRNNs 可以直接嵌入到现有的递归神经网络(RNN)架构中,并显著提高模型在各种关系推理任务上的性能,例如视觉问答 (VQA) 和知识图谱补全。

20. 封闭系统复杂度兴衰的量化:咖啡自动售货机

https://arxiv.org/pdf/1405.6903

这篇论文的标题是“量化封闭系统中复杂度的兴衰:咖啡自动机”。它讨论了与熵(混乱度)不同的一个性质,即封闭系统中的“复杂性”或“有趣性”。

我们直观地认为,随着封闭系统接近平衡态,其复杂性会先升高后降低。例如,宇宙在“大爆炸”之前缺乏复杂结构,在黑洞蒸发和粒子散开之后也将如此。

21. 神经图灵机

https://arxiv.org/pdf/1410.5401

神经图灵机(Neural Turing Machine,NTM)是一种将递归神经网络与外部存储器相结合的模型,由 Alex Graves 等人在 2014 年提出。NTM 旨在解决传统递归神经网络在处理长期依赖问题时的局限性,并为机器学习模型提供更强大的记忆和推理能力。

22. Deep Speech 2:英语和普通话的端到端语音识别

https://arxiv.org/pdf/1512.02595

Deep Speech 2 是由百度研究院于 2015 年发布的端到端语音识别系统。它使用深度学习技术,直接将语音信号映射成文本,无需人工设计的特征提取步骤。Deep Speech 2 在英语和普通话语音识别任务上取得了当时最先进的结果,并被广泛应用于语音识别领域的各种应用。

23. 神经语言模型的缩放定律

https://arxiv.org/pdf/2001.08361

神经语言模型 (NLM) 是近年来自然语言处理领域发展最快的技术之一。NLM 通过学习大量文本数据,能够生成类似人类的文本、翻译语言、编写不同类型的创意内容以及以信息丰富的方式回答问题。

随着 NLM 模型参数数量的不断增加,训练和运行 NLM 的成本也变得越来越高。因此,研究 NLM 的缩放定律 (Scaling Laws) 变得越来越重要。缩放定律可以帮助我们理解 NLM 的性能与模型大小、训练数据量、计算资源等因素之间的关系,并为 NLM 的训练和部署提供指导。

24. 最小描述长度原则教程简介

https://arxiv.org/pdf/math/0406077

最小描述长度原则 (MDL) 是一种由 Jorma Rissanen 于 1978 年提出的数据压缩和模型选择方法。MDL 原则的基本思想是,在给定一组数据的情况下,能够用最短的编码来描述该数据的模型是最好的模型。

25. 机器超级智能论文

https://www.vetta.org/documents/Machine_Super_Intelligence.pdf

机器超级智能(Superintelligence)是指超越人类智能的假设性人工智能(AI)代理。该术语由Vernor Vinge于1993年首次提出。 许多专家认为,机器超级智能的出现是可行的,甚至可能在不久的将来实现。如果发生这种情况,机器超级智能可能会对人类社会产生深远的影响。一些专家认为,机器超级智能可能对人类构成威胁,而另一些人则认为它可能对人类有益。

26. 柯尔莫哥洛夫复杂度(Kolmogorov Complexity)

https://www.lirmm.fr/~ashen/kolmbook-eng-scan.pdf

柯尔莫哥洛夫复杂度(Kolmogorov Complexity),又称最小描述长度(Minimum Description Length,MDL),是衡量一个对象(例如字符串、数据或程序)所需最短编码长度的度量。简单来说,柯尔莫哥洛夫复杂度代表了一个对象的信息含量。

27. CS231n:卷积神经网络视觉识别

https://cs231n.github.io

CS231n是斯坦福大学计算机科学系开设的一门深度学习课程,由李飞飞教授主讲。该课程以深度学习为基础,介绍了卷积神经网络(CNN)在视觉识别领域的应用。