[科技知识] 2024年，深度学习，你心目中的top10算法是什么？

天天财汇购物网址万年历小说 | 三峰软件小游戏视频

TxT小说阅读器
↓小说语音阅读,小说下载↓

一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放,产品展示↓

首页淘股吧股票涨跌实时统计涨停板选股股票入门股票书籍股票问答分时图选股跌停板选股 K线图选股成交量选股 [平安银行]

股市论谈均线选股趋势线选股筹码理论波浪理论缠论 MACD指标 KDJ指标 BOLL指标 RSI指标炒股基础知识炒股故事

商业财经科技知识汽车百科工程技术自然科学家居生活设计艺术财经视频游戏--

天天财汇 -> 科技知识 -> 2024年，深度学习，你心目中的top10算法是什么？ -> 正文阅读

[科技知识]2024年，深度学习，你心目中的top10算法是什么？

[收藏本文] 【下载本文】

在数据挖掘领域中，2006 年 12 月 IEEE ICDM 选出top10算法：C4.5、k-Means、SVM、Apriori、EM、PageRa…

排名不分先后
Wide & Deep
Word2Vec
FastText
BERT
GPT
Transformer
AlexNet
YOLO
Diffusion
Whisper
1. Wide & Deep：
- 发明机构：Google
- 模型简要概括：Wide & Deep是一种机器学习模型，结合了线性模型（宽部分）和深度神经网络（深部分），用于处理大规模稀疏特征。
- 对行业影响：该模型为推荐系统和广告定向领域提供了新的方法，通过结合宽和深的优势，提高了模型的泛化能力和预测准确性。
2. Word2Vec：
- 发明人：Tomas Mikolov
- 模型简要概括：Word2Vec是一种用于生成词向量的模型，包括CBOW和Skip-gram两种实现方式，能够捕捉词汇间的语义和语法关系。
- 对行业影响：Word2Vec极大地推动了自然语言处理领域的进步，为后续的词嵌入技术和预训练语言模型奠定了基础。
3. FastText：
- 发明机构：Facebook AI Research (FAIR)
- 模型简要概括：FastText是一种文本表示模型，通过将词分解为字符n-grams来学习词汇表之外的字符组合，从而更好地处理罕见词和词缀信息。
- 对行业影响：FastText改善了罕见词和命名实体识别的性能，特别是在处理非英语语言时表现出色，对多语言NLP任务产生了积极影响。
4. BERT：
- 发明机构：Google AI Language
- 模型简要概括：BERT是基于Transformer的预训练语言表示模型，通过Masked Language Model和Next Sentence Prediction进行预训练，可以很好地理解上下文语义。
- 对行业影响：BERT的出现显著提高了各种自然语言处理任务的性能，如文本分类、命名实体识别、问答系统等，引领了NLP领域的研究趋势。
5. GPT：
- 发明机构：OpenAI
- 模型简要概括：GPT是Generative Pretrained Transformer的缩写，是一种基于Transformer的生成式预训练模型，能进行流畅的自然语言生成。
- 对行业影响：GPT系列模型（如GPT-3）在自然语言理解和生成方面取得了重大突破，广泛应用于聊天机器人、文本生成、机器翻译等任务。
6. Transformer：
- 发明机构：Google AI Language
- 模型简要概括：Transformer是一种基于自注意力机制的深度学习模型，摒弃了传统的循环和卷积结构，适用于处理序列数据。
- 对行业影响：Transformer架构彻底改变了自然语言处理和许多其他领域，成为后续许多先进模型（如BERT、GPT）的基础。
7. AlexNet：
- 发明人：Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton
- 模型简要概括：AlexNet是一种深度卷积神经网络，引入了ReLU激活函数、Dropout正则化和GPU训练，在ImageNet挑战赛中取得了突破性成果。
- 对行业影响：AlexNet的成功证明了深度学习的潜力，并引发了计算机视觉领域的深度学习革命，催生了后续许多著名模型（如VGGNet、ResNet）。
8. YOLO：
- 发明人：Joseph Redmon, Ali Farhadi
- 模型简要概括：YOLO（You Only Look Once）是一种实时目标检测系统，通过将图像划分为网格并进行单次预测来快速识别图像中的对象。
- 对行业影响：YOLO以其速度快和实时性能而闻名，极大地推动了目标检测技术在自动驾驶、视频监控等领域的应用。
9. Diffusion：
- 发明机构：OpenAI
- 模型简要概括：扩散模型是一种生成模型，通过逐渐添加噪声然后逐步去除噪声来生成数据样本，已在图像、音频和文本生成上取得显著效果。
- 对行业影响：扩散模型为生成模型提供了一种新的可能性，尤其是在图像和视频生成方面显示出强大的潜力，可能成为未来生成模型的主流技术之一。
10. Whisper：
- 发明机构：Google AI
- 模型简要概括：Whisper是一个语音到文本的转换系统，使用深度学习模型来识别和理解不同口音、语速和背景噪音下的语音内容。
- 对行业影响：Whisper改进了语音识别技术的准确性和可用性，对于无障碍技术、自动字幕生成和多语言语音识别等领域具有重要价值。

实际效果不一定是最好的，但背后的理论肯定是优美而深刻的，以下是我喜欢的 Top10
Word2vec
第一次接触机器学习时，看到书中的例子「中国-北京 = 法国-巴黎」，感觉整个人的认知都被颠覆了，从此踏进了机器学习的深坑。
Variational Autoencoder (VAE)
变分推断与自编码器的完美融合，与传统自编码器相比，通过随机采样的方式强迫特征网络学到的编码具备局部空间结构，这种范式对整个生成模型领域产生了深远的影响。
Generative Adversarial Network (GAN)
超脱于传统 Encoder-Decoder 结构，走出了一条全新的路，将 min-max 优化问题转化为生成器网络和判别器网络的对抗学习过程。
Graph Convolutional Network (GCN)
这里指的是广义的图卷积网络，一共包括 Spectral Networks and Locally Connected Networks on Graphs，Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering，Semi-Supervised Classification with Graph Convolutional Networks 三篇论文。
Spectral CNN 是开山之作，基于谱图理论首次将卷积推广到了图网络。
Chebyshev Spectral CNN 用拉普拉斯矩阵的Chebyshev多项式来代替滤波函数，极大减少了计算量。
GCN 则是集大成者，继续做减法，最终将图卷积浓缩成一个矩阵，优美到了极致。
可惜自此之后的 GNN 再无图卷积，只剩消息传递。
PointNet
用神经网络处理点云的开山之作，解决了点云数据的无序性和不规则性，从此三维视觉进入深度学习时代。
Neural Radiance Field (NeRF)
用神经网络学习空间中每一点的光场，然后用体渲染积分成图像，简直是暴力美学。
虽说三维视觉领域又多了个新方向，但搞这个掉头发很快。
Deep Q-Network (DQN)
毋庸置疑的经典，将 Q-learning 的天赋带到深度学习，产生了很好的化学反应，强得不可思议。
AlphaGo
蒙特卡洛树搜索+深度学习，击败柯洁算得上是 AI 领域的历史性时刻。
Proximal Policy Optimization (PPO)
Schulman 在 TRPO 中引入了信赖域来缓解学习不稳定的问题，但是计算开销太大，于是他又将其简化成了 PPO，显然他觉得这种改进工作贡献不大，甚至都没投论文，就挂在Arxiv上。
没想到的是 PPO 太好用了，简单稳定高效，搞应用的人手一个，甚至 ChatGPT 也用的 PPO。
Neural Tangent Kernel (NTK)
解释了神经网络（在无限宽的情况下）的训练为什么能稳定收敛，为什么收敛性与网络的初始化无关，而与网络的结构有关。
关于 NTK 的解释
我对 NTK 研究得并不深刻，这里只讲一下直观的理解：
在神经网络宽度趋于无穷的时候，其 NTK 在训练时是几乎不变的，也就是说，网络的梯度下降过程，可以近似成一个线性ODE 的演化过程。
这里直接使用结论，引用 Understanding the Neural Tangent Kernel 的博客

这里的 w0" role="presentation">w0w_0 是网络的初始权重， u(t)=y(t)−y¯" role="presentation">u(t)=y(t)?yˉu(t)=y(t)-\bar{y} 表示与ground truth的差异，可以看到无论初值 u(0)=y(w0)−y¯" role="presentation">u(0)=y(w0)?yˉu(0)=y(w_0)-\bar{y} 怎么取，都不会影响到 u(t)" role="presentation">u(t)u(t) 收敛到 0.
这里揭示了一些深刻的现象：
网络的初始化并不会影响收敛性由于NTK的稳定性，网络的训练过程也是稳定的
另外参考 Some Math behind Neural Tangent Kernel

即使神经网络严重过度参数化时，模型仍然能够学习，并且在网络参数几乎没有大变化的同时，loss 迅速收敛到零。

领域受限，只能选出自己喜欢的10个。
GAN, ResNet, Transformer，这三个放前几没得说，广为人知，又work，又通用又深邃，又美丽。
CV的：Diffusion(DDPM)，MVSSNet，LoRA。
Speech的：VITS，Conformer。
时间序列的：AnomalyTransformer。
强化学习的：PPO。

从过去往最近回忆
1. word2vec，开山之作没的说，后面的bert，gpt都有他的影子
2. resnet，何恺明yyds
3. transformer，虽然attention不是transformer最先提出的，但动态权重影响深远
4. BERT，transformer的encoder
5. GPT，transformer的decoder，也别是gpt3直接开启大模型时代
6. CLIP，跨模态的超神之作
7. MoCo，对比学习
8. stable diffusion，文生图
9. ViT
10. RWKV，线性大模型，复兴RNN

0 Word2Vec
1 ResNet
2 Transformer
3 CLIP
4 Expert Systems (GPT4)
5 Diffusion Model
6 Encoder->Decoder Structure
7 Reinforcement Learning (DDPO)
8 LSTM
9 Object Detector (R-CNN, Fast R-CNN, Faster R-CNN, YOLO)

站在2024年的今天，我心中的Top10的算法按时间顺序来说分别是 AlexNet、 Word2vec、GAN、ResNet、Transformer、BERT、GPT-3、CLIP、StableDiffusion、InstructGPT。
AlexNet：引发人工智能浪潮的 AlexNet，使人们见识到了深度学习算法模型对比传统机器学习算法的强势
Word2Vec: 开启NLP的一个新时代
GAN：利用两个不同神经网络相互博弈训练的算法，能够生成非常逼真的图片
ResNet：从这一天开始，神经网络在视觉分类任务上的效果超越了人类。这得益于 ResNet 中经典的残差连接
Transformer：Transformer 结构的优越性使得后续的论文都在其基础上做了改进，或者将原来的模型进行修补。只到今天，还没有出现能够正面击败这个结构的模型。
BERT：横扫了 11 项 NLP 任务，开启了大模型时代的序幕。从那一天开始，学术研究开始了拼显卡，拼财力的军备竞赛。
GPT-3：意味着大模型从「预训练-微调」的范式向「提示词学习」的范式进行转变。
CLIP：使用图像和文本进行训练的多模态模型，具有零样本学习的能力，可以从自然语言中有效的学习视觉信号，并应用到任何图像分类任务
StableDiffusion：是一种基于扩散过程的图像生成模型，能够在给定任何文本输入的情况下生成逼真的照片图像，使数十亿人能够在几秒钟内创作出令人惊叹的艺术作品
InstructGPT：ChatGPT的前身，引领了全民AI浪潮开启的时代。
特别详细的信息我放在了这篇文章中，欢迎大家去查看：
雨飞：AI 十二年，盘点年度论文，回看人工智能的荣誉之路
如果对你有帮助，可以点赞、收藏、关注一下，谢谢~

NLP：Transformer（等Seq2Seq算法），GPT4（Decoder-only天花板），Word2Vec（Skip-gram Embedding思想很妙），RLHF（对齐人类意图，大模型最重要的算法），MoE（提升大模型部署性能）
CV：ResNet（简单思想涨点一大步），MAE（超符合直觉的CV版BERT），Nerf（效果很好），Diffusion（打通文生图，flexible & tractable），Swin Transformer（拼图idea很妙）

0 AlexNet: 我觉得是卷积神经网络最具代表的工作；
1 ResNet: 至少不比之前差；
2 Transformer: Attention is all your need;
3 GAN：用模型打败模型；
4 LSTM：时间序列最广泛典型的网络，三个门的设计；
5 GPT: Decoder-Only，第一个大模型时代标志性网络；
6 BERT：Encoder-Only，你的模型会做阅读理解吗？
7 Diffusion：开启了文生图的时代；
8 YOLO: You Only Look Once;
9 Gemini: 最后一个给它吧，大力出奇迹，真正意义的多模态，而非双模态或者Agent，目前模型还在持续的迭代训练，未来可期；
有很多精巧的想法如LoRA, FastSpeech, FastText, Word2Vec, RLHF，甚至于VGG, VAE，U-Net这类典型网络本应该出现在前十，但排名带有一些主观色彩，期待未来五年能够让我这个主观色彩的榜单全部更换。

Transformer
Diffusion
GAN
Nerf
BEV
Gaussian splatting
Vit
Resnet

0 Auto Regression
1 Self Attention
2 ResNet
3 CNN
4 Reinforcement Learning
5 DDPM
6 Contrastive Learning
7 Lora
8 GCN
9 VAE
-—————————
排名不分先后

还写不出那么多，把脑子里有的排一排吧。
1.Transformer，转换器模型。有效的模拟了人类的神经元反应机制，大大改善了之前深度学习算法。Transformer架构通过引入注意力机制和认知反馈机制，解决了神经网络模型的参数规模限制，计算效率限制，为ChatGPT的出现奠定了最重要的基础。六年后的今天，当我们再谈论Transformer时，他已经是人工智能的经典框架，形成了一个大家族。Transfomer让 NLP 发生了关键的范式转移，2018年开始年初，基于Transformer的新模型ELMo、BERT、RoBERTa、XLNet、T5、ALBERT、GPT-3等，不断刷新自然语言处理领域任务的SotA（State of the Art）表现。

哆唻AI梦：AI英文系列——Transformer0 赞同 · 0 评论文章
2.GPT（Generative Pre-trained Transformer），生成式预训练转换模型。GPT能够在基础理论都来源于谷歌的情况下，通过大力出奇迹，获得了当前AI领先的位置。当然Google和Deepmind发布的BERT、T5、Gopher、PaLM、GaLM、Switch等大模型，百度发布了文心（ERNIE）系列也都很有竞争力。

哆唻AI梦：AI英文系列——ChatGPT0 赞同 · 0 评论文章
3.Hallucinate，机器幻觉。虽然不是人类主动创造的算法，但是影响力已经能与其他一众AI算法比肩，排到第三位吧，消除“人工智能幻觉”与发展人工智能模型同样意义重大。最近OpenAI科学家Andrej Karpathy说，大语言模型的全部工作恰恰就是制造幻觉，大模型就是「造梦机」。大模型能够跳出训练所使用的知识图谱和大数据集的知识图谱中，学习着去回答，因此存在「Hallucination幻觉问题」。最好的LLM算法是否可以通过切换到『工具使用模式』来『决定』何时做梦，何时不做梦？

哆唻AI梦：AI英文系列——Hallucinate0 赞同 · 0 评论文章
4.Stable Diffusion，扩散模型。让数十亿人在几秒钟内创建出令人赞叹的艺术品。在速度和质量方面，它都有所突破，这意味着它能在消费者级别的 GPU 上运行，使图像生成技术走向大众。

哆唻AI梦：AI英文系列——Stable Diffusion扩散模型0 赞同 · 0 评论文章
5. Midjourney，中道。使用的也是Diffusion扩散算法为基础，无论是照片、漫画、还是LOGO、素描，MJ产生的图像往往令人惊叹且富有创意，MJ确实针对一些艺术家做过专门的训练，因此在设计师中广泛应用。

哆唻AI梦：AI英文系列——Midjourney0 赞同 · 0 评论文章
6.Artificial Neuron Network，人工神经网络。神经网络算法是一项了不起的突破，但他的实现需要大量的计算资源和计算成本，在2012年神经网络论文发表10年后，有了充足的算力资源，海量的数据，增强式学习算法的加持，生成式AI，大语言模型才得以将人工智能推动到现在的水平。

哆唻AI梦：AI英文系列——ANN 人工神经网络算法0 赞同 · 0 评论文章
7. RLHF，增强式学习。成功模拟了生物进化过程，先设定基本算法和参数，然后给算法增加老师模拟打分环节，通过不断打分对gpt的输出进行反馈，自动调整自身参数，刺激GPT输出更好的答案，最终成为分数最高的学生，神功也就练成了。

哆唻AI梦：AI系列英文——RLHF增强式学习，语言学习的规律0 赞同 · 0 评论文章
我是「哆唻AI梦」，喜欢我的文章请点赞、关注、收藏。专注AI辅助学习，人工智能、英语学习资源。

其他大佬回答的差不多了，我说一个没人提到的：dreamer系列，强化学习model-base目前的sota，v3已经能实现Minecraft挖钻石了。
个人认为强化学习（特别是model-base）将会成为下一个ChatGPT那样现象级产品的关键

深度学习神经网络算法（Deep Learning Neural Networks）2. 卷积神经网络（Convolutional Neural Networks，CNN）3. 循环神经网络（Recurrent Neural Networks，RNN）4. 长短时记忆网络（Long Short-Term Memory，LSTM）5. 非监督学习算法（Unsupervised Learning Algorithms）6. 强化学习算法（Reinforcement Learning Algorithms）7. 生成对抗网络（Generative Adversarial Networks，GAN）8. 注意力机制（Attention Mechanism）9. 迁移学习算法（Transfer Learning Algorithms）10. 自监督学习算法（Self-supervised Learning Algorithms）

排名无先后但十分主观（偏概率视角）
Alexnet/CNN 滤波器平移
Transformer/RNN 自回归强效表征
Dropout NN特有的正则化，同时是从深度高斯过程抽样，贝叶斯又挖坑
word2vector NN与negative sampling的巧妙结合，对于表征学习和对比学习影响深远（或者是被其影响）
Residual Connection 大巧无功
VAE/diffusion NN与图模型的巧妙结合
GAN NN与博弈论
Deep RL 范围稍大，联结主义和行为主义在ML上的结合
LLM 范围更大，但确实目前来看AGI最有希望的方向（用自然语言作为通用符号），从某种意义上暗示人类真的是（概率）复读机
Pre-training + Fine-tuning 婴儿是否就是一个pretrained机器呢？

Transformer网络：Transformer模型已成为自然语言处理领域的主导技术。其关键创新在于自注意力（self-attention）机制，有效处理序列数据，极大提高了机器翻译、文本生成等任务的性能。BERT及其变体：BERT（Bidirectional Encoder Representations from Transformers）模型通过双向Transformer在大规模语料上预训练，实现了多个NLP任务的显著提升。其后续变体，如RoBERTa、GPT-3等，进一步拓展了模型的应用范围和性能。卷积神经网络（CNN）：虽然CNN的基本结构在1990年代就已提出，但近年来在图像识别、视频分析和复杂视觉任务中仍显示出强大的性能，尤其是在深层网络和残差网络的推动下。循环神经网络（RNN）及其变体：如LSTM（Long Short-Term Memory）和GRU（Gated Recurrent Unit），在处理时间序列数据，如语音识别和文本生成中仍然占有一席之地。生成对抗网络（GANs）：自2014年提出以来，GANs在图像生成、风格迁移、数据增强等领域取得了显著成果。Capsule Networks：尽管在实际应用中还不如CNN普遍，但Capsule Networks在处理图像中的空间层次关系方面显示了其独特优势。AlphaGo Zero及其相关算法：这些算法通过强化学习和深度学习相结合，在围棋、象棋等领域达到了超越人类的水平。图神经网络（GNNs）：GNNs在处理图结构数据方面显示出巨大潜力，应用于社交网络分析、知识图谱、药物发现等领域。AutoML和神经网络架构搜索（NAS）：它们自动化设计高效的神经网络架构，减少了手工设计的需要。Attention机制及其扩展：除了在Transformer中的应用，Attention机制也被广泛用于各种深度学习架构中，以提高模型对重要信息的敏感度。

只说CV相关的，其他了解不多
排名不分先后
resnet vitrepvgg重参数系列faster-rcnnyolodetrbevnerfganldm

这类话题可以多一点

ResNet：优雅，有效，鲁棒
Transformer：大规模、多/跨模态
CLIP：多模态神作，对齐语言和视觉。
GPT：AGI曙光
PPO：稳如老狗RL
MAE：视觉自监督预训练
BERT：文本自监督预训练
还有很多算法/思想已经潜移默化到了深度学习的框架中，比如随机梯度下降，BatchNorm之类的，可能一下子没想起来，但是绝对也是NB的

只选一个我选gan

Transformer 由 Google Brain 团队的 Ashish Vaswani 等人于2017年提出。这篇论文被视为深度学习自然语言处理领域的重要里程碑之一。论文介绍了 Transformer 模型的基本结构，引入了自注意力机制（Self-Attention）来捕捉输入序列中的长距离依赖关系。Transformer 模型的成功推动了自然语言处理领域的发展，成为许多应用中的基础模型，如机器翻译、文本生成等。哪个GPT底层不是这？(最后一句不一定对)
Attention Is All You Need?arxiv.org/abs/1706.03762

2. BERT 由 Google AI Language于2018年提出。BERT是基于Transformer的预训练语言表示模型，通过Masked Language Model和Next Sentence Prediction进行预训练，可以很好地理解上下文语义。显著提高了各种自然语言处理任务的性能，如文本分类、命名实体识别、问答系统等，引领了NLP领域的研究趋势。
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding?arxiv.org/abs/1810.04805

3. Wide&Deep Wide&Deep 是 Google 在 DLRS 2016年提出的模型一个线性模型与深度模型结合的产物。文章只有4页，思路也很简单。综合利用浅层模型的记忆能力和深层模型的泛化能力，实现单模型对推荐系统准确性和扩展性的兼顾。从此出现了各种模型塔？(最后一句不一定对)
https://arxiv.org/abs/1606.07792?arxiv.org/abs/1606.07792
4. YOLO 由 Joseph Redmon 和 Santosh Divvala 于2016年提出。YOLO 是一种实时目标检测算法，其特点是在单个前向传递中直接预测图像中所有边界框的类别和位置。这种设计使得 YOLO 在速度上非常高效，可以实现实时的目标检测。后续版本如 YOLOv2、YOLOv3 、YOLOv5 YOLOv8进一步改进了算法的性能。哪一个目标检测不知道YOLO？(最后一句不一定对)
https://arxiv.org/abs/1506.02640?arxiv.org/abs/1506.02640
5. ResNet 由 Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun于2016年提出。ResNet 提出了残差学习的概念，通过引入残差块（Residual Block）解决了深度神经网络训练过程中的梯度消失和梯度爆炸问题。这种结构允许在训练非常深的神经网络时取得显著的性能提升，同时更易于优化。ResNet 的设计影响了深度学习领域，并成为许多视觉任务中的基础模型。
Deep Residual Learning for Image Recognition?arxiv.org/abs/1512.03385

才疏学浅，只能给出TOP5，忽然发现距离这些模型提出已经过去很多年了，还请各位大佬见谅。

好问题，mark

resnet

[收藏本文] 【下载本文】

科技知识最新文章

百度为什么越来越垃圾了?

为什么程序员总是发现不了自己的Bug?

出现在抖音评论区里边的算命真不真？

你认为 C++ 最不应该存在的特性是什么？

为什么 Windows 的兼容性这么强大，到底用了

如何看待Nvidia禁止使用翻译工具将cuda运行

为何苹果搞了十年的汽车还是难产，小米很快

该不该和AI说谢谢?

为什么突破性的技术总是最先发生在西方？

加:2024-01-12 11:19:36 更:2024-01-12 11:31:28

股票涨跌实时统计涨停板选股分时图选股跌停板选股 K线图选股成交量选股均线选股趋势线选股筹码理论波浪理论缠论 MACD指标 KDJ指标 BOLL指标 RSI指标炒股基础知识炒股故事

网站联系: qq:121756557 email:121756557@qq.com 天天财汇