Transformer架构的优势

显示全部楼层 · 迪迦奥特曼 版主 2023-10-31 14:48:11 发布在 *悬赏问答*

请教一个问题，Transformer原始论文里说：传统的Encoder-Decoder架构在训练过程中，下一个时刻的计算过程会依赖于上一个时刻的输出，
这种固有的属性限制了模型不能并行方式进行计算。所以提出了新的Transformer框架。我理解为像LSTM这种架构是不是已经能用到局部和全局的信息了，除了架构不一样，Transformer最大的优势在哪呢？

显示全部楼层 · *微信用户Lv.1* 显示全部楼层 *发表于 2023-10-31 15:00:19*

没错，LSTM 已经能用到局部和全局信息了，但它不能并行，它只能“一个一个地看”，transformer 的优势在于可以并行计算，它可以“同时看到”前面所有的信息，然后去预测下一个。

上述架构的不同，使得 transformer 具有了并行的优势；除此之外，LSTM 由于只能“一个一个地看”，会容易看后面忘前面。而 transformer 直接看所有的，可以自动学习到哪些内容要重点看，在一定距离内（比如2000 tokens）可以抓重点，不会看后面忘前面。

Ogimi AI - 人工智能工具

Almowafir - 人工智能工具

MixerBox Chat AI - 人工智能工具

Dumme - 人工智能工具

让一台普通PC欢快地跑起AIGC：Intel做到了！

相当于一个国家年用电量！4年后ChatGPT等AI耗电量将激增

[计算机视觉与图像处理] Transformer架构的优势

Transformer架构的优势

精彩评论1