返回顶部

[计算机视觉与图像处理] Transformer架构的优势

[复制链接]
迪迦奥特曼Lv.7 显示全部楼层 发表于 2023-10-31 14:48:11 |阅读模式 打印 上一主题 下一主题
10
未解决

Transformer架构的优势

609 1
请教一个问题,Transformer原始论文里说:传统的Encoder-Decoder架构在训练过程中,下一个时刻的计算过程会依赖于上一个时刻的输出,
这种固有的属性限制了模型不能并行方式进行计算。所以提出了新的Transformer框架。我理解为像LSTM这种架构是不是已经能用到局部和全局的信息了,除了架构不一样,Transformer最大的优势在哪呢?

AIHIA梦工厂,共建AI人脉圈,共享AI时代美好生活!
回复

使用道具 举报

精彩评论1

微信用户Lv.1 显示全部楼层 发表于 2023-10-31 15:00:19
没错,LSTM 已经能用到局部和全局信息了,但它不能并行,它只能“一个一个地看”,transformer 的优势在于可以并行计算,它可以“同时看到”前面所有的信息,然后去预测下一个。

上述架构的不同,使得 transformer 具有了并行的优势;除此之外,LSTM 由于只能“一个一个地看”,会容易看后面忘前面。而 transformer 直接看所有的,可以自动学习到哪些内容要重点看,在一定距离内(比如2000 tokens)可以抓重点,不会看后面忘前面。
AIHIA梦工厂,共建AI人脉圈,共享AI时代美好生活!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

AIHIA梦工厂旨在建立涵盖广泛人工智能行业,包括AI芯片、AI工业应用、AI电商、AI自动驾驶、AI智慧城市、智慧农业等人工智能应用领域。梦工厂为每位AI人提供技术交流、需求对接、行业资源、招聘求职、人脉拓展等多个方面交流学习平台促进人工智能的发展和应用。
  • 官方手机版

  • 联盟公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2023, AIHIA梦工厂
  • 苏ICP备2023025400号-1 | 苏公网安备32021402002407 | 电信增值许可证:苏B2-20231396 | 无锡腾云驾数技术服务有限公司 QQ