本文分类:news发布日期:2025/11/3 17:21:43
打赏

相关文章

LongNet: Scaling Transformers to 1,000,000,000 Tokens

[arXiv23] 通过稀疏掩码降低自注意力计算复杂度LongNet: Scaling Transformers to 1,000,000,000 Tokens LongNet:通过类似线段树的形式构建自注意力的稀疏掩码,从而降低长序列下的计算复杂度 动机 本文旨在降低注意…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部