Login
From:
spaces.ac.cn
(Uncensored)
subscribe
线性Attention的探索:Attention必须有个Softmax吗? - 科学空间|Scientific Spaces
https://spaces.ac.cn/archives/7546
links
backlinks
Roast topics
Find topics
Find it!
众所周知,尽管基于Attention机制的Transformer类模型有着良好的并行性能,但它的空间和时间复杂度都是$\mathcal{O}(n^2)$级别的,$n$是序列长度,所以当$n$比较...