Transformer 的优势与劣势

October 10, 2025 · View on GitHub

create date last modify

Keywords: transformers

References

Transformer升级之路: 8、长度外推性与位置鲁棒性 - 科学空间|Scientific Spaces
- "这里的che基准就是测试模型是否具有解析正则语言、上下文无关语言、以及上下文有关语言语义的能力吧, 也就是看神经模型能不能模拟有限状态机、下推自动机以及线性有界自动机. 对这三种语言的解析transformer相比rnn是有天然劣势的, 其原因就是注意力机制的无序性以及作为补偿的位置编码的次优性, 用这三种语言比较rnn和transformer的话后者确实吃亏的. 自然语言跟这三种语言明显不一样, 众多实践已经证明transformer的自然语言语义解析能力远大于rnn的. 这就带来一个问题: 用che基准衡量transformer长度外推能力所得到的优劣结论, 可以作为其对自然语言长度外推能力的有效参考吗?" —— 李子涵