拿出龙老师的Transformer课程回放,又把《Attention is All You Need》重读了一遍。上学期学过,这次读出来的东西完全不一样。mark一些精髓:
龙老师说,Attention建模的是"社会关系",FFN是每个token的"自我修行"。 人是社会关系的总和,Token也是。一个词的含义不在于它自己,在于它和周围所有词之间的张力。但只被环境定义,会被环境污染。FFN是让它重新回到自身的过程。 出世,再入世。这个平衡从设计之初就刻在里面了——太贴切了。
我之前整天转的是CNN那套逻辑,习惯在局部特征里死磕,以为把细节搞透了就是搞透了全局。 老师说:科学的路径是先把问题搞复杂,再求极致的简单。 原来我一直在做反方向的事。
还有一个细节。 CNN每过一层形状都不一样,我曾经光搞清楚维度变换就花了大半天。Transformer从头到尾是 n×d,不让你把注意力耗在这里,工程友好,替你挡掉不值得费心的事。
Transformer 计算复杂度高? 能用计算解决的事,那都不叫事。给了你计算还解不出来,那才叫事。
And,多头注意力是一种非常伟大且神奇的想法。它让模型能够像我们阅读时一样,同时从多个维度(比如语法、词性、逻辑)去审视文本。
每一次看都有新的收获~
希望自己能把之前看过的资料,都整理出来,形成体系。
#酸奶糖的魔法笔记 #清华大学 #读研 #人工智能 #大模型 #深度学习