入坑大模型18个月的反思与贩私
作者:[Minogame]Link:[https://zhuanlan.zhihu.com/p/717402693]
前几天开完一个有高层参加的会议,会后组里的技术大佬直接就开喷“要规划没规划,整天只知道对着几个糊弄老板的榜使劲刷”。我下意识地赶紧去拉住他,低声对他讲“你声音太小了,老板听不到的,回头我领你去大厦的保安室,你用紧急通报的喇叭讲给全楼的人听”。他仿佛意识到了什么,便回我若要率十余众攻入保安室需要准备什么样的装备以及后勤物资,于是会议的内容就这么愉快的被遗忘了。
做回工位上,暮然回首发现自己已经入了这个坑一年半了,反思起来也收获确实有一些,例如Megatron/DS/TE/FA等等核心实现,例如强化学习的世界观以及其与最优化领域世界观的融合。但是如果要用一个短语来描述我当下的心境,那必然是“跳坑救不了世界”,弃坑从文也救不了,我们这个业界从底层的逻辑上就被运作成了这样:开源社区成就了一批天命人,天命人自发地凝结成草台班子,草台班子又逐渐被开源社区淘汰。而这个循环过程中,这些本该会被淘汰的班子却会试图通过闭源与商业化立起牌坊,这就形成了我们这个业界遍地是坑的奇观。
如果给“坑”这个描述做一个明确定义,那么大致可以讲成“同质化、模式化、低效率、低创新”的竞争系统,颇有当下低端芯片、商业城区、成人教育、新能源汽车、供应链金融这些领域的感觉。只不过大模型比这些事情多了一层窗户纸——黑盒性质,换句话说他不是被设计出来的,而是一种对自然的探索发现,而且又有着极高的资金门槛,所以对一般公众而言,其有着仿佛大型强子对撞机探索宇宙基本原理一般的隔阂感。然而大语言模型本身又具有极强的人文性,类似于经济学,这便又给了草台班子极大的容错率。
我很早以前就察觉,当下基于qkv attention + next token prediction + scaling的路径几乎已经快走到了尽头,并不是说scaling不能继续发挥作用,而是说scaling带来的收益已经远超出对其的投入。而且我的一个暴论是,scale让大模型更像大模型,丰富且平庸
,这就是之所以你会感觉到一个回答是大模型生成的原因。虽然反过来讲,丰富且平庸的回答并非毫无意义,因为它至少可以被用来做为创作的原材料。但是,于智能本身而言这种性质毫无意义,更不要提草台班子们打着要做智能的旗号最后只做出了一堆丰富且平庸的产品。
当然如果说上面这条路死了,或者有些更悲观的观点说联结主义死了,大模型也不是不能继续往下发展,因为显然除了创作类的需求,在提升生产力的过程中我们也有“理解复杂指令并精确输出”的需求。在我的脑海中,这种需求会促进“联结符号主义”的发展,类似于alpha proof中formalizer network、lean与solver network三者之间的协作,而这便是接下来几年大模型发展最大的一个契机。或许草莓跟猎户座也是类似的玩意,但是只可惜这些都是闭源的,草台班子骨子里是不太敢真的去碰这些东西的,因为他们内心中很清楚什么成就了他们。
所以你们看我黑了这么久草台班子,那么我也给草台班子做一个定性:一套低配的体制圈子。其低配体现在以下三个方面:制度不成熟、更加的人治;神权(开源社区)的影响力更大;王国之间来去比较自由、对人的行为缺乏约束。这里面的诸多问题恕我无法展开来讲,一来太招黑,二来也会冲到塔。我唯一能讲的给小朋友们的建议就是不要把自己活成高瀚文,或者尽量一开始就不要跳这个坑,如果你的理想真的是诗、智能与远方。另外其实我觉得国内做开源的几家都挺好的,比如seek(不是软文,因为他们嫌我年龄大直接挂了我的简历),主要原因是一来他们背靠金融系,有自己特定的存在价值,不需要为钱发愁;二来里面真的有些不错的傻孩子在里面为了梦想而奋斗,技术氛围很好。
事到如今,恍惚间感觉自己仿佛被焊死在零式里面的生体智能,最终不知道会以什么方式陪着大模型这个业界殉葬。希望明天会发生一些好事情吧。