近日,“AI 大神”、第四范式公司创始人、CEO 戴文渊做客格隆汇高端访谈《格隆博士会客厅》。戴文渊表示,人工智能的格局其实比想象中的更复杂,它里面主要有算法、算力、数据这几个对象。
算法就好像蒸汽机的一个构造图纸一样,知道了这个图纸,就能造出一个蒸汽机。就比如Transformer这个算法,一般看懂了这个论文,就可以构造一个Transformer算法的系统。
算力就是在双方同样拥有Transformer算法的情况下,显卡越强性能越强。它就像是计算机的智商数据,类比来说,就是你学过多少东西,哪怕智商高的人没学习也不行,可能智商低的人多努力最后也能达到。
在大家彼此的算法都差不多的情况下,其实信息差很快会被拉平,因此真正会拉开差距的其实还是算力和数据。所以如果最后要看AI的综合结果,需要同时看算力和数据两个方面。
往后或许不能说AI完全是一个指数级的上涨趋势,因为数据指数级增加也是会到头的。
目前数据量供应没有到天花板的时候,随着算力的指数级增加,这个模型的参数就是指数级往上涨。
一旦到数据见顶的时候,算力再指数级增加已经不能带来有效的参数的指数级增加了,所以那个时候可能瓶颈就会在数据上。
因此OpenAI也花了很多钱去投数据,他们投在数据上的花销,或许没有比算力少多少。
数据还有一个瓶颈来自于产生数据的对象。即便现在可以用模型产出新的数据给模型,但如果这些数据不经过人的挑选,它还是不会产生新的信息量。就比如,自己说的话再被自己听回去对自己本身不会有什么样的改进。
最后有效的数据能增加多少,取决于能调动多少人、多少力量去贡献数据。
中国市场是拥有最大的的数据样本,整个中国市场能找到很多的数据收集场景,并且规模可能是最大的,这就意味着能给到人工智能最多的学习材料。在AI领域,戴文渊认为,科技从业者都是为了这个科技进步在努力,自己作为科研工作者,目标是做一个业界领先的东西。这可能需要充分利用自己所处的环境,看看怎么在这个环境做最领先的事情。