「巨型 AI 模型时代即将终结」,当这句话最新出自 OpenAI CEO Sam Altman 之口时,业界哗然。
毕竟在过去一段时间中,因为 GPT-4 以及 ChatGPT 会话式 AI 的到来,引发 AIGC、大模型的狂欢潮,众人有目共睹。这也引得多家科技大厂、创业公司纷纷入局 AI 赛道,推出各种大模型应用与产品。
(资料图片仅供参考)
现如今,在上周 MIT 视频发言中,Sam Altman 警告称:诞生 ChatGPT 的研究策略已经结束。目前尚不清楚未来会在哪些方面出现进展。
这番言论的背后究竟意味着什么?
Sam Altman: 我们正处于巨型模型时代的尽头
近年来,OpenAI 通过采用现有的机器学习算法并将其扩大到以前无法想象的规模,在与语言相关的人工智能方面取得了一系列令人印象深刻的进展。
今年最新推出的 GPT-4 可以视为是 OpenAI 乃至全行业中最为先进的模型之一,据 Wired 报道,GPT-4 可能是使用数万亿个文本单词和数千个强大的计算机芯片训练而成,这一过程耗资超过 1 亿美元。
在这一点上,微软此前在官方博客上也曾分享过 内幕 :
微软将上万颗英伟达 A100 芯片连接到一起,并重新设计了服务架构,这使得 OpenAI 能够训练出越来越强大的 AI 模型,同时,也帮助自家解锁了 Bing、Edge 等工具的 AI 功能。 这个项目已经花费微软数亿美元。
不过,当下 Sam Altman 表示,AI 技术进一步的进展将不会来自于将模型做大。"我认为我们正处于 巨型模型 时代的尽头,最终我们将以其他方式使它们变得更好。"
事实上, 自从 OpenAI 在 11 月推出 ChatGPT 以来,微软已经使用底层技术为其必应搜索引擎添加了一个聊天机器人,Google 也推出了一个名为 Bard 的大模型,以及百度推出了「 文心一言 」、阿里内测了「 通义千问 」等等。
与此同时, 包括 Anthropic、AI21、Cohere 和 Character.AI 在内的众多资金雄厚的初创公司,正在投入巨大的资源来构建越来越大的算法,希望努力追赶上 OpenAI 的技术。
Sam Altman 的最新声明表明,GPT-4 可能是 OpenAI 将模型做大并向其提供更多数据的战略中出现的最后一个重大进展。
在最新分享中,他也并没有说什么样的研究策略或技术可能取代它。不过,在此前 GPT-4 技术细节 的论文中,OpenAI 研究团队倒是说过,根据预估,扩大模型规模的回报将会越来越少。Sam Altman 也曾表示,OpenAI 能够建造多少个数据中心以及建造这些中心的速度也有物理限制。
扩大模型的规模并不能永远奏效
其实回看 GPT 系列模型,参数真的是一个比一个大:
2019 年发布的 GPT-2,有 15 亿参数;
2020 年发布的 GPT-3,有高达 1750 亿个参数;
GPT-3.5 模型的参数量为 2000 亿;
在考虑到竞争格局和大型模型的安全影响之际,OpenAI 宣布不再对外公开最新的 GPT-4 模型参数,不过,通过上文提及到的训练 GPT-4 花费超过 1 亿美元的金额,也不难猜测出其规模之庞大了。
不过,模型并非参数越大越好,也并非一味地关注模型参数就是一件好事。 对于这样的观点,其实也有不少专家持以赞同的态度。
据 Wired 报道,曾在谷歌从事人工智能工作的 Cohere 公司联合创始人 Nick Frosst 表示,Altman 的扩大规模并不能永远奏效的观点听起来是对的。他也认为,Transformer(GPT-4 及其竞争对手的核心机器学习模型类型)的进展超出了扩展范围。在 Nick Frosst 看来,「有很多方法可以让 Transformer 变得更好、更有用,而且很多方法不涉及向模型添加参数。新的人工智能模型设计或架构,以及基于人类反馈的进一步微调,是许多研究人员已经在探索的有希望的方向。」
其实,针对模型参数规模,此前百度创始人、董事长兼首席执行官 李彦宏 在接受 CSDN 采访时也说过,千亿量级是一个门槛,然而一直讨论大模型参数规模意义不大:
仅仅三年前,我们所说的大模型是参数亿量级的大模型, 今天当我们说大模型的时候,大家大多数理解参数是千亿量级的大模型,这种进化和技术迭代的速度其实超过了像摩尔定律这样大家熟悉的演化速度, 这还是很神奇的。
百度通用大模型肯定是千亿量级的。因为这是一个门槛,如果不过千亿是不会出现智能涌现,这是过去实验都证明过的。但是具体是多少参数,公布意义不大,过了千亿之后,不是万亿量级参数一定比千亿效果要好。GPT-4 出来之前,我看好多媒体猜测是万亿量级参数,十万亿量级,方向就错了。大模型不是靠提升参数规模,是在其他方面进行提升,不用太纠结。
贾扬清早期在接受 CSDN 采访时,也曾表示:
以 2012 年参加 ImageNet 大规模视觉识别挑战赛中大获成功的卷积神经网络 AlexNet 为例,该模型的总参数数量为 6000 万。它的崛起让不少 AI 从业人员产生一个比较简单的想法,即模型越大越深或模型参数越多,效果就越好。
但是到了 2014 年,基于 Inception 模块的深度神经网络模型 GoogLeNet 在具备 600 万模型参数基础上也能达到同样甚至更好的效果。因此,在超大模型领域,很多人为了追求推广效果,营造出参数规模越大模拟效果越好的现象。随着时间推移,当用户对模型规模审美疲劳之后,会发现模型的结构以及模型的可解释性等细节问题变得更加重要。
不过,这一现象也是科研领域技术迭代很典型的发展过程,即爆火的技术吸引无数人蜂拥而至,而当大家发现此方向过于片面之后又会重回原来的位置。
或也是深谙此理,Altman 在上周也回应称,OpenAI 目前没有, 而且在一段时间内也不会有 开发 GPT-5 的计划。最后, 对于追求参数量的大模型即将接近尾声,你怎么看?
参考链接:
https://www.wired.com/story/openai-ceo-sam-altman-the-age-of-giant-ai-models-is-already-over/
关键词: