新年伊始,大模型的专题热度不减。2022年11月底,ChatGPT展现的惊人能力将大模型科研和应用热度推向高潮,人们激烈讨论着这个高级“物种”的推出寓意着什么,例如是不是会颠覆搜索引擎市场格局。踏入2023年,这不禁让咱们对GPT-4的颁布充满遐想,它会比ChatGPT更上一层楼吗?会有那些不同样的惊喜?
岁末年初之际,科技圈的年度盘点不堪枚举,关联技术预测倒是不多。本文作者Rob Toews颁布了2023年AI发展的十大预测,整体来看,大部分预测都离不开“大模型”这个重要词,详细分析亦有其道理。当然,其中的文生图、人形设备人等行业的发展亦举足轻重。2023,让咱们拭目以待。
作者|Rob Toews
翻译|杨婷、徐佳渝
1. 重磅事件:GPT-4将在年初颁布
GPT-4是OpenAI的新一代生成语言模型,它有着强大的功能,近期到处流传着它的信息。
GPT-4预计将在2023年年初颁布,相较于GPT-3和3.5,GPT-4的性能有着跳跃式的提高。尽管近期相关ChatGPT的讨论正在火热朝天地进行,但相比GPT-4,这只是前奏罢了,让咱们拭目以待!
GPT-4 会是什么样子的呢?与人们的直觉区别,咱们预测它不会比其前身GPT-3大太多。在今年早些时候发布的一篇有影响力的科研论文(https://arxiv.org/pdf/2203.15556.pdf)中,DeepMind科研人员叫作此刻的大型语言模型实质上比本来应该有的体积还要大。为了能在给定的有限计算预算中得到最佳模型性能,此刻的模型应该用更少的参数在更大的数据集上进行训练。亦便是说,训练数据比模型体积要紧。
当今大都数重点语言模型都是在约3000亿个token的数据语料库上训练的,例如说OpenAI的GPT-3(1750 亿个参数)、AI21 Labs的Jurassic(1780 亿个参数)和微软/英伟达的Megatron-Turing(5700 亿个参数)。
咱们预测,GPT-4的数据集要比上面说到的大一个数量级,亦便是说它可能在10万亿个token的数据集上进行训练。同期它的参数将比Megatron-Turing的要少。
据述,GPT-4有可能是多模态的,除文本生成之外,它还能够生成照片、视频以及其他数据类型的输入。这寓意着GPT-4能够像DALL-E同样按照输入的文本提示词(prompt)生成图像,或是能够输入视频而后经过文本的形式回答问题。
多模态GPT-4的颁布可能是一个重磅信息。然则它更可能和以前的GPT模型同样是纯文本模型,它在语言任务上的表现将重新定义SOTA。详细来讲GPT-4会是什么样的呢?那便是它在记忆(保存和参考前期对话信息的能力)和摘要(提取和精简大规模文本的能力)这两个语言行业的性能会有跨越式提高。
2. 训练大型语言模型将逐步起始耗尽数据
数据是新时代的石油这种说法早就已然是陈词滥调了,但这般说还不足以显示数据的要紧性:由于石油和数据都是有限的,都有消耗殆尽的一天,在AI行业,语言模型对数据的需求量最大,数据耗尽的压力亦更大。
正如前面说到的,DeepMind的Chinchilla work等科研已然显示,构建大型语言模型(LLM)最有效的方式不是把它们做得更大,而是在更加多的数据上对其进行训练。
然则世界上有多少语言数据呢?更准确地说有多少语言数据达到了能够用来训练语言模型的需求呢?实质上,此刻网络上大都数的文本数据并无达到需求,不可用来训练大型语言模型。
针对这个问题,咱们很难给出确切的答案,然则按照一个科研小组(https://arxiv.org/pdf/2211.04325.pdf)给出的数据,全世界高质量文本数据的总存量在4.6万亿到17.2万亿个token之间。这包含了世界上所有的书籍、科学论文、资讯文案、维基百科、公开代码以及网络上经过筛选的达标数据,例如网页、博客和社交媒介。近期的另一项科研数据(https://www.lesswrong.com/posts/6Fpv
|