倘若人工智能写高考作文不行，那做其他题呢……

219mze · 发表于 2024-8-18 19:52:59

写在前面

本文重点是经过测试答题，分析大语言模型日前在做题尤其是做语文题方面的表现。千万不要试图挑战考试纪律，靠自己走出人生的每一步才是坚实有力的。

正如文中所说到的：“伴侣们千万不要放弃学习，寄期盼于以后一切用AI。保持学习，你聪明的大脑带给你的惊喜和报答才是最大的！”

照片源自：作者与AI对话的网页截图

以上便是某AI献给参加2023年高考的莘莘学子们的祝福，你感受到它对你满满的爱与期待了吗？

高考要考察的行业和能力非常全面，大部分人都有相较之下的短板，笔者以前就由于缺乏与高考语文现代文阅读出题人的“共鸣”，没法取得高分。

近来，从事脑科学科研的笔者产生了一个想法：倘若让类似GPT-4这般强大的人工智能（Artificial Intelligence, AI）大语言模型（Large Language Model, LLM）去答语文高考题，它表现怎样呢？

繁花似锦的梦想大学。照片源自：图像生成类人工智能模型Midjourney

01

压力为何给到了大语言模型？

为何是大语言模型才有较强的做题能力呢？为什么以前研发的自然语言处理（Natural Language Processing, NLP）

的其他语言模型就没这种能力？

一种说法是，大模型具备了涌现能力（emergent ability），指的是一种模型在训练过程中，自动地学习到有些高级的、繁杂的功能或行径，而这些功能或行径并无被直接编码或指定。涌现能力是近期AI取得突破性发展最重要的核心技术，它使大模型在处理新的、未知的任务时表现更加出色，这是由于它能够自适应地学习到新的功能或行径，而不必须重新训练或修改模型。

02

人类为何聪明、适应性强呢？

有一种假说便是涌现。这种假说指的是：大脑中神经元数一旦突破某个详细的数目，大脑的包含规律思考能力在内的各类功能就能提升一个档次。这便是量变诱发质变的最佳例子。因此呢当大语言模型训练的参数量和喂它的文本数据持续增长后，某天AI就“悟了”，从此语言能力就有一次爆发式的跃升。于是此刻AI写出来的作文，不仔细甄别的话，和普通高中生写出来的作文难分手足。

大模型的涌现现象。照片源自：参考文献[1]涌现之后，大语言模型就具备了多模态的思维链路，能够构建一个关于语言和道理的高维内在暗示，从而经过中间过程的自然语言推理，来完成最后的输出。简单来讲，便是它会简单的推理了。光看开头GPT-4的祝福，其实你很难辨别它是AI写的还是人类写的。虽然它还没具备真正的认识或思维能力，但它的确运用了类似于人的思维推理过程来衔接上下文的语言。

GPT-4和之前很火的初代ChatGPT同样，都是大语言模型，都是基于预训练变换器（Generative Pre-trained Transformer, GPT）的架构。倘若将一个多过程的问题分解为能够单独处理的中间过程，还会进一步提高挑语言模型的表达推理能力。

大模型思维链能力的显现。照片源自：参考文献[2]好了，前面铺垫了这么多大语言模型的优秀之处，接下来是骡子是马就要拉出来遛遛了。那咱们就用GPT-4来代替大语言模型出战，瞧瞧它能否在高考语文中替笔者一雪前耻！

去吧，GPT-4，开启你的AI做题家征程!照片源自：《假面骑士build》

03

答题起始！

本文会让AI把2022年全国各省市的高考语文卷都做一遍，一共8套，分别是全国甲卷、全国乙卷、新高考I卷、新高考II卷、北京卷、天津卷、浙江卷和上海卷，而后统计它的最后成绩。（由于OpenAI训练大语言模型的文本资料全是2021年9月以前的，因此呢2022年的试卷针对它来讲是全新未开封的。）

照片源自：作者与AI对话的网页截图

笔者是浙江人，因此以浙江卷为例了。第1大题是语言文字应用（20分），以下紫色框内是提问，灰色框内是它的回答：

正确答案：C

正确答案：2.B 3.B

正确答案：D

正确答案：①. 是由于它高于生活 ②. 实质上充满了哲理 ③. 而将生活哲学适当夸张和戏剧化

遗憾的是，前4题均为选取题，它只答对1题。

才做了4道题，咱们就不得不宣告它已然失去了冲击高分的可能。

错别字、拼音判断，词语、标点的运用，还有病句的甄别之类的题目，感觉AI都不是很善于，可见语文的基本功不是很扎实！不外第5题补写恰当语句确实做得挺不错的，和答案要表达的意思基本一致，况且下定义和简述题部分即便无给它必须的照片它亦能答出个因此然，可见它擅长的是对上下文的衔接和整体所要表达中心意思的概括总结，而对细枝末节不甚考究。

亦便是说，AI有一点语文素养，但不多。

按照浙江卷赋分规则，第1大题扣12分，得分：8/20。

接下来第二大题是现代文阅读（30分），将原文和问题都输入进去后，AI的回答如下：

正确答案：7.A 8.A 9. ①士人：兴趣从仕途转向膳食，促进膳食发展。②技术：中华膳食历史悠久，明清时代膳食技术得到大发展。③理论：长时间的实践经验发展成系统理论。

参考答案得分点：10. ①抑扬。②烘托。11. ①敦厚忠孝。②忍辱负重。③积极上进。④恪尽职守。12. ①舍小爱，取大爱。②舍私利，取大义。13. ①写出敦厚妈对美好生活向往的迫切。②塑造敦厚甘守荒凉、一心奉献的品格。

现代文阅读的选取题可悲得全错了，简答题亦并无从原文中进行归纳，按标准答案批改的话，10分的小阅读理解，它只拿了1分。

从大阅读理解亦能够看出，AI不会半点答题技巧，例如问艺术手法，正确答案是“抑扬”和“烘托”这两种手法，AI辛辛苦苦答了一堆都没扣到点子上，因此呢，只能得0分。

品格部分答出责任感和无私这两点，只能说对原文最表面的内容有必定理解，但缺乏深刻的认识，因此呢评估和艺术效果答得完全不对，能够说，AI面对较长的现代文，理解起来有些束手无策。

看来，AI只能分析文字本身表现的，没法深刻理解作者所要表达的内涵。

参照标准答案，它在这个大题中综合得分：4/30。

接下来第三大题是古代诗文阅读（40分）。你猜，它会答成什么样？

照片源自：2022年浙江卷高考语文文言文部分

正确答案：14.C 15.B 16.D

正确答案：17.AI断的完全正确 18.(1) 那样（人们）将认为我是狠心的人，并且是吝惜（赏赐）爵位俸禄啊。(2) 晓得（上面）哪些状况有能够给予大众（刑赏忠厚）的道理却不给予，这亦是存心损伤大众罢了。怎么样，你是不是没想到，AI的文言文居然不错！3个选取题里只错1个，断句全对！只是最后一题文言文翻译存在非常多问题，例如文中“忍”和“爱”分别应该是“狠心的”和“吝惜”的意思，AI翻译成为了“忍受”和“喜欢”，很显著有些望文生义，最后文言文处得分：13/20。

正确答案：19.①.勤政楼 ②.千秋节 20. 情感上王诗表达对昔日盛世怀念，杜诗抒发昔盛今衰之哀叹；写法上王诗运用细节描写，杜诗运用拟人手法。

填空题是AI的强项，基本全对，即便古诗词亦不例外，然则对古诗情感和写法上的理解和答题技巧还是差了点，得分：5/8。

正确答案：略

第三小题的文言文理解答得亦不错，和标准答案差了几个小点罢了，得分：4/6。

古诗文默写5选3就可，GPT（1）（2）句古诗词是完全正确的，因此呢能够算全对，得分：4/6。

不外“潮平两岸阔，无wind可依然”可太有“创意”了，不仅自己编造古诗词，还中英掺杂……

最后古代诗文阅读部分得分：26/40。

那样最后一部分便是作文了，总分60分，题目如下：

照片源自：2022年浙江卷高考语文作文部分

2022年作文材料挺接地气的，内容和实例都给的非常详细，就事论事正是AI所善于的，让大众来瞧瞧AI的800字小作文（想看AI怎么写2023年作文，可戳《人工智能写高考作文，到底能得多少分？咱们找来了高考阅卷老师……》）：

照片源自：作者与AI对话的网页截图

通篇看下来，感觉重复词句太多了，况且引用材料中的内容频率很高，不外规律和语句还算通顺，整体看来勉勉强强能够给个及格分36分。

这般，AI在语文浙江卷满分150分的状况下，最后得分为8+4+28+36=76分。

不及格！GPT只能微笑着打出“GG了”……

那样在挑战浙江卷不及格的状况下，它在试做其他的高考语文卷时，又会是何种表现呢？贯彻笔者自己一向严厉的批卷标准，并且在最后作文统一只给及格分的状况下，其他高考语文卷的最后成绩如下图汇总所示：

（照片源自：作者）

一共试做8套试卷，不及格率高达87.5%……

伴侣们千万不要放弃学习，寄期盼于以后一切用AI，此刻大语言模型人工智能其实针对文本的“理解”还远逊于你们，它只是善于“记忆”和“内容概括”罢了。

保持学习，你聪明的大脑带给你的惊喜和报答才是最大的！

04

为何AI语文考得不睬想？

它的其他科目怎么样？

在批卷的过程中，笔者发掘，像文言文断句、按照上下文填空一类的词，GPT答得还行，而在现代文阅读和故事里面谈到细节的情感和表达、写作技巧时，AI很难得分，而且现代文字越多，它在这个大题里的得分就越低，说明它很难抓住重点。

为何会这般呢？

由于GPT系列本身的基本架构Transformer就不善于处理长序列问题，尽管OpenAI的专家们运用了稀疏型Transformer来改进针对长文本的处理，降低计算繁杂度，但现代文字数长了，它还是没办法将重视力集中到关键的点上。尤其是散文，稀疏处理寓意着它看一段跳个两三段，通篇囫囵吞枣下来，可能连故事主线讲了什么都难以概括，更不要说理解作者包含在文中的深意了。

而文言文之因此答得比现代文好，是由于其本身篇幅较短,有效规避了Transformer不善于长序列处理的缺点，且文言文一个字一般能顶白话文两三个字，因此呢信息丰富度更高，这就使AI通篇都能保持对关键点的重视力机制，从而有着对整身体容的更好理解。

总之，AI无经过系统的语文学习，不认识考试答题技巧，缺少对中文拼音与语法的细节把握，更无对现代文和古诗词中作者所要表达情感和精神内涵的深刻感悟。

可能有人会好奇，倘若让GTP-4挑战高考的其他科目，结果会怎么样呢？笔者的测试结果是：英语最高（毕竟算它的母语）；数学和理学嘛，简单的题还能够，题目字数一长，它就起始胡编乱造了，分数都挺低的；化学，生物和文综类的结果通常般，和语文差别不大。

05

放松心情，高考必胜

今年的高考语文已落下帷幕，在这儿由衷地祝愿各位考生都能发挥应有的实力，考上理想的大学！

做为经历过高考的“先辈”，有句真心话送给大众，高考只是人生的一个周期性总结，分数的高低并不可和以后的成败画等号。人生是长跑，加强自己的认知，拓宽自己的眼界，把握时代的风向，做出正确的抉择，付出连续的奋斗，这才是最重要的。

最后，祝各位金榜题名，高考必胜！

高考必胜！照片源自：图像生成类人工智能模型Midjourney

参考文献：

[1] Jason Wei, Yi Tay, et al. Emergent Abilities of Large Language Models. arXiv:2206.07682.(2022)

[2] Jason Wei Xuezhi Wang, et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903v6.(2023)

[3]Sébastien Bubeck, Varun Chandrasekaran, et al. Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv:2303.12712. (2023)

出品：科普中国作者：钱昱中科院脑科学与智能技术卓越创新中心监制：中国科普博览

流星的美 · 发表于 2024-8-20 04:06:54

我们有着相似的经历，你的感受我深有体会。

1fy07h · 发表于 2024-9-30 17:27:00

你的话语如春风拂面，温暖了我的心房，真的很感谢。

4lqedz · 发表于 7 天前

大势所趋，用于讽刺一些制作目的就是为了跟风玩梗，博取眼球的作品。

1fy07h · 发表于 3 天前

回顾过去一年，是艰难的一年；展望未来，是辉煌的一年。

		自动登录	找回密码
密码			立即注册