×

碾压 角色扮演 人类 考试 GPT

GPT-4来了!考试碾压人类90%“做题家”,会认梗图,还会角色扮演

jnlyseo998998 jnlyseo998998 发表于2023-04-06 13:03:03 浏览14 评论0

抢沙发发表评论

美国当地时间3月14日,OpenAI官网发布了GPT-4,一石激起千层浪。

比起此前上亿人争相试用的ChatGPT(依靠GPT-3.5模型),GPT-4在日常对话表现中并没有太大革新性的进步。但作为一个“多模态”模型,GPT-4不仅适用更多语种,而且在语言文本之外新增了强大的识图功能。

在对话中,GPT-4比ChatGPT更有创造性和推理能力,不仅可以创作诗歌、帮你安排工作日程,还在模拟的标准化考试中碾压绝大多数人类考生。令人“细思极恐”的是,和以前人们印象中“不近人情”的AI相比,GPT-4在图片和文字领域都更“善解人意”,甚至能扮演不同的人格和用户对话。

也许在并不遥远的未来,一个考试中碾压人类“做题家”、模仿“霸道总裁”口吻和员工对话,并能精准解读表情包背后小情绪的强大AI即将诞生。至于这对人类来讲是福是祸,也许就是个见仁见智的问题了。

会创作诗词,还能押上韵

ChatGPT的记忆长度大约是8000个单词,折合四到五页书。GPT-4的最大记忆约6.4万个单词,折合近50页文字,因此对话具有更强的准确度和上下连贯性。

与ChatGPT,GPT-4在文本对话中最大的进步在于具备了一定的文学创作能力,能根据要求创造出不同文风的歌词、诗篇甚至短句。更夸张的是,它甚至能押上韵脚。OpenAI官网展示了一段另类押韵的炫技文本。

根据指令,GPT-4用26个单词写成一句话概括“灰姑娘”的童话故事。令人震撼的是,这26个单词的首字母恰好是从A到Z的排序。

可识别图片,还能get到搞笑的梗

和单纯文本对话的ChatGPT相比,GPT-4最突出的地方在于可以接受图片输入,它会处理这些图像以查找相关信息。GPT-4不仅能简单识别图片要素并进行描述,甚至具备读懂梗图的能力。

OpenAI提供了一个经典示例,输入一张超大的图片,模型能解读出这张图片搞笑的点在哪里:

展开全文

图片显示了一个“Lightning Cable”适配器的包装,总共包含三个部分。

图1:一部智能手机,其充电端口插着一个VGA接口(大的蓝色15针接口,通常用于电脑显示器)。

图2:“Lightning Cable”适配器的包装上有一张VGA接口的图片。

图3:VGA连接器的特写,末端是一个小的Lightning连接器(用于为iPhone和其他苹果设备充电)。

这张图片的笑点来自将一个巨大、过时的VGA连接器插入一个小体积、现代的智能手机充电端口的荒谬性。

图片显示了一个“Lightning Cable”适配器的包装,总共包含三个部分。

图1:一部智能手机,其充电端口插着一个VGA接口(大的蓝色15针接口,通常用于电脑显示器)。

图2:“Lightning Cable”适配器的包装上有一张VGA接口的图片。

图3:VGA连接器的特写,末端是一个小的Lightning连接器(用于为iPhone和其他苹果设备充电)。

这张图片的笑点来自将一个巨大、过时的VGA连接器插入一个小体积、现代的智能手机充电端口的荒谬性。

此外,GPT-4还和为视力障碍者服务的公益项目Be My Eyes合作。AI模型可以为盲人或视弱群体描述了裙子上的图案,帮助识别植物,解释如何使用健身房的某台机器。

会推理判断,考试能力超过“做题家”

OpenAI用上面这张图片演示了GPT-4的推理和识图能力。当模型收到这张在厨房里拍的照片后,它不仅能辨认出面粉、鸡蛋等元素,还可以迅速给出食谱建议。

由于有着强大的推理能力,在标准化的技能测试中,GPT-4比起ChatGPT的表现有了实质性的提升。OpenAI官网称,在模拟美国律师从业资格考试中,ChatGPT的成绩在全体考生中只能排到末尾10%,而GPT-4能排进前10%。在难度更高的国际生物学奥赛中,GPT-4甚至能吊打99%的人类选手。

在“美国高考”SAT中,GPT-4在数学和阅读部分也能战胜近90%的考生。

会“角色扮演”不同人格

在情商方面,GPT-4比起GPT-3.5也提高很多。根据OpenAI的描述,用户能够将ChatGPT原本固定冗长的语气和风格,改为更适合他们需要的个性化风格。

具体来说,用户可以要求模型假扮各种角色,比如电视台进行采访的主持人、面对老年用户的基金经理等。根据案例展示,GPT-4可以熟练切换语言风格适应自己的角色定位。比如在和老年人对话时,使用平和缓慢的语气,而在担任经理下达命令时又采取果断坚决的态度。

红星新闻记者 王雅林 实习生 郑直

责编 官莉 编辑 郭宇