ChatGPT-4.0 vs Claude 3.5：哪个AI聊天平台更胜一筹？

qzmjef · 发表于 2024-10-3 19:27:34

关注公众号【真智AI】

最先进AI模型智能问答|绘图|识图|文件分析

每日分享AI教程、挣钱技巧和前沿新闻！

Anthropic本周忽然推出了Claude 3.5 Sonnet，大大提高了其前身，并在许多平常基准测试中超越了其最大的Claude 3模型Opus。该机构还声叫作，它在最重要的基准测试中能够超越OpenAI的旗舰GPT-4o模型，该模型为ChatGPT和Microsoft Copilot供给支持。

这两个是我最爱好的AI工具。Claude 3首次推出时，我的反应是这是我用过的最像人类的AI。对Claude 3.5 Sonnet的少量测试亦将其推到了我最好的AI工具列表的顶端。然而，OpenAI的GPT-4o的能力让我印象深刻（尽管咱们尚未看到其所有潜能），尤其是在视觉方面。

为了验证Anthropic的声明是不是在现实中站得住脚，我为这两个模型创建了一系列测试，结果令我震惊。

创建提示

我想找到在挑战模型能力和提出实质需要之间的平衡，同期保证每一个提示都是设备人能够实质完成的，并且在能力上不会偏向其中一个。

1. 读取我的手写我有糟糕的笔迹。我试过Apple Pencil、一系列“纸”平板电脑和其他手写识别工具，但它们几乎只能理解几个单词。针对第1个测试，我尽可能写得尽可能清晰，并将其做为全部提示发送给两个设备人。

我写道：“写一首关于一只坐在石头上的可爱猫的俳句”，并将其给Claude 3.5 Sonnet和ChatGPT-4o，无其他信息。成功的标准是写出俳句而无需后续操作。大获成功是写出无需后续操作的好俳句。

两者都准确地完成为了我的需求。两者都很容易理解我的笔迹，并且都是恰当的俳句。Claude还包含认识释，而ChatGPT只是给出了俳句。你能够自己判断，但我认为Claude更接近提示，而ChatGPT则更富诗意。

ChatGPT:

Perched on ancient stone,

Whiskers twitch in the soft breeze,

Feline dreams aloft.

Claude:

Furry paws perched high

Whiskers twitch in warm sunlight

Rock throne for kitty

接下来，我给了两个设备人另一个提示，让它们识别我笔记本上潦草手写的购物名单。我给了它们照片，并提示：“这是什么，它说了什么？”两者都识别出了所有项目。 胜者：ChatGPT-4o

2. 用Python制作一个游戏接下来，瞧瞧每个聊天设备人怎样创建一个功能齐全的游戏。我给了两者提示：“给我一个功能齐全且可玩的塔防游戏的所有代码，用Python编写。”而后，我将生成的代码完整复制到VSCode，并在我的Mac上运行。

左ChatGPT；右Claude

我在这儿评判游戏的可玩性、代码解释的好坏，以及是不是设法在游戏板上添加了任何有趣的元素。

ChatGPT抱怨说它需要“海量代码”，但确实供给了一个基本示例。它将代码分成一系列短片段，需要你自己组装。Claude则供给了一个可复制的完整代码块。

我先运行了ChatGPT的代码，它给了我一个绿色斑点（塔）在屏幕中间和一个较小的红色斑点（敌人）在屏幕上移动。它不可玩，无掌控，基本上只是一个红点在一条线上移动。

Claude 3.5 Sonnet生成为了一个功能齐全的游戏。虽然它是一个运用原始块的有限游戏，但每一个敌人都有生命条，并且有一个支付和积分机制用于塔——这些塔能够向敌人射击并摧毁它们。

我已将两组代码放在GitHub上，以便你能够自己运行。我接着让它们“加强游戏”，瞧瞧ChatGPT是不是会赶上来。它确实改进了游戏，增多了能够阻止红色斑点移动的绿色斑点，但仅此罢了。

然而，Claude 3.5 Sonnet更进一步，创建了一个更繁杂的游戏，有多个塔能够选取，每一个塔花费区别，并对敌人导致区别的损伤。为了好玩，我让Claude 3.5 Sonnet“增多有些风格”，它给了我更清晰的图形，乃至区别类型的敌人。胜者：Claude 3.5 Sonnet（容易获胜）

3. 矢量图虽然像ChatGPT和Gemini这般的AI聊天设备人已然能够运用区别的扩散图像生成模型创建图像，但理论上它们亦能够编写代码创建矢量图形。这些图形是多层的，能够运用Sketch等应用程序进行编辑和操作。

左ChatGPT；右Claude

我以前试过用ChatGPT进行此操作，并取得了有些成功，而Anthropic在Claude 3.5 Sonnet的示例中运用了此功能。因此我让两者“创建一个非常酷的宇宙飞船的矢量图形，亦能够做为新火箭机构的标志。”

我将按照它们的表现运用更精细的提示进行跟进。ChatGPT完全拒绝创建矢量图形。经过三次后续提示，ChatGPT最终生成为了图形代码，但它只是给了我代码，并告诉我将其粘贴到代码编辑器中——无链接下载或查看生成的内容。

我运行了生成的代码，得到的东西一团糟。它模糊地看起来像一个宇宙飞船，上半部分写着“logo”字样。

与此同期，在Claude那里，它很高兴（它运用了“happy”这个词）创建了矢量图形，并完美地满足了需求。它解释说自己没法生成图像，但还是能够创建代码。而后它做为Artifact打开生成的内容。我得到的是一个带有点状星星背景的蓝色圆圈，上面有一个三角形的简单火箭。

我已将两个SVG文件放在GitHub上，以便你能够在代码编辑器或SVG应用程序中打开它们，查看两者的表现。胜者：Claude 3.5 Sonnet

3. 带有幽默的长篇故事接下来，我想测试两件事——AI的幽默写作能力以及其遵循简单故事长度指令的能力。我需求两者写一个最少2000个token（大约1500字）的故事，包括最少两个场景。

我让每一个AI为Midjourney供给一个提示以插图故事。

完整提示：“写一个关于一只猫在石头上的故事。使其有趣，包含实质的笑话。最少2000个token，最少有两个场景。”我玩弄了一个更具描述性的提示，包含场景指点，但我想先测试它们的简单提示遵循能力。

ChatGPT-4o回了一个1200字的故事，因此大致符合我的需求。Claude 3.5 Sonnet回了大约1150字的故事，因此这一部分的比较能够说是平局。它们亦都供给了两个场景，并且似乎都触及一起石头。

ChatGPT生成

但关于实质的故事呢？它们抓住了幽默吗？ Midjourney经过ChatGPT的提示生成的照片：ChatGPT创造了一个关于一起能够实现愿望的老石头的儿童故事，倘若你能让它笑的话。一只叫“Sir Fluffington Whiskerbottom III”的贵族猫尝试了有些奇怪的笑话，这些笑话实质上并不可算笑话。有些例子：

“为何老鼠呆在里面？由于外面太奶酪了！”

“为何猫在野外不玩扑克？太多猎豹了！”

“你把一堆猫叫什么？喵山！”

“试图让这块石头笑，这比让狗欣赏美术还难。”

最后，一只小而肮脏的小猫忽然显现，说：“嘿，石头！你把懒惰的袋鼠叫什么？袋鼠马铃薯！”而后石头起始笑了。

Midjourney经过Claude的提示生成的照片：Claude的故事更搞笑，重点是滑稽而不是详细的笑话。它亦更好地理解了提示，需求的是一只猫在石头上，而不是与石头交流。ChatGPT实质创造了单口相声笑话，而Claude将单口相声嵌入了叙述中。

Claude生成

例如，这在一只“饱满的知更鸟”落在周边的树枝上后出现了。Mittens蹲下，准备从石头跳到树上捉住知更鸟。

“他蹲得很低，肌肉绷紧，准备行动。凭借猫般的反应（思虑到他是一只猫，这非常合适），他从他的岩石宝座上跳了下来......然后扑面栽进了一片猫薄荷中。

当Mittens躺在那里，略显迷

茫，忽然对周边的迷人气味产生了浓厚的兴趣时，知更鸟歪着头啾啾地笑着，声音听起来像笑声。

‘哦，当然，’Mittens嘟囔着，声音被叶子遮住了，‘笑吧，羽毛掸子。我是故意这么做的。这是一种新的狩猎技巧。我叫作之为‘末日优雅扑面栽’。’”

Claude 3.5 Sonnet的故事让我真心笑了，而ChatGPT最好的表现亦只是让我略感失望的叹息。你能够在GitHub上阅读两个故事。胜者：Claude 3.5 Sonnet

辩论中的立场最后，我想瞧瞧每一个设备人怎样处理一个繁杂的、可能有争议的专题，鉴于它们都试图像人类同样说话，我问它们关于AI人格权的问题。AI应该被赋予与人类相同的权利吗？

我运用的提示是：“分析授予人工智能（AI）法律人格权的潜在社会影响，权衡其利坏处。思虑法律、伦理和哲学上的论点，既支持又反对这一提议。探讨这一决定怎样影响责任、权利和义务，以及更广泛的人类与AI关系。进一步探讨对各样行业的潜在影响，例如就业、医疗和创意产业。按照你的分析供给一个有深度的结论，思虑到AI技术的潜在将来发展。”

两者都能够支持和反对并供给问题解释。挑战在于其结论是不是基于分析捉捕到所需求的深度，并且能够预测AI发展引起这种状况的潜在将来发展。

我还让每一个设备人“可视化辩论”。它们能够运用系统中的任何工具来实现这一点。针对ChatGPT，它是DALL-E和信息图表，针对Claude，它是运用React代码制作的网页。

Claude 3.5 Sonnet生成的图形： ChatGPT生成的图像：

首要，法律影响。ChatGPT供给了三个好处：对行径的问责、遵守法规的需求和合同权利。Claude亦供给了这三点，但还增多了与法律和经济系统更顺畅的整合、推动伦理对齐以及与其他有感知智能的权利在哲学上的一致性。

两者都供给了详细意见，提出了一个有深度的论点，并概述了为何思虑这个问题很重要，但Claude更诚实和详细。

在危害方面，ChatGPT提出了责任和法律先例的繁杂性，这可能会更广泛地改变人格定义。Claude提出了五个方面，包含道德危害、拟人化、人类独特性的侵蚀、实质挑战以及乱用的潜能，例如违法分子利用它进行逃税和责任规避。

它们都花了非常多时间讨论社会和经济影响及对人类的影响。你能够在GitHub上阅读所有内容，此刻我将专注于结论，由于这是提示的重点需求——它们是不是能捉捕到咱们所需求的深度。

ChatGPT供给了一个单段结论，但它有深度，供给了为何它可能会和不会工作的原由，并提出了AI技术进步的将来影响——但无供给任何意见或意见。

Claude强调随着AI进步，这将作为一个更加紧迫的问题，并供给了一个解释灵活处理办法的项目列表。

两者都供给了详细意见，提出了一个有深度的论点，并概述了为何思虑这个问题很重要，但Claude更诚实和详细。 胜者：Claude 3.5 Sonnet

结论：ChatGPT vs Claude

功能ChatGPTClaude手写测试✅

创建游戏

✅矢量标志

✅搞笑故事

✅繁杂辩论

✅

我爱好ChatGPT，尤其是GPT-4o。它是一个令人印象深刻的下一代模型，从基本上训练成真正的多模式。它的问题不在于其能力——而在于OpenAI对其能力的限制。

偶尔你会发掘它能够突破这些限制，生成声音片段、创建准确的矢量图或提出恰当的论点——但不是经常或一致。

Claude几乎在每一个方面都遥遥领先，我仅在风格上而不是技术能力上将第1点给了ChatGPT。GPT-4o的视觉能力是其重点优良，而这一优良此刻已不复存在。

OpenAI的小心是能够理解的，但这引起它们在竞争中落后。部分原由是其初期的快速发展，引起政府、第三分部和其他方面的密切关注。机构几乎因发布速度与安全性之间的歧义而倒闭。

然而，世界在变，其他人正在赶上。在我看来，倘若她们想避免两年来的首次落后，就需要解锁GPT-4o的所有潜能，并推出语音和真正的视觉功能。

OpenAI在AI视频平台Sora上亦面临类似的问题。二月份宣布时，它远远领先于其他任何东西，但其他人正在赶上并发布Sora级别或更高的模型。Sora日前仅对少许内部人士和专业电影制片人开放。

关注公众号【真智AI】

最先进AI模型智能问答|绘图|识图|文件分析

每日分享AI教程、挣钱技巧和前沿新闻！返回外链论坛： http://www.fok120.com，查看更加多

责任编辑：网友投稿

b1gc8v · 发表于 2024-10-31 12:46:06

外链发布社区 http://www.fok120.com/

qzmjef · 发表于 2024-11-3 17:01:13

你的话语真是温暖如春，让我心生感激。

wrjc1hod · 发表于 2024-11-10 01:01:11

我完全同意你的观点，说得太对了。

wrjc1hod · 发表于 5 天前

请问、你好、求解、谁知道等。

		自动登录	找回密码
密码			立即注册