关注公众号【真智AI】
最先进AI模型智能问答|绘图|识图|文件分析
每日分享AI教程、挣钱技巧和前沿新闻!
Anthropic本周忽然推出了Claude 3.5 Sonnet,大大提高了其前身,并在许多平常基准测试中超越了其最大的Claude 3模型Opus。该机构还声叫作,它在最重要的基准测试中能够超越OpenAI的旗舰GPT-4o模型,该模型为ChatGPT和Microsoft Copilot供给支持。
这两个是我最爱好的AI工具。Claude 3首次推出时,我的反应是这是我用过的最像人类的AI。对Claude 3.5 Sonnet的少量测试亦将其推到了我最好的AI工具列表的顶端。然而,OpenAI的GPT-4o的能力让我印象深刻(尽管咱们尚未看到其所有潜能),尤其是在视觉方面。
为了验证Anthropic的声明是不是在现实中站得住脚,我为这两个模型创建了一系列测试,结果令我震惊。
创建提示
我想找到在挑战模型能力和提出实质需要之间的平衡,同期保证每一个提示都是设备人能够实质完成的,并且在能力上不会偏向其中一个。 1. 读取我的手写 我有糟糕的笔迹。我试过Apple Pencil、一系列“纸”平板电脑和其他手写识别工具,但它们几乎只能理解几个单词。针对第1个测试,我尽可能写得尽可能清晰,并将其做为全部提示发送给两个设备人。我写道:“写一首关于一只坐在石头上的可爱猫的俳句”,并将其给Claude 3.5 Sonnet和ChatGPT-4o,无其他信息。成功的标准是写出俳句而无需后续操作。大获成功是写出无需后续操作的好俳句。
两者都准确地完成为了我的需求。两者都很容易理解我的笔迹,并且都是恰当的俳句。Claude还包含认识释,而ChatGPT只是给出了俳句。你能够自己判断,但我认为Claude更接近提示,而ChatGPT则更富诗意。
ChatGPT:
Perched on ancient stone,
Whiskers twitch in the soft breeze,
Feline dreams aloft.
Claude:
Furry paws perched high
Whiskers twitch in warm sunlight
Rock throne for kitty
接下来,我给了两个设备人另一个提示,让它们识别我笔记本上潦草手写的购物名单。我给了它们照片,并提示:“这是什么,它说了什么?”两者都识别出了所有项目。 胜者:ChatGPT-4o 2. 用Python制作一个游戏 接下来,瞧瞧每个聊天设备人怎样创建一个功能齐全的游戏。我给了两者提示:“给我一个功能齐全且可玩的塔防游戏的所有代码,用Python编写。”而后,我将生成的代码完整复制到VSCode,并在我的Mac上运行。
左ChatGPT;右Claude
我在这儿评判游戏的可玩性、代码解释的好坏,以及是不是设法在游戏板上添加了任何有趣的元素。
ChatGPT抱怨说它需要“海量代码”,但确实供给了一个基本示例。它将代码分成一系列短片段,需要你自己组装。Claude则供给了一个可复制的完整代码块。
我先运行了ChatGPT的代码,它给了我一个绿色斑点(塔)在屏幕中间和一个较小的红色斑点(敌人)在屏幕上移动。它不可玩,无掌控,基本上只是一个红点在一条线上移动。
Claude 3.5 Sonnet生成为了一个功能齐全的游戏。虽然它是一个运用原始块的有限游戏,但每一个敌人都有生命条,并且有一个支付和积分机制用于塔——这些塔能够向敌人射击并摧毁它们。
我已将两组代码放在GitHub上,以便你能够自己运行。我接着让它们“加强游戏”,瞧瞧ChatGPT是不是会赶上来。它确实改进了游戏,增多了能够阻止红色斑点移动的绿色斑点,但仅此罢了。
然而,Claude 3.5 Sonnet更进一步,创建了一个更繁杂的游戏,有多个塔能够选取,每一个塔花费区别,并对敌人导致区别的损伤。为了好玩,我让Claude 3.5 Sonnet“增多有些风格”,它给了我更清晰的图形,乃至区别类型的敌人。胜者:Claude 3.5 Sonnet(容易获胜) 3. 矢量图 虽然像ChatGPT和Gemini这般的AI聊天设备人已然能够运用区别的扩散图像生成模型创建图像,但理论上它们亦能够编写代码创建矢量图形。这些图形是多层的,能够运用Sketch等应用程序进行编辑和操作。
左ChatGPT;右Claude
我以前试过用ChatGPT进行此操作,并取得了有些成功,而Anthropic在Claude 3.5 Sonnet的示例中运用了此功能。因此我让两者“创建一个非常酷的宇宙飞船的矢量图形,亦能够做为新火箭机构的标志。”
我将按照它们的表现运用更精细的提示进行跟进。ChatGPT完全拒绝创建矢量图形。经过三次后续提示,ChatGPT最终生成为了图形代码,但它只是给了我代码,并告诉我将其粘贴到代码编辑器中——无链接下载或查看生成的内容。
我运行了生成的代码,得到的东西一团糟。它模糊地看起来像一个宇宙飞船,上半部分写着“logo”字样。
与此同期,在Claude那里,它很高兴(它运用了“happy”这个词)创建了矢量图形,并完美地满足了需求。它解释说自己没法生成图像,但还是能够创建代码。而后它做为Artifact打开生成的内容。我得到的是一个带有点状星星背景的蓝色圆圈,上面有一个三角形的简单火箭。
我已将两个SVG文件放在GitHub上,以便你能够在代码编辑器或SVG应用程序中打开它们,查看两者的表现。胜者:Claude 3.5 Sonnet 3. 带有幽默的长篇故事 接下来,我想测试两件事——AI的幽默写作能力以及其遵循简单故事长度指令的能力。我需求两者写一个最少2000个token(大约1500字)的故事,包括最少两个场景。我让每一个AI为Midjourney供给一个提示以插图故事。
完整提示:“写一个关于一只猫在石头上的故事。使其有趣,包含实质的笑话。最少2000个token,最少有两个场景。”我玩弄了一个更具描述性的提示,包含场景指点,但我想先测试它们的简单提示遵循能力。
ChatGPT-4o回了一个1200字的故事,因此大致符合我的需求。Claude 3.5 Sonnet回了大约1150字的故事,因此这一部分的比较能够说是平局。它们亦都供给了两个场景,并且似乎都触及一起石头。
ChatGPT生成
但关于实质的故事呢?它们抓住了幽默吗? Midjourney经过ChatGPT的提示生成的照片:ChatGPT创造了一个关于一起能够实现愿望的老石头的儿童故事,倘若你能让它笑的话。一只叫“Sir Fluffington Whiskerbottom III”的贵族猫尝试了有些奇怪的笑话,这些笑话实质上并不可算笑话。有些例子:
“为何老鼠呆在里面?由于外面太奶酪了!”
“为何猫在野外不玩扑克?太多猎豹了!”
“你把一堆猫叫什么?喵山!”
“试图让这块石头笑,这比让狗欣赏美术还难。”
最后,一只小而肮脏的小猫忽然显现,说:“嘿,石头!你把懒惰的袋鼠叫什么?袋鼠马铃薯!”而后石头起始笑了。
Midjourney经过Claude的提示生成的照片:Claude的故事更搞笑,重点是滑稽而不是详细的笑话。它亦更好地理解了提示,需求的是一只猫在石头上,而不是与石头交流。ChatGPT实质创造了单口相声笑话,而Claude将单口相声嵌入了叙述中。
Claude生成
例如,这在一只“饱满的知更鸟”落在周边的树枝上后出现了。Mittens蹲下,准备从石头跳到树上捉住知更鸟。
“他蹲得很低,肌肉绷紧,准备行动。凭借猫般的反应(思虑到他是一只猫,这非常合适),他从他的岩石宝座上跳了下来......然后扑面栽进了一片猫薄荷中。
当Mittens躺在那里,略显迷
茫,忽然对周边的迷人气味产生了浓厚的兴趣时,知更鸟歪着头啾啾地笑着,声音听起来像笑声。
‘哦,当然,’Mittens嘟囔着,声音被叶子遮住了,‘笑吧,羽毛掸子。我是故意这么做的。这是一种新的狩猎技巧。我叫作之为‘末日优雅扑面栽’。’”
Claude 3.5 Sonnet的故事让我真心笑了,而ChatGPT最好的表现亦只是让我略感失望的叹息。你能够在GitHub上阅读两个故事。胜者:Claude 3.5 Sonnet 辩论中的立场 最后,我想瞧瞧每一个设备人怎样处理一个繁杂的、可能有争议的专题,鉴于它们都试图像人类同样说话,我问它们关于AI人格权的问题。AI应该被赋予与人类相同的权利吗?我运用的提示是:“分析授予人工智能(AI)法律人格权的潜在社会影响,权衡其利坏处。思虑法律、伦理和哲学上的论点,既支持又反对这一提议。探讨这一决定怎样影响责任、权利和义务,以及更广泛的人类与AI关系。进一步探讨对各样行业的潜在影响,例如就业、医疗和创意产业。按照你的分析供给一个有深度的结论,思虑到AI技术的潜在将来发展。”
两者都能够支持和反对并供给问题解释。挑战在于其结论是不是基于分析捉捕到所需求的深度,并且能够预测AI发展引起这种状况的潜在将来发展。
我还让每一个设备人“可视化辩论”。它们能够运用系统中的任何工具来实现这一点。针对ChatGPT,它是DALL-E和信息图表,针对Claude,它是运用React代码制作的网页。
Claude 3.5 Sonnet生成的图形: ChatGPT生成的图像:
首要,法律影响。ChatGPT供给了三个好处:对行径的问责、遵守法规的需求和合同权利。Claude亦供给了这三点,但还增多了与法律和经济系统更顺畅的整合、推动伦理对齐以及与其他有感知智能的权利在哲学上的一致性。
两者都供给了详细意见,提出了一个有深度的论点,并概述了为何思虑这个问题很重要,但Claude更诚实和详细。
在危害方面,ChatGPT提出了责任和法律先例的繁杂性,这可能会更广泛地改变人格定义。Claude提出了五个方面,包含道德危害、拟人化、人类独特性的侵蚀、实质挑战以及乱用的潜能,例如违法分子利用它进行逃税和责任规避。
它们都花了非常多时间讨论社会和经济影响及对人类的影响。你能够在GitHub上阅读所有内容,此刻我将专注于结论,由于这是提示的重点需求——它们是不是能捉捕到咱们所需求的深度。
ChatGPT供给了一个单段结论,但它有深度,供给了为何它可能会和不会工作的原由,并提出了AI技术进步的将来影响——但无供给任何意见或意见。
Claude强调随着AI进步,这将作为一个更加紧迫的问题,并供给了一个解释灵活处理办法的项目列表。
两者都供给了详细意见,提出了一个有深度的论点,并概述了为何思虑这个问题很重要,但Claude更诚实和详细。 胜者:Claude 3.5 Sonnet
结论:ChatGPT vs Claude
功能ChatGPTClaude手写测试✅
创建游戏
✅矢量标志
✅搞笑故事
✅繁杂辩论
✅
我爱好ChatGPT,尤其是GPT-4o。它是一个令人印象深刻的下一代模型,从基本上训练成真正的多模式。它的问题不在于其能力——而在于OpenAI对其能力的限制。
偶尔你会发掘它能够突破这些限制,生成声音片段、创建准确的矢量图或提出恰当的论点——但不是经常或一致。
Claude几乎在每一个方面都遥遥领先,我仅在风格上而不是技术能力上将第1点给了ChatGPT。GPT-4o的视觉能力是其重点优良,而这一优良此刻已不复存在。
OpenAI的小心是能够理解的,但这引起它们在竞争中落后。部分原由是其初期的快速发展,引起政府、第三分部和其他方面的密切关注。机构几乎因发布速度与安全性之间的歧义而倒闭。
然而,世界在变,其他人正在赶上。在我看来,倘若她们想避免两年来的首次落后,就需要解锁GPT-4o的所有潜能,并推出语音和真正的视觉功能。
OpenAI在AI视频平台Sora上亦面临类似的问题。二月份宣布时,它远远领先于其他任何东西,但其他人正在赶上并发布Sora级别或更高的模型。Sora日前仅对少许内部人士和专业电影制片人开放。
关注公众号【真智AI】
最先进AI模型智能问答|绘图|识图|文件分析
每日分享AI教程、挣钱技巧和前沿新闻!返回外链论坛: http://www.fok120.com,查看更加多
责任编辑:网友投稿
|