随着人工智能技术的快速发展,各样强大的AI系统正在以日新月异的速度面世。上周,咱们见证了Claude 2的首次亮相,它可能是日前公众能接触到的第二强大的AI系统。再上1星期,OpenAI发布了Code Interpreter,日前为止最繁杂的AI模式。再上1星期,有些AI得到了“看照片”的能力。
然而,似乎无一个AI实验室供给任何用户文档。日前能看到的用户指南,都只是来自Twitter意见领袖的讨论线程。针对声叫作关心自己技术适当运用的组织来讲,选取以传言形式进行文档化是一种奇特的选取,但咱们还是处在这种状态。
我不可声叫作这会是一个完整的用户指南,然则它将为当前的AI情况供给有些方向感。我始终在为学生(和感兴趣的读者)准备AI入门指南,每隔几个月就需要作出重大修改。近期的几个月格外疯狂。
本指南表达个人观点,基于我的经验,专注于怎样选取正确的工具来完成任务。倘若你想先认识AI能够完成那些任务,我之前写的文案可能会有帮忙。
重点的大型语言模型
当咱们此刻讨论AI时,一般是在讨论大型语言模型(LLM)。大都数AI应用都是由于LLM供给支持的,日前仅有少许几家组织创建了基本模型。每家机构都经过聊天设备人供给对其模型的直接拜访:OpenAI制造了GPT-3.5和GPT-4,它们支持ChatGPT和Microsoft的Bing(在Edge浏览器上能够拜访它);谷歌持有各样以Bard为标签的模型;Anthropic推出了Claude和Claude 2。
这儿不会讨论其他LLM。第1个是由于Inflection创建的Pi,它针对对话进行了优化,真的非常非常想作为你的伴侣(说真的,试试就晓得我的意思了)。它除了聊天之外不想做太多事,想让它为你工作将会非常熬煎。咱们亦不会涵盖各样开源模型,任何人都能够运用和修改。日前它们针对普通用户来讲一般不可拜访且毫无用处,然则将来指南可能会包含它们,由于它们确实特别有前景。
因此这是你的快速参考表,总结了LLM的当前状态:
前四个(包含Bing)都是OpenAI系统。日前OpenAI重点有两种AI:3.5和4。3.5模型在去年11月诱发了当前的AI狂潮,4模型在今年春天首次亮相,能力更强。一个新变种运用插件连接到互联网和其他应用程序。有非常多插件,大都数都不是非常有用,然则倘若需要的话能够随意探索它们。代码解释器是一个极其强大的ChatGPT版本,能够运行Python程序。倘若你从未为OpenAI付费,那你只运用过3.5。除了插件版本和一个暂时中止的带有浏览功能的GPT-4版本之外,这些模型都未连接到互联网。Microsoft的Bing运用4和3.5的组合,一般是GPT-4家族中首个推出新功能的模型。例如,它能够创建和查看图像,并且能够在网页浏览器中阅读文档。它连接到了互联网。Bing的运用有点奇怪,但很强大。
谷歌始终在测试自己的AI以供消费者运用,她们叫作之为Bard,但它由一系列基本模型驱动,近期的一个叫做PaLM 2。针对研发LLM技术的机构来讲,迄今为止它们的表现相当令人失望,尽管昨天宣布的改进表示她们仍在继续改进基本技术,因此我对此抱有期盼。它已然得到了运行有限代码和解释图像的功能,但我一般会避免它。
最后一家机构Anthropic已然发布了Claude 2。Claude最明显的特点是持有非常大的上下文窗口——基本上是LLM的记忆。Claude能够在记忆中保留近乎整本书的内容,或许多PDF。它被设计成比其他大型语言模型更不太可能产生恶意行径,在实质运用中,这寓意着它倾向于对某些事情略微训斥你。
接下来是有些运用示例:
写作
最佳免费选项:Bing和Claude 2
付费选项:ChatGPT 4.0/带插件的ChatGPT
日前,GPT-4仍然是最强大的AI写作工具,你能够在Bing(选取“创意模式”)上免费运用,或购买每月20美元的ChatGPT订阅。然而,Claude是强有力的第二选取,况且有限的免费选项可用。
这些工具亦正在直接集成到常用的办公应用程序中。Microsoft Office将包含由GPT供给支持的辅导员,Google文档将集成来自Bard的意见。这些创新对写作寓意着深远的影响。
这儿是有些运用AI帮忙你写作的方式。 写任何东西的草稿。博客文案、散文、宣传材料、演讲、讲课、选取你自己的冒险、剧本、短篇小说——任何你能想到的,AI都能做,况且做得很好。你只需要提示它。提示创作并不是魔法,然则基本提示会产生乏味的写作,但经过互动练习提示,你会发掘AI系统做为作家的能力在稍加练习后会有很大加强。使你的写作更好。将文本粘贴到AI中。需求它改进内容,或供给关于怎样使其更适合特定受众的意见。需求它以10种截然区别的风格创建草稿。需求它使事物更生动,或添加示例。用它来激发你做更好的工作的灵感。帮忙你完成任务。AI能够做你无时间做的事情。像实习生同样运用它来写电子邮件、创建营销模板、供给业务计划的后续过程等等。这是我在30分钟内就能支持一次制品发布所能实现的。帮忙思维起步。一个困难很容易使你从任务中分心。AI供给了得到动力的方式。
需要担心的几件事:为了响应你的答案,AI很容易“误报”并生成恰当的虚假内容。它能够生成完全错误但非常令人信服的内容。让我强调一下:AI会连续而出色地撒谎。它告诉你的每一个事实或信息都可能不正确。你需要检测所有内容。当你请求引用、报价、引文和互联网信息时,尤其危险(针对未连接到互联网的模型)。Bing一般会比其他模型产生更少的虚构内容,由于GPT-4广泛更加基于事实,并且Bing的互联网连接寓意着它实质上能够获取关联事实。这是一份避免误报的指南,但不可能完全消除误报。
况且请重视,AI不会解释它自己,它只会让你认为它在解释。当你需求它解释为何写了某些内容时,它会给出一个似乎恰当的完全虚构的答案。当你请求它的思考过程时,它并无审视自己的行动,它只是在生成让它看起来像是这般做的文本。这使得理解系统中的偏见非常拥有挑战性,即使这些偏见几乎肯定存在。
它亦能够被不道德地操作或诈骗所利用。你对其输出负有责任。
生成图像
最透明的选项:Adobe Firefly
开源选项:Stable Diffusion
最佳免费选项:Bing或Bing Image Creator(运用DALL-E)、Playgound(能够运用多个模型)
最佳图像质量:Midjourney
大都数人能够运用的重点图像生成器有四个:
Stable Diffusion,这是开源的,你能够从任何高端计算机上运行它。刚起始需要付出奋斗,由于你需要学习怎样适当地制定提示,然则一旦你把握,它就能够产生很棒的效果。它在将AI与其他源自的图像相结合方面尤其出色。
OpenAI的DALL-E,它集成在Bing(必须运用创意模式)和Bing Image Creator中。该系统很不错,但不如Midjourney。
Midjourney,这是2023年中期最好的系统。它的学习曲线比任何其他系统都低:只需输入“thing-you-want-to-see --v 5.2”(结尾的--v 5.2很重要,它运用的是最新模型),你就能够得到很棒的结果。
Adobe Firefly,内置在各样Adobe制品中,但与DALL-E和Midjourney相比,照片质量略逊一筹。然而,另一两个模型在运用来训练AI的源图像方面模糊不清,而Adobe声明它只运用有运用权的图像。
以下是它们的比较(每张照片都标注了模型):
Prompt: “Fashion photoshoot of sneakers inspired by Van Gogh” - the first images that were created by each model
提示:“梵高风格网球鞋时尚照” - 每一个模型生成的第1张照片
需要担心的事项:这些系统创立在对互联网数据的训练上,训练本身就存在固有偏见(例如,倘若让它创造企业家的照片,默认你会看到更加多以男性为主的照片,除非你知道指定“女企业家”),你可以运用这个资源管理器来观察这些偏见。
这些系统亦以在互联网上存在的艺术做为训练材料的方式进行训练,这种方式在法律和伦理上都不透明,可能存在问题。尽管技术上你持有所创造照片的版权,但法律规定仍然模糊。
况且此刻,它们不生成文字,只生成一堆看起来像文字的东西。然则Midjourney制作手的效果非常逼真。
提出想法
最佳免费选项:Bing
付费选项:ChatGPT 4.0,但因为其互联网连接,Bing可能会更好
尽管存在所有约束和奇怪之处,但AI在产生想法方面完美无瑕。要有好的想法,你一般需要有非常多想法,而AI在创造海量想法方面表现不俗。经过恰当的提示,你还能够强制它进行非常创造性的思考。在Bing的创意模式下,要它查询你最爱好的不寻常的思维激发技巧,例如Brian Eno 的倾斜策略或 Mashall McLuhan 的四分法,并应用它们。或需求有些奇思妙想,例如从随机专利或你最爱好的超级英雄中得到灵感......
制作视频
最佳动画工具:D-iD,用于在视频中制作脸部动画。Runway v2,从文本创建视频
最佳语音克隆:ElevenLabs
此刻,用完全由AI生成的角色、完全由AI编写的脚本、AI生成的语音,经过AI动画生成一个视频已然变得轻而易举。它还能够深度伪造名人,正如你在这个链接中看到我深度伪造自己的那样。说明和更加多信息请见这儿。小心运用,但这对解释视频和介绍特别有帮忙。
第1个公开可用的文本到视频工具亦刚才发布,即Runway v2。它创建4秒的短片段,更像是将来发展的演示,然则倘若你想认识这个行业的将来发展,它值得一看。
需要担心的事项:深度伪造是一个巨大的问题,这些系统需要被道德地运用。
处理文档和数据
针对数据(以及你有的任何奇思妙想代码):Code Interpreter(代码解释器)
针对文档:Claude 2用于大型文档或多文档,Bing侧栏用于较小的文档和网页(Edge浏览器中的侧栏能够“看到”浏览器中的内容,让Bing运用哪些信息,尽管上下文窗口的体积是有限的)
Code Interpreter(代码解释器),它是GPT-4的一种模式,让你能够将文件上传给AI,准许AI编写和运行代码,并让你下载AI供给的结果。它能够执行程序、运行数据分析(尽管你需要足够认识统计和数据来检测它的工作)、创建各样文件、网页,乃至游戏。尽管自它发布败兴,围绕未受训人员运用它进行分析的危害存在非常多争论,但许多测试代码解释器的专家都对它印象深刻,一个论文乃至意见它将需要改变咱们培训数据专家的方式。倘若你想认识更加多运用细节,请参考我之前的文案。我亦制作了一个初始提示,为代码解释器设置以创建有用的数据可视化。它供给了有些良好的图表设计基本原则,并提醒它能够输出多种文件类型。你能够在这儿找到它。
针对处理文本,尤其是PDF,到日前为止,Claude 2表现优秀。我已然把整本书粘贴到前一个Claude版本中,效果令人印象深刻,新模型更加强大。你能够瞧瞧我以前的经历,以及有些可能有趣的提示,在这儿。我还给了它许多繁杂的学术文案,需求它总结结果,它做得很好!乃至更好的是,你而后能够经过后续问题进行审问材料:有什么证据支持这种办法?作者得出了什么结论?等等...
需要担心的事项:这些系统仍会在有限的方式下进行虚构。倘若你想保证准确性,需要检测它们的结果。
获取信息和学习
最佳免费选项:Bing
付费选项:一般Bing是最佳选取。针对儿童,可运用可汗学院的Khanmigo,它供给由GPT-4驱动的良好AI辅导。
倘若你要将AI用作搜索引擎,可能最好不要这般做。因为存在高度的虚构危害,且大都数AI无连接到互联网,运用Bing会是明智之选(我意见你运用Bing。谷歌的AI Bard更易虚构)。然而,按照近期的试点科研,证据显示AI在小心运用的状况下,常常比搜索供给更加多有用的答案。尤其是在搜索引擎效果不良的状况下,例如技术支持、决定吃什么、获取意见等,Bing相较于谷歌是一个更好的起点。这是一个快速发展的行业,但日前你在这些用途上还是需要小心。你肯定不想陷入麻烦。
然则更令人兴奋的是,AI能够用于帮忙教育,包含帮忙咱们学习。我已然写过AI怎样用于教育,并帮忙教师更容易地工作、使她们的课程更有效,但它亦能够用于自主学习。你能够让AI解释概念,得到非常好的结果。这个提示是一个很好的自动导师,你能够在这儿找到一个直接链接来在ChatGPT中激活导师。由于咱们晓得AI可能在虚构,因此你明智的做法是(仔细!)用另一个源自双重检测任何关键数据。
还有更加多?
鉴于技术的快速进步,这些可能都是你将运用的最糟糕的AI工具,正如过去几个月的发展所示。我确信不久后我就需要制作新的指南。但请记住两个关键点仍然适用与AI:
AI是一种工具,并不总是正确的工具。思虑到其缺点,仔细思虑它是不是适合你计划应用它的目的。
存在许多你需要重视的伦理问题。AI能够用来侵犯版权、作坏处、窃取他人劳动成果或操作他人。而特定AI模型的构建方式及谁从其运用中受益常常亦都是繁杂的问题,日前并不太清楚。最后,你有责任以道德的方式运用这些工具。
咱们正处在一个快速演进的革命的初期周期。你还有其他的运用体会要分享吗?请在评论中告诉我。
引用:How to Use AI to Do Stuff: An Opinionated Guide, ETHAN MOLLICK,oneusefulthing.org
|