外链论坛

 找回密码
 立即注册
搜索
查看: 3|回复: 0

「橙篇」背面的百度文库,怎么样做好「AI 原生化」?

[复制链接]

2695

主题

312

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99100348
发表于 7 天前 | 显示全部楼层 |阅读模式

「底稿」对话栏目

谁在影响、定义咱们的时代?她们做了什么,怎样思考?对话关键名人,记录历史底稿。

本栏目将连续推出。

对话 | 张鹏

编辑|连冉、靖宇累计 AI 用户数已然突破 1.4 亿,运用次数突破 15 亿——AI 重构之下,百度文库焕发了全新活力。 在「AI 制品榜」的 5 月份榜单中,百度文库 AI 功能更加是以单月 6536 万拜访量位列国内总榜首位,甩开第二名将近 1500 万的身位。 成立十余年的百度文库,是怎样在 AI 时代迸发出强大的吸引力的? 当 AI 做为一项创新的底层技术被整合进制品系统中,怎样理解百度文库的演进轨迹,及其在制品运用目的上的转变?做为行业最火的 AI 原生应用之一,它是怎样实现进化的? 近期,在与极客公园创始人、总裁张鹏的对谈中,百度副总裁、文库事业部负责人王颖给出认识答。 去年 8 月迄今,百度文库经过大模型的重构,已然实现了从内容理解、规划到生成的全流程智能化。日前,百度文库背面的团队仅有两百余人,而在交付上实现正反馈之外,她们乃至还做到了商场上的正循环在 5 月底,百度文库推出了新制品「橙篇」,是行业首个集「专业知识检索和问答、超长图文理解和生成、深度编辑和整理、跨模态自由创作」的 「查阅创编」一站式AI自由创作平台将来,文库和橙篇创立自己的内容分发体系。 在这一波大模型的浪潮中,百度文库的转型既借助了技术的跃进,是对用户需要深刻理解的表现。如今,百度文库已进入与过去截然区别的发展周期制品正在并将继续经历一系列变革,而这些变革或许将彻底改变人们对文库的常规认知和运用习惯。「理想的AI,应该端到端处理问题,让设备像人同样思考,让制品像人同样工作。」AI 重构后的百度文库,已然做到了这一点。去年的极客公园创新大会 2024 上,百度创始人、董事长兼首席执行官李彦宏曾强调过,AI 的真正价值在于原生应用的研发,而橙篇做为新近推出的 AI Native 制品,正在为用户创作展开更广阔的可能。 从将所有旗下应用所有用大模型进行重塑,到文库作为跑在最前面的那个队伍,能够看得到,百度做 AI 的决心并非纸上谈兵,而是正在持续突破创新应用场景,用 AI 深度重构制品,为用户连续供给属于这个大模型时代的智能增益。 在对谈中,百度副总裁、文库事业部负责人王颖输出了有些精彩观点:「文库会是一站式AI内容获取和创作平台,创作从文库起始就好了。」目的对不齐,来自于标准对不齐。」「一起始制品,心里就有一张损益表。」

以下是对话全文,由极客公园编辑整理。

01

AI重塑下的百度文库

张鹏:文库在引入智能技术初期的决策过程是怎么样的?是怎样设定第1目的并逐步发展的?王颖:咱们首要思虑了两个关键点。第1咱们引入了大模型技术,评定它在那些行业明显的能力提高,以及还有什么缺陷,AI 技术自 20 世纪 50 年代败兴始终在发展,但大模型的显现标志着创作的能力飞跃,这个技术飞跃是不是能处理日前用户的问题。 第二,咱们深入挖掘了用户在文库的需要。传统上,人们认为文库只是一个文档检索平台,但经过深入分析,咱们发掘用户找内容不仅是为了阅读,而是为了写作。咱们进一步探究了用户为么寻找内容,以及找到内容后她们要做什么。咱们认识到,用户的核心目的不是为了找内容本身,而是为了支持她们的写作需要。 写作有两条路径,第1条路径,善于写的用户上手打开编辑器就写了,还有一种不会写的用户,她们第1步需要找素材。 50% 的用户属于第二类,她们需要找素材并进行组合和编辑。即使是善于写作的用户,在写作过程中常常需要寻找专业素材和灵感。这些都是文库用户的需要表示出找和写的需要实质上是一个统一的需要,只是因为过去的技术水平限制,这个过程不得不被分割在区别的工具和平台上进行。张鹏:因此在技术进步的推动下,文库有机会更深入地满足用户需要了。王颖:咱们起始晓得用户有一个完整的需要,但原来的技术和制品限制只能处理其中的一部分,只能加强一部分效率。其实, 人工智能的本质是让设备像人同样思考。做人工智能制品,就要让制品像人同样工作,帮用户完成所有工作。咱们最初的重构思路是:既然有了这种技术, 咱们要让制品像人同样工作,端到端地处理问题,而不是只处理一个环节的问题。 非常多人认为文库是用来搜资料的,质疑咱们为何要用大模型。能够回想一下去年 3 月份,非常多平台是这么做的:用户搜索不到内容时,她们用大模型生成一篇给用户。可是这种做法并处理用户的本质需要。就像咱们买米是为了做饭吃饱,而不是为了单纯持有米。 咱们起始目的是让制品像人同样思考,端到端地处理问题,在实现这个目的的过程中,确实遇到过非常多问题。 用户对文库的认知是一个资料库,用来存储和查询资料,这个认知非常剧烈咱们要做的第1件事是让用户过来查询资料,并让用户继续留在这儿,让她们晓得文库帮忙写作。 因此咱们在理解到用户在查询资料后可能需要编辑和创作时,就供给相应的能力,当技术进一步成熟时,咱们就直接搭建新功能支持写作,例如后续文库就推出了各样格式的写作功能,到此刻文库又推出的全新 App——橙篇,用户不仅能够查询资料,还能够直接进行写作。张鹏:在找到文档和内容后,用户还需要对它们进行进一步加工、转化和存储,使其将来能够结构化运用因此第1步是将这个过程延长,而不是直接到写作周期,这些工作是什么时候进行的?王颖:用户进入文库后,咱们不仅供给文档搜索能力,还供给写作关联的能力。当你找到一篇文档后,能够进行扩写、改写,乃至基于文档内容制作 PPT。 这些工作是在去年 5 月份之前进行的。当时咱们编辑器,因此呢只能先做这些基本工作。而后咱们一边研发编辑器,一边进行 AI 渗透,让用户晓得文库有 AI 功能,AI 对写作有帮忙,这是一个并行的过程。编辑器做完以后,咱们直接推出了完整写作功能,用户就能够直接进入写作周期张鹏:文库有画本的功能,这个功能用户的反馈怎么样?王颖:画本功能分享率很高,有 30%。这个功能成本有点高,不外推出一个半月咱们已然把成本下降了一个量级,到今年年底成本应该都算不上包袱了。 此刻文库所有的 AI 功能优化到位就不推,此刻由于到位了,因此起始推了,转化率尤其好。张鹏:因此文库不但交付实现了正反馈,商场做到了正循环。王颖:咱们从一起始做项目,便是从一张损益表起始的。

02

「模型接入」的挑战

张鹏:那样后来真正把模型接入,是很简单的事吗?还是说需要和模型团队磨合很久?王颖:咱们觉得很简单。大众运用模型的理解区别。以前的模型是解决专用问题,此刻的通用模型处理非常多问题。 通用模型有它的限制,因此咱们用 MoE 来处理问题首要,通用模型能力有限,我不可全都用大模型,那样成本太高,此刻 AI 应用赔钱便是由于成本问题。 咱们把大模型看作大脑,它负责理解和分工,繁杂的问题用大模型处理,其他的功能用区别的模型来做。 事实上,文库做到今天,咱们有对模型进行精调,但并用想象的那样多的精调数据,由于需求的不是数据数量,而是数据质量够不足好,够不足平衡。并且,文库有自己的算法工程来做 Prompt(提示词)优化,包含运用区别尺寸的模型来执行区别的任务,最后将它们整合起来,形成一个协调一致的系统。 文库从第1起始,就让制品像人同样思考,像人同样工作。这种思考和分工是连续进行的,咱们从来在大模型上纠结过。 到日前为止,咱们和大模型团队一块真正合作研发的定制能力仅有两个:一个是字数掌控大模型的多样性决定了依从性问题的存在:模型团队一起始不可完全理解这个需要由于在搜索场景中,字数长短内容无所说,但对文库用户来讲同样倘若用户需求写 500 字,它却写了 1500 字,就给用户增多了删减的包袱此刻,文心一言在字数依从性上能够做到上下浮动 5%。另一个是理解和生成:咱们供给非常多文档解析能力,以及专业文档的标准和专家标准,而后模型去训练这些内容。这两件事是咱们与模型团队真正共建的。

03

AI 重构,

核心在于「价值」

张鹏:你需求制品团队首要针对模型有基本性的理解,且对自己怎样运用模型,一上来就要清晰的认识。王颖:对,此刻的组织结构中,制品和策略是要融合的。过去的工作流程里,是算法团队来负责策略算法,制品负责提需要制品团队供给制品原型能够了。此刻这种模式行不通了,每一个人都要渗透到对方的行业。原来是阵地型打法,此刻得全攻全守往前推进。张鹏:是什么让你下定决心必须这般王颖:标准不一致就会引起目的不一致。另一,交付不等于用户满意。成熟的业务有知道的标准。但针对全新重构的项目而言,倘若创立知道的标准,光是以理学上线为目的,而不是以用户的实质满意度为目的,是行不通的。 张鹏:上一个时代的制品经理需要懂人性,但今天光懂人性不足,还需要懂模型。王颖:对,由于咱们创立的是人和设备沟通的桥梁。 张鹏:你是怎么管理制品需要、定义和实现效果的?王颖:我会把各方面都搞得清晰。从最起始需要判断是不是应该这么做,制品怎么定义,那些明显的卖点,应该实现什么样的效果。制品图,包含交互设计和有些 UI 设计,会带着团队一块来做。区别的生成路径会关注,例如做 PPT 的生成路径和做漫画的生成路径是不同样的。然则在同一个制品中又不可让用户在生成区别内容或区别品类时,都感觉像在运用一个区别的东西同样。这些流程需要重新设计。张鹏:做完第1步,把第1个延长线画了,看到什么样的数据变化?王颖:用户运用时长有变化了,翻倍了。 张鹏:上线多长期看到的?王颖:大概是一月不但运用时长翻倍了,留存提高了。 张鹏:怎么从时长的翻倍,去诠释用户的收获?王颖:看结果。以前的用户基本上是找到就下载,时间很短。此刻发掘用户有了更加多的互动,会调用各样功能,自然时间就变长了。 还有一个关键指标是下载完成后本地运用。毕竟下载可用了,才会下载。张鹏:下载下来寓意着有效交付完成为了王颖:对,要么下载,要么分享转发。还要关注留存和活跃留存率,便是用了某项功能的用户,次日再次运用的比例是不是超过以往。仅有用户觉得功能有用,才会再次回来运用。就像去饭馆吃饭同样倘若今天欠好吃,明天还会再来的人肯定不多。 张鹏:做到这一步有繁杂的技术挑战?王颖:非常多,举个例子,在初期的文档写作中,除了大众熟知的幻觉问题 还有字数依从方面。其实非常多时候扩写 1.5 倍就够了,但之前有有些大模型的扩写长度赶上重写一篇了,这就不太好。文库推动处理便是这一点。 张鹏:怎么去定义字数依从性的恰当指标?扩写要做好是怎么做到的?王颖:咱们做了海量调研去认识用户对扩写的期待是什么样的。用大模型重构制品的时候,非常多人不晓得标准怎么创立,但其实标准不是存在于行业,而是藏在用户心里。 用户对新事物总是有所期待,咱们得去满足这些期待,高太多,用户可能不睬解,小于期待值更不行。找到用户的期待值,比它高一格便是标准。 制品刚上线的时候,咱们邀请测试、守护了四个用户群,每一个群里有两百人,版本出来就给这些群里的用户运用她们会给到有些反馈。张鹏:因此扩写是在这一波前期测试过程其中,用户提出问题,而后你们反过来进行调研,到底应该怎么扩写。王颖:对,由于 Prompt 处理不了这个问题。有些大模型问题是 Prompt 没法处理的。大模型的特性便是多样性,而多样性会引起依从性差,这是必须要处理的问题。此刻通常的扩写比例是 1.5~2。张鹏:因此这是一个扩写的黄金比例。在做这个的同期你们还在搭编辑器,这个事情繁杂吗?王颖:繁杂繁杂之处在于几个方面。 首要区别的文件类型需要区别的编辑器,例如 Word、PPT、Excel 需要的编辑器都不同样。这引起用户在处理文件时需要频繁地切换。 其次,进入编辑器之前,文件可能存在多种格式,增多了处理的繁杂性。 最后,编辑器本身的工具非常繁多,运用指令繁杂每一个编辑器可能有数百个指令,倘若每一个都要实现,工作量非常巨大。 另外,这是一个强工程项目,像 Word 或 Office 这般制品本身是编辑器,咱们做编辑器不是要跟它们做同样制品咱们要做的是融合编辑器,这个编辑器要兼容所有的文件格式,用户不需要关心格式问题,只需要告诉咱们需要完成什么任务就可。 百度原来这方面对应的累积咱们是从头起始做的。张鹏:上线之后用户的反应怎么样?王颖:扩写和续写对编辑器的需求并不高。真正对编辑器需求高的是 PPT。PPT 功能推出之前,扩写仅限于文本,咱们对编辑器的理解和难度的把握都相对有限。 PPT 功能的显现,使得操作空间扩展了。首要,PPT 本身的制作难度就比文本要大;其次,此刻能够在同一个平台上进行格式转换,融合编辑器的优良表现出来了。倘若只限于 Word,能做的就只是文字处理,但有了融合编辑器,不仅能够处理 PPT,还能实现 PPT 与 Word 之间的格式转换,乃至还能制作图表。张鹏:PPT 能力上线之后,用户能显著感觉到文库编辑器的道理所在了。接下来用户数据变化怎么样?王颖:非常显著各样用户数据曲线陡峭提升。去年 9 月到 10 月,DAU 从 30 万爬升到 140 万。 张鹏:因此文库接下来会是什么样的制品定义?王颖:一站式 AI 内容获取和创作平台,所有创作从文库这儿起始就好了。张鹏:分发怎么做,有一键转发功能吗?王颖:有。用户不需要思虑素材的源自、格式详细细节,她们只需将内容供给给文库,输出支持包含存储、转发、分享等。 张鹏:这般听下来,文库像是个人写作的操作系统。王颖:对,除此之外,还期盼文库有自己的生态,能够分发内容。张鹏:Robin 说文库是被 AI 重构最好的制品,你有听他定义过他认为的好是在于什么?王颖:核心便是价值,为用户、行业带来什么价值,有价值重构,供给价值增量。 给用户供给了价值,用户就会用脚投票同期 价值会反哺大模型,利用人类行径反馈提高自己性能。

04

橙篇——

「长文创作、批量赋能」

张鹏:文库近期推出了橙篇这个制品,对它的定位是什么?王颖:咱们期盼 橙篇能够成就人生新篇章。除了专业写作以外,橙篇将来还将注重休闲娱乐性质的写作,以及分享互动的功能。

张鹏:文库这般的平台本身支持创作,橙篇的推出是出于什么思虑

王颖:用户在创作过程中存在两种状况:一半的用户由于晓得怎样着手起始,需要找资料参考,另一半则能够直接起始写作。尽管文库已然累积了 15 年的经验,持有广大用户,但大都数人仍然将其视为一个资料搜索平台,而非创作起点。 在短期内,文库是一个内容获取和创作的一站式平台的认知还需要逐步创立,但咱们需要一个平台来尽快满足用户直接创作的需要,这便是橙篇的定位。 咱们期盼经过橙篇从创作的最初周期就为用户供给支持,同期经过专业知识内容的辅助来提高创作质量、拓宽创作服务范围。张鹏:能够有一小股部队像创业机构做新锐制品同样,更有活力。王颖:对,包袱,能够非常多尝试。 张鹏:用户有给到有些什么反馈,对后续做制品指点功效的?王颖:呼唤赶紧出一个 App,需要更加多的体裁和品类,期盼更加多表格处理能力。张鹏:用户在橙篇写作的话,重点写些什么类型?王颖:长文非常多,大多在 5000 字以上。 张鹏:写作通用性还能够王颖:对,咱们强调专业性。 咱们始终有在长文和专业内容上发力为何这般做?由于大学生用户是传播力最强的用户群体,因此咱们首要要满足她们需要,在长文理解和写作方面,进行了专门的调节另外,为了应对大模型不足专业的问题,从去年 7 月份起始咱们起始建设专业内容,海量引入专业资源,全覆盖 Nature 这般的头部期刊以及海量专业数据和出版社资源,这些其他大模型尚未涉足。这些工作是在去年 5、6 月份起始的。毕竟大模型有幻觉,有专业性不够的问题,因此比较早就起始准备这些。张鹏:因此你们是期盼写作这件事情,更加多人当成更平常的东西,怎么做到这一点呢?王颖:对,本质便是两件事,要么因此呢得到尊重,要么因此呢挣到钱。那咱们就做好两件事,一个是分享,一个是激励。 咱们此刻非常多 IP 合作,用户能够自由创作并分享作品。经过分享,让更加多人看到成果,满足了分享展示的需要。画本功能便是出于这个原由研发的。 激励方面,用户创作小说后,咱们经过多个内容分发平台进行分发,产生的收入会与创作者分成,这般用户就有了动力。 画本同样,只要用户的创作在平台产生的利润,都会分给用户。即运用直接在平台创作或分享内容,只要她们有所贡献,会有代币奖励,这些代币能够用于完成任务,例如制作 ppt。倘若代币不足,用户能够经过继续创作或购买来获取更加多代币。这是咱们在做的有些尝试。张鹏:以小说为例,此刻是供给不足、需要不足还是连接不足?王颖:此刻是供给不足,而不是需要不足。首要,小说用户占了全部中国用户的 50%,这个比例远远超出想象。咱们本来认为小说用户是十八九岁到三十几岁的青年人,但实质上,小说用户的年龄范围非常广泛,从十几岁到六七十岁都有。 需要已然非常显著,但供给却跟不上。供给能够分成几个层次,头部作家始终被催更,显然是供给显现了问题。例如,烽火戏诸侯一章要写十万字,创作时间很长,始终被催更。爽文、脑洞文一样如此。 优秀供给不足,不是说书放在那儿没人看,而是能让大众连续看下去的好书不多。咱们发掘,老白文人均阅读本书是 1.3 本,而脑洞文是 3 本多,读者阅读速度火速,而供给足够的话,读者还会继续阅读下去。问题在于,好的供给还是不足,这是非常显著的问题。张鹏:因此能够理解为橙篇的目的经过这个操作系统,帮忙更加多有效的供给批量产生。王颖:对,有效的供给能够分为几类,每种都有其标准。首要是情节感人、文字优美、文笔不错的优秀供给;其次是虽然有好的情节但非常多人卡在表达环节,这个问题大模型能够处理。 小说后续能够衍生到漫画行业,漫画供给问题尤为明显咱们和创作者合作进行了实验,有家机构尝试对两到三部漫画实施日更策略,以此来测试是不是能够吸引更加多的关注。结果表示,尽管付费率保持不变,但阅读量确实有所增多张鹏:有效供给最后特别有可能变成多模态。王颖:咱们本身具备多模态能力,此刻没上橙篇是由于人力不足,还没来得及研发出来,之后会上线的。

05

文库和橙篇的将来

张鹏:百度文库和橙篇是怎么经过用户行径数据实现数据飞轮效应的?王颖:例如说在文档平台上,咱们按照文档的下载次数来筛选出比较优秀的文档,而后让大模型重点学习这些文档。 PPT 工具中是类似,系统会自动供给已然整理过的照片,并生成提示,用户能够按照这些数据进行修改。 漫画的话,一般同期生成两张照片供用户选取,成本比较高,但效果并不是太好,由于有时候用户对哪张都不太满意。张鹏:这种状况能够做局部修改?王颖:漫画功能支持局部修改。 张鹏:这般处理了一致性的问题。王颖:一个是一致性问题的处理,另一个是满意度的加强。例如用户只对图像的脸部满意,而对身体部分不满意,那样评分可能仅有 60 分;而倘若整体都满意了,评分可能会达到 80 分。 张鹏:这种方式在交付、交互和数据循环上都是有效的。王颖:对,咱们会在模型上进行局部掌控例如咱们将分享和转发按钮放在显眼位置,方便用户操作后进行分享和转发。这般的设计不仅能够提高用户体验,能更有效地引导用户参与,为后续进一步优化供给参考。 张鹏:橙篇算是文库下面一个「特种部队」?王颖:它跟文库是平行的两个制品然则底座的基座能力、基座算法、编辑器都是一套,区别重点在于前端的交互方式,除此之外,便是区别制品团队在与模型对接。张鹏:橙篇与文库为用户供给了两种典型的创作方式:一种是原生创作加资料参考,另一种是资料参考加创作,最后目的都是打造创作的操作系统,两者的价值在于解锁更加多高质量的内容供给,从而激发需要,并经过内容分发创立连接,最终形成完整的闭环。王颖:对,先从激发需要起始张鹏:过去发掘,互联网行业里只要能够指数级提高创作者的数量,就有机会诞生新的分发平台。你们相信此刻又有这般的机会了。王颖:文库的目的是平衡消费者和创作者之间的关系。过去,消费者远远多于创作者,由于非常多人觉得创作是一件很难的事。 文库的核心是让每一个消费者都能作为创作者,经过进一步降低创作门槛,扩大创作者群体,促进更加多内容的涌现,从而吸引更加多人来消费。 张鹏:文库怎么定义 24 年的目的这儿面的优先级是什么样的?王颖:最重要的是有多少用户运用便是 DAU MAU。这可能不是独一的标准,然则是很客观的标准。用户愿意运用乃至连续运用某个制品,说明这个制品真的给她们带去了价值。针对文库这种依赖用户主动参与的线上业务,这是很重要的。张鹏:将来文库里的交互会显现基本性的变化吗?王颖:会。此刻有一个改版在酝酿了,后面还会有一个版本。 张鹏:交互变化的思路原则是什么?王颖:更倾向于自然交互。7 月底,橙篇 APP 出来之后,应该会跟完全大众想的不同样*头图源自:百度文库本文为极客公园原创文案,转载请联系极客君微X geekparkGO返回外链论坛: http://www.fok120.com,查看更加多

责任编辑:网友投稿

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|外链论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-10-5 15:31 , Processed in 0.259151 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.