腾讯文档AI助手技术实践

j8typz · 发表于 2024-9-28 19:11:37

作者：tensorchen

本文从技术应用架构以及AI大模型赋能方向介绍腾讯文档AI智能助手的探索和实践之路。做为一款集多功能为一体的AI制品，腾讯文档全品类与AI进行了深度融合，全面提高用户生活和办公中的效率。经过腾讯文档AI，你脑海中灵光一现的Idea能够快速转化为仔细的内容，在各样类型的文档中同源流转。同期，面对纷繁繁杂的信息，腾讯文档AI亦能够加以分析处理，帮忙你从海量的信息中提炼出有价值的内容，从而将她们转化为属于你的认知。

第1章：大模型给效率工具带来的挑战

随着ChatGPT的发布和火热，全世界的目光仿佛都聚焦在了大语言模型上；其强大的语言理解能力和生成能力、上下文记忆、学习纠错、思维链推理等关键能力的涌现，都标志着”AIGC“的发展到达了技术拐点。全世界的研发者手握一个如此威力巨大的雷神之锤，恨不得把所有的钉子都锤一遍，因此大模型火热的起始周期，有了这般的一个言论：”世界上所有的app都能够结合大模型重做一遍“。话语虽经不起推敲，但大模型在有些行业确实能够加强惊人的效率，尤其是效率工具行业，从以下几个宏观方向分析，确实给效率工具带来了极重的机会。

● 技术上：文本生成行业技术发展相对成熟

大模型落地最起始的应用，便是用于文本生成，同期在文本生成技术上发展亦是最快最成熟的，承载用户创作的效率工具是天然落地的有利场景，能够极重加强用户创作环节的门槛和效率。

● 用户上：关注热度极高

用户关注度是大众极容易忽略的一个分析方向，当新技术、新概念面世后，无论新技术有多厉害，最后是要落地作为制品服务用户的。叫好不叫座的技术/制品，并不是真正的好技术/制品。

从百度关键词搜索指数，能够看出ChatGPT面世败兴，所覆盖的用户面足够广、用户接受度和对其感兴趣程度极高，搜索指数峰值达85W，可算是今年的“互联网春晚”。过查找历史数据对比，可更加具象化的认识这次搜索热度：

上一个爆火的元宇宙概念，搜索峰值指数不外10W，不及这次ChatGPT的1/8。

22年除夕当天，春晚关键词搜索指数150W，这次ChatGPT的关注度峰值已达春晚的一半。

● 发展规律：工具始终在率先变革

历史不会重复，但会押韵。从过往历代新技术变革到此刻，每次工具都会率先的进行变革，一代人有一代人的生产力工具。

**

一样从全世界/全国的竞品数据表现来看，完全亦印证这件事：用户对文档类工具与AI的结合接受度高，需要旺盛，是这次大模型爆发后重点落地的优良行业。

全世界拜访量前100的AI制品中，共有12个文档类工具竞品上榜；全国拜访量前100的AI制品中，共有26个文档类工具竞品上榜。

是新机遇但亦确实是新挑战，对传统效率的革新并非一蹴而就，无论是用户认知教育、制品能力建设落地及差异化竞争、商场化模式都是新的挑战。本文会重点聚焦于 AI技术在制品落地环节及模型部分，其余部分不这里长篇幅展开，埋坑后续更新~

第二章：文档AI技术思维及架构

本章从技术方向介绍全部腾讯文档AI技术工程的详细实践架构，以及自己对AI应用落地的技术思考。

2.1 AI应用技术思维

在实质应用思维模式能够总结为：

1. 对人困难的，对AI亦困难

2. 能让程序做的，就不要让AI做

举个可能不完全契合的例子：

人捕鱼这件事：人思考决策运用渔网（工具）进行捕鱼。普通人不会实质制作渔网，普通人制作渔网需要有人教授关联技能，过程费时费力，成效低，见效慢。

AI起到的是授人的功效；工具起到是渔的功效

在文档实质案例中，AI帮助用户美化PPT这件事：AI理解用户需要美化PPT，AI决策运用PPT美化工具进行美化。AI不会实质美化PPT，AI美化PPT需要有人教授AI关联技能（海量的高质量的PPT美化关联数据进行模型训练），过程费时费力，成效低，见效慢。

"将全部PPT的字体调节为宋体" 任务

AI: 用于处理对话中理解用户调节字体的意图和详细的字体类别

工具：文档PPT调节字体工具进行实质的执行

"创建一个关于明朝历史的PPT" 任务

AI: 用于处理对话中理解用户创建PPT意图和主题明朝历史

AI：基于明朝历史这个主题生成大纲和仔细文本内容

工具（搜图工具）：基于大纲进行照片搜索，实施PPT配图

工具（PPT模版）：基于大纲，文本，照片 + 模版，生成完整PPT

腾讯文档自己业务包括许多品类，例如Word，Excel，PPT，PDF，收集表（Form），思维导图，流程图，智能表格（SmartSheet），智能文档（SmartCanvas）以及正在进行中的白板品类。

区别品类是以产出为导向构建的制品形态，内容和形态叠加在一块，（Word需要调节格式，PPT大众需要学习美化）。其核心在于内容信息的表达。

因此呢，落地腾讯文档AI应用时，从技术方向思考一般 应用AI处理内容关联问题，应用工程处理形态或样式问题。

2.2 文档AI技术架构

● AICopilot：供给AI侧边栏对话入口服务，重点负责对话的意图识别工具分发，意图保持，柔性处理，缓存规律，会话存档等能力。

● AIServer：供给各品类独有浮层助手能力。

● AIAgent：定位置于AI智能体，日前重点供给文档各品类的能力工具集合，被上层服务的意图识别后所实质的驱动的接口。

● AIEngine：文档的AI引擎服务，触及对AI关联能力的抽象和封装，保持统一抽象定义（重点包括文生文，文生图，TTS，ASR，OCR，Embedding等AI能力的抽象），屏蔽区别AI能力间的差异，奠定文档能够在区别AI能力进行无缝切换的基本。

● AIOperation: 文档AI关联的灰度策略，隐私授权（柔性），运营操作。

● AIExtension：AI拓展服务，重点包括和规划为AI应用落地过程中的其他支撑能力，例如文本搜索，照片搜索，Python执行引擎。

2.3 文档AI中台架构

文档AI中台的概念初始于腾讯文档这款制品本身就存在10种品类，期望以中台处理方法的形式为区别品类进行赋能，同期亦是这般实践和落地。此不仅在于腾讯文档制品本身，依据分部内整体制品矩阵，亦更需要将文档xAI基本能力做为中台，交付和赋能区别的制品。

文档AI中台同详细模型和制品应用解除耦合，形成为了能够为区别制品赋能的文档xAI处理方法，供给对文档AI行业的整体处理方法，赋能不同的AI应用制品。

2.4 中书阁AI应用框架

在文档AI应用和中台落地过程中，亦将AI技术和周边能力生态抽象实现为AI应用框架，其定位：AI应用落地的应用框架建设。愿景：AI For Everyone，降低AI应用技术门槛，提高AI应用开发效率。

理念：

1.标准化：重点承接Oteam前两项内容 AI应用标准和 AI应用规范，其将经过AI应用框架的标准化建设最后输出给业务开发者。

2.可视化：在大语言模型应用中常常遇到多次同大语言模型交互并调用外边工具，对其中的过程的可视化将有助于开发调试，问题定位以及运营分析等。

框架将供给UI平台，供给LLM应用过程的可视化界面（包括耗时分析，Token消耗等等内容）。

框架亦将供给LLM的可观测性，供给基于OpenTelemetry标准的监控，分布式跟踪和日志等数据的上报。

3.多语言框架：将供给多语言实现，以满足不消业务应用场景和业务技术栈。

对非AI专业友好，框架站在运用者方向进行模块和能力抽象，多语言供给AI应用研发聚焦在AI制品能力落地及效果优化。

第三章：文档AI应用侧技术实践

3.1 问答场景应用

文档制品最核心能力之一是信息传达，海量的信息中对信息进行AI问答是关键AI落地场景之一，在文档中触及对Word，PPT，Sheet，思维导图，收集表，知识库等场景内容的问题。

文档的AI应用工程实现关键一点在于搭建文档问答的基本处理方法。处理此类的问题的关键在于怎样让大模型理解行业知识（特定文档中的内容信息）。

一般有两种处理方法:

● 方法一：行业知识经过FT方式进入模型的权重文件中或经过LoRA动态叠加到模型权重文件中。

● 方法二：经过Context的方式即时的将行业知识传入模型。

用户的文档信息，是用户自己的信息的集合，它重点服务于用户自己。咱们不可能为每位用户专门训练模型，基于时效性的思虑用户文档经常变更，亦不可能每次变更重训模型，其次基于用户隐私的思虑，咱们亦不可能将用户数据拿来进行训练。显然方法一不可行。

那样在文档中实质进行落地的亦是方法二：经过Context的方式即时的将行业知识传入模型。

这种技术被叫作为 RAG，RAG （Retrieval-Augmented Generation）搜索加强生成技术，亦便是一套基于特定知识库的检索召回和大模型模型生成的技术方法，用于处理大模型中各样繁杂的知识密集型任务，如知识问答。

整体处理方法由如下模块串联完成：

l 文档加载：定义统一的 Document 数据模型，将实现默认典型的数据源加载实现，业务方亦能够按照接口自定义实现自己所需文档数据源。

文档分片：大语言模型上下文体积有必定限制，需要将海量数据进行分割操作。

文档Embedding：Embedding过程将对应文本向量化，以供给更好的语义表达。

文档向量存储：运用向量数据库存储文档向量信息。

文档召回：按照用户输入的问题召回跟问题最关联的文档信息。

问题解答：按照召回文档资料 + 用户输入问题供给给大语言模型进行知识问答。

为处理如下两种场景，在原有架构上规划进行进一步的升级。

1.处理元数据问答、总结、非总结类问题

2.处理触及多模态文档的问答

3.2 意图识别应用

依在文档AI实质产生应用效益，需要将用户意图实质转化为详细的行径

挑战一：上百种指令场景

挑战二：意图和任务流程各不相拥，经过会触及多种工具的串联

如下实质用户运用的示例:

结合用户区别输入应用场景，落地AI功能，关键在于 意图识别 和 任务编排

● 经过PromptID为独一任务索引

● 将能力标准化工具化

● 经过As Code形式对任务进行编排（参考gitlab的，利用yml进行任务编排上百种任务场景）

用户意图更大的挑战是多意图识别，用户可能同期进行字体调节和字号调节，针对以上的处理放哪，咱们是不可能运用单个function call处理问题的，function call的参数有限，亦没法预测所有的用户行径。

那样可行的大概两种：

方法一：多轮Function Call

方法二：生成代码

最后咱们规划运用生成代码的方法，重点多轮function call实现上没法处理任务次序问题，而经过生成的代码是可行的。

3.3 表格应用场景

表格场景最大的挑战是表格内容容量，按照日前大模型的context容量，大概只能支持有限个单元格。超大表格处理方法，核心策略在于：将原有AI返回结果升级为AI返回得出结果的方式办法（即代码）。

第四章：文档AI模型侧技术实践

4.1 创作场景模型

运用数据加强办法，强化薄弱能力

针对创作能力，运用self instruct、evol instruct等办法构造类似的种子指令、并经过繁杂化进化和泛化，进行数据加强。能够有一套比较标准化的流程：

● 收集种子指令：收集新需要，人工编写简单种子指令；

● 指令多样化：参考self instruct、evol instruct 宽度变换的做法，对种子指令进行多样性变换，覆盖更加多的行业、主题、形式等；

● 指令繁杂化：参考evol instruct 深度变换操作（例如：增多约束、增多参考示例、增多详细化操作等），为种子指令添加约束，让指令变得繁杂，为每一个指令增多3-10个约束要求；

● 指令泛化：对进化后的指令同意改写，进一步丰富表达方式和形式，每一个指令改写3-5种形式。

● 结果抓取：标注和抓取以上进化后的指令；

● 结果清洗：运用self-refine、人工检测等方式，抓取结果的准确率接近100%。

对比学习方式，提高理解稳定性

针对差别较小，难以区分的任务，例如：约束漏点、否定约束、数字需求等任务、专门构造对比样本，加入sft或进行强化学习。这类样本能够加入sft周期学习，能够构造pair数据，加入偏好学习周期。

● 局部对比：在约束数量较多的状况下，模型难以兼顾到所有约束。容易显现漏点问题。经过从指令中逐个去掉约束、其他部分不变的方式，增多局部对比的样本，让每一个约束在指令中显现和无显现的状况对应什么response，模型都见到过。

● 否定对比：针对否定约束，经过去掉否定要求和对否定要求取反的方式，构造对比样本

写一篇邮件，关于提前预约咱们的美容护肤师，享受专业的面部护理服务和个性化护肤方法举荐。邮件需包括邮件主题、收件人、发件人、正文等基本部分。在邮件中指出收件人需要在预约后的48小时内完成预约确认和安排护肤师的任务，并提醒收件人应经过tel或电子邮件回复预约信息。不要显现"顺祝商祺"

● 数字变换对比：对指令里的数字需求的数字进行变换，构造对比样本

编写一篇关于将来城市规划的短文，强调可连续发展和绿色出行的重要性。同期，探讨怎样有效利用现有资源，以减少对环境的影响。请务必包含最少三个创新性的规划策略，并在文中供给相应的实例或案例。

编写一篇关于将来城市规划的短文，强调可连续发展和绿色出行的重要性。同期，探讨怎样有效利用现有资源，以减少对环境的影响。请务必包含最少六个创新性的规划策略，并在文中供给相应的实例或案例。

4.2 表格场景模型

公式生成

公式生成除了能够识别基本公式需要外（“求A列的和”），还支持热门行业专业术语的理解，例如：用户问营运资金周转率最大的制品，基于混元知识包含能力，混元晓得【营运资金周转率=营销额/平均营运资金】，从而计算出每一个制品的营运资金周转率。

另外，在技术方法上运用了思维链（COT）+代码生成（POT）的方式，处理公式嵌套带来的效果不稳定的问题。

思维链（CoT）被认为最具开拓性和影响力的提示工程技术之一，它能够加强大型语言模型在决策过程中的表现。

CoT迫使模型将推理过程划分为中间过程。这种办法类似于人类的认知过程，将繁杂的挑战分解为更小、更易于管理的部分。

思维程序（PoT）是一种独特的LLM推理办法。它不仅是生成自然语言答案，而是需求创建一个可执行程序，能够在Python等程序解释器上运行，从而产生实质的结果。

PoT供给了一个更清晰、更具表达力和基本的答案推导模型，加强了准确性和理解力。

图表生成

图表生成的核心部分包含6个模块，其中拒识、分步改写、代码生成三个模块是基于大模型的推理模块，背面模型均经过了模型精调。

详细地：

拒识模型能够识别用户问题和表格的关联性，对与表格无关的问题或非绘图问题进行拒绝回复

分步改写模型针对区别表格和区别问题，将绘图过程拆解为多个可执行过程

代码生成模型按照绘图过程生成python表格可视化代码。

第五章：总结

结合腾讯文档AI落地过程，总结一下AI助手研发过程中的有些经验：

对人困难的，对AI亦困难

能让程序做的，就不要让AI做

应用AI处理内容关联问题，应用工程处理形态或样式问题

		自动登录	找回密码
密码			立即注册