从 0 到 1，研发一个智能问答设备人

ikkhksvu · 发表于 2024-7-3 23:42:29

「搜索」并不局限于咱们常说的搜索引擎、搜索框，实质上，问答设备人本质上亦是一种「搜索」，输入关联查找，返回最接近或最关联的答案。

今天，咱们将演示怎样利用 Jina 整家桶，创建一个智能问答设备人，并将其安排到云端。

研发过程一览：4 步创建问答设备人

新冠爆发之初，人们对这种新型病毒充满疑问，本教程将以疫情关联的问答为应用场景，以普通 Chatbot 的交互形式为依托，最后实现用户在终端键入查找（问题）后，智能问答设备人能够输出关联的答案。

创建问答设备人的过程包含：

1、加载数据到搜索应用

2、创建并运行 Flow 索引数据（数据编码并将向量和元数据存储到磁盘上）

3、运行相同的 Flow，用户输入问题进行搜索

4、在浏览器中运行 GUI

从 0 到 1：研发过程详解

1、下载数据集

下载 COVID-QA 数据集，你能够：Clone GitHub Repo 或在 Kaggle 下载。

COVID-QA 数据集详情一览

由于本示例中，咱们只会用到问答关联的数据，因此呢仅运用 community.csv 文件就可。该文件中包含 400 多对源自 4 个大洲、15 个英文网站的关联 QA。

2、设置

创建一个名为 config.py 的文件，便于后期修改基本设置:

PORT = 23456 # which port will we run the REST interface on? NUM_DOCS = 30000 # how many rows of the CSV do we want to index? DATA_FILE = "./data/community.csv" # where can we find the CSV

安装 DocArray 和 Jina：

pip install docarray jina

3、将数据转换为 DocumentArray

Document 是 Jina 的原始数据类型，文本、图像、音频、视频等各样类型的数据，都会转换为 Document。一组 Document 构成一个 DocumentArray。

以上功能都能够经过 DocArray实现。

本示例中，每一行 CSV 文件都会被视为一个 Document，所有 Document 构成一个 DocumentArray 后，才进行下一步处理。

利用 DocArray 的 from_CSV 功能，能够快速处理 CSV 文件。在 app.py 中运用 from_CSV：

from config import DATA_FILE, NUM_DOCS docs = DocumentArray.from_csv( DAT

nykek5i · 发表于 2024-9-8 16:02:54

哈哈、笑死我了、太搞笑了吧等。

nqkk58 · 发表于 2024-10-4 00:34:47

你的留言真是温暖如春，让我感受到了无尽的支持与鼓励。

j8typz · 发表于 2024-10-6 08:36:33

外贸B2B平台有哪些？

j8typz · 发表于 2024-10-30 22:03:03

你的见解真是独到，让我受益匪浅。

		自动登录	找回密码
密码			立即注册