「搜索」并不局限于咱们常说的搜索引擎、搜索框,实质上,问答设备人本质上亦是一种「搜索」,输入关联查找,返回最接近或最关联的答案。
今天,咱们将演示怎样利用 Jina 整家桶,创建一个智能问答设备人,并将其安排到云端。
研发过程一览:4 步创建问答设备人
新冠爆发之初,人们对这种新型病毒充满疑问,本教程将以疫情关联的问答为应用场景,以普通 Chatbot 的交互形式为依托,最后实现用户在终端键入查找(问题)后,智能问答设备人能够输出关联的答案。
创建问答设备人的过程包含:
1、加载数据到搜索应用
2、创建并运行 Flow 索引数据(数据编码并将向量和元数据存储到磁盘上)
3、运行相同的 Flow,用户输入问题进行搜索
4、在浏览器中运行 GUI
从 0 到 1:研发过程详解
1、下载数据集
下载 COVID-QA 数据集,你能够:Clone GitHub Repo 或在 Kaggle 下载。
COVID-QA 数据集详情一览由于本示例中,咱们只会用到问答关联的数据,因此呢仅运用 community.csv 文件就可。该文件中包含 400 多对源自 4 个大洲、15 个英文网站的关联 QA。
2、设置
创建一个名为 config.py 的文件,便于后期修改基本设置:
PORT = 23456 # which port will we run the REST interface on?
NUM_DOCS = 30000 # how many rows of the CSV do we want to index?
DATA_FILE = "./data/community.csv" # where can we find the CSV
安装 DocArray 和 Jina:
pip install docarray jina
3、将数据转换为 DocumentArray
Document 是 Jina 的原始数据类型,文本、图像、音频、视频等各样类型的数据,都会转换为 Document。一组 Document 构成一个 DocumentArray。
以上功能都能够经过 DocArray实现。
本示例中,每一行 CSV 文件都会被视为一个 Document,所有 Document 构成一个 DocumentArray 后,才进行下一步处理。
利用 DocArray 的 from_CSV 功能,能够快速处理 CSV 文件。在 app.py 中运用 from_CSV:
from config import DATA_FILE, NUM_DOCS
docs = DocumentArray.from_csv(
DAT
|