外链论坛

 找回密码
 立即注册
搜索
查看: 1|回复: 0

从 0 到 1,研发一个智能问答设备人

[复制链接]

662

主题

0

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99108330
发表于 3 天前 | 显示全部楼层 |阅读模式

「搜索」并不局限于咱们常说的搜索引擎、搜索框,实质上,问答设备人本质上是一种「搜索」,输入关联查找,返回最接近或最关联的答案。

今天,咱们将演示怎样利用 Jina 整家桶,创建一个智能问答设备人,并将其安排到云端。

研发过程一览:4 步创建问答设备

新冠爆发之初,人们对这种新型病毒充满疑问,本教程将以疫情关联的问答为应用场景,以普通 Chatbot 的交互形式为依托,最后实现用户在终端键入查找(问题)后,智能问答设备能够输出关联的答案。

创建问答设备人的过程包含

1、加载数据到搜索应用

2、创建并运行 Flow 索引数据(数据编码并将向量和元数据存储到磁盘上)

3、运行相同的 Flow,用户输入问题进行搜索

4、在浏览器中运行 GUI

从 0 到 1:研发过程详解

1、下载数据集

下载 COVID-QA 数据集,你能够:Clone GitHub Repo在 Kaggle 下载

COVID-QA 数据集详情一览

由于本示例中,咱们只会用到问答关联的数据,因此呢运用 community.csv 文件就可。该文件中包含 400 多对源自 4 个大洲、15 个英文网站的关联 QA。

2、设置

创建一个名为 config.py 的文件,便于后期修改基本设置:

PORT = 23456 # which port will we run the REST interface on? NUM_DOCS = 30000 # how many rows of the CSV do we want to index? DATA_FILE = "./data/community.csv" # where can we find the CSV

安装 DocArray 和 Jina:

pip install docarray jina

3、将数据转换为 DocumentArray

Document 是 Jina 的原始数据类型,文本、图像、音频、视频等各样类型的数据,都会转换为 Document。一组 Document 构成一个 DocumentArray。

以上功能都能够经过 DocArray实现。

本示例中,每一行 CSV 文件都会被视为一个 Document,所有 Document 构成一个 DocumentArray 后,才进行下一步处理。

利用 DocArray 的 from_CSV 功能,能够快速处理 CSV 文件。在 app.py 中运用 from_CSV:

from config import DATA_FILE, NUM_DOCS docs = DocumentArray.from_csv( DAT
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|外链论坛 |网站地图

GMT+8, 2024-7-6 17:39 , Processed in 0.096289 second(s), 20 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.