Stanza 是一款由斯坦福大学 NLP 组研发的自然语言处理库,旨在为科研人员和研发者供给有效、准确的多语言 NLP 工具。其设计注重速度和准确性,并支持多种语言,如英语、中文、法语和德语等。Stanza 供给了一系列功能,包含分词、词性标注、命名实体识别和依存句法分析等。与其他 NLP 库相比,Stanza 运用预训练的神经网络模型进行各样任务,供给了高度可配置的模型和流水线,以满足区别的需求。
安装:
pip install stanza
中文处理实例:
import stanza import os nlp = stanza.Pipeline(lang=zh, processors=tokenize,lemma,pos,download_method=None) text = "在爱情的世界里,每一个眼神都是一首深情的诗,每一个微笑都是一幅温馨的画,而每一次相遇都是命运的安排。" doc = nlp(text) for sentence in doc.sentences: for word in sentence.words: print(f"{word.text} {word.lemma} {word.pos}")
输出:
2024-06-09 20:38:07 INFO: Using device: cpu 2024-06-09 20:38:07 INFO: Loading: tokenize 2024-06-09 20:38:07 INFO: Loading: pos 2024-06-09 20:38:07 INFO: Loading: lemma 2024-06-09 20:38:07 INFO: Done loading processors! 在 在 ADP 爱情 爱情 NOUN 的 的 PART 世界 世界 NOUN 里 里 ADP , , PUNCT 每 每 DET 一 一 NUM 个 个 NOUN 眼神 眼神 NOUN 都是 是 AUX 一 一 NUM 首 首 NOUN 深情 深情 ADJ 的 的 PART 诗 诗 NOUN , , PUNCT 每 每 DET 一 一 NUM 个 个 NOUN 微笑 微笑 NOUN 都是 是 AUX 一 一 NUM 幅 幅 NOUN 温馨 温馨 ADJ 的 的 PART 画 画 NOUN , , PUNCT 而 而 ADV 每 每 DET 一 一 NUM 次 次 NOUN 相遇 相遇 NOUN 都是 是 AUX 命运 命运 NOUN 的 的 PART 安排 安排 NOUN 。。PUNCT
英文翻译:
ADP: 介词 PART: 介词或小品词 NOUN: 名词 PUNCT: 标点 DET: 限定词 NUM: 数词 AUX: 助动词 ADJ: 形容词 ADV: 副词
可能显现问题:
下载模型文件失败能够手动下载模型文件和json文件到复制到stanza_resources目录里:
json文件:
https://gitee.com/pingyuanyi/stanza-resources
模型文件:
https://gitee.com/modelee/stanza-zh-hans
返回外链论坛:www.fok120.com,查看更加多
责任编辑:网友投稿
|