2019-10-29 11:54:17

python第三方库:fuzzywuzzy句子与句子间相似度

27 / 0 / 0 / 0

在互联网中信息的重复性太大,许多的文章都是拷贝过来简单的修改一下标题而已,需要有一样的工具来检查标题句子之间的相似度,这里有一个库:fuzzywuzzy

安装

git地址在:

https://github.com/seatgeek/fuzzywuzzy

安装方法:

pip install fuzzywuzzy

使用方法

使用ratio 算出两个句子间的相似度。这里同样也支持中文。

>>> from fuzzywuzzy import fuzz
>>> 
>>> fuzz.ratio("this is a test", "this is a test!")
97
>>> fuzz.ratio("你好", "你好啊")
80
>>> fuzz.ratio("你好", "我不是")
13
>>>

Process 求出集合中相似的几个句子。

>>> from fuzzywuzzy import process
>>> choices = ["Atlanta Falcons", "New York Jets", "New York Giants", "Dallas Cowboys"]
>>> process.extract("new york jets", choices, limit=2)
    [('New York Jets', 100), ('New York Giants', 78)]
>>> process.extractOne("cowboys", choices)
    ("Dallas Cowboys", 90)

PS: 如本文对您有疑惑,可加QQ:1752338621 进行讨论。

0 条评论

0
0
官方
微信
官方微信
Q Q
咨询
意见
反馈
返回
顶部