分类:: NLP

【文本相似度】利用余弦相似性计算句子的相似度

好吧,在处理文本的过程中有陷入了一个胡同,不知道接下来该做啥了。于是又在网上找相关的资料,无意间发现了两篇写得超级超级好的博客,是讲文本相似度,之前也学过,但是这两篇博文写得非常棒,深入浅出。然后也按照博文进行了代码实现,在此记录下,也作为文本相似度相关文章的第一篇。

【NLTK基础教程】02 何为文本歧义

文本歧义,书中的定义式从原生数据中获取一段机器可读的已经格式化文本之前所要做的所有预处理工作,以及所有繁复的任务。该过程涉及到数据再加工,文本清理,特定项处理,标识化处理,词干提取或词型还原以及停用词移除等操作。