标签:: NLTK基础教程

【NLTK基础教程】02 何为文本歧义

文本歧义,书中的定义式从原生数据中获取一段机器可读的已经格式化文本之前所要做的所有预处理工作,以及所有繁复的任务。该过程涉及到数据再加工,文本清理,特定项处理,标识化处理,词干提取或词型还原以及停用词移除等操作。