按照处理的对象和处理的方法不同,可将常见文本分类/聚类任务分为以下几种:要实现上述目的,通常有以下几个核心问题要解决:特征选择用什么作为特征项用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须满足:能够标识文本内容、能够将目标文本与其他文本相区分、个数不能太多、特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语

- 阅读全文 -