文本聚类的过程

主要的过程其实主要的部分有三个:第一部分,分词处理,我们要把中文文章要进行分词,这一点中文文章和英文文章有一些区别,因为英文单词是单个构成的,也就不需要分词了,而我们中文是需要分词的,并且中文之间有一些词尽管大量出现,但是对于文章的分类结构起不到太大的意义,比如”的”,”了”,”么””应该”,这些词去计算他们既浪费空间又浪费时间,出于+1s的因素,我们也要节约时间啊,首先我们就加入一个停用词表,在

- 阅读全文 -

文本分类&聚类

按照处理的对象和处理的方法不同,可将常见文本分类/聚类任务分为以下几种:要实现上述目的,通常有以下几个核心问题要解决:特征选择用什么作为特征项用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须满足:能够标识文本内容、能够将目标文本与其他文本相区分、个数不能太多、特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语

- 阅读全文 -

基于UrbanSound8K与CNN的音频分类

  语音方面的资料不如图像识别的多,所以特地写了一份博客(并不如何严谨),希望可以帮到大家。  我们需要实现10种语音的分类:冷气机,汽车喇叭,儿童玩耍,狗吠声,钻孔,发动机空转,枪射击,手持式凿岩机,警笛,街头音乐  每个录音长度约为4s,被放在10个fold文件中。  我们采用keras(可以简单的认为keras是

- 阅读全文 -

Tensorflow环境搭建(Ubuntu18.04)

  本文是基于Ubuntu18.04的Tendorflow环境的搭建,经本人亲测可行,记录下来留作以后查阅。环境Ubuntu-18.04-LTSNVIDIA驱动-396GCC5.0CUDA9.0Cudnn7.1.3Tensorflow-gpu安装主要有以下步骤:检查(或更换)NVIDIA驱动的型号检查(或更换)gcc版本安装对应版本的Cuda并修改环境变量安装对应版本的Cudn

- 阅读全文 -