目录
1.新闻分类案例
1.1介绍
这是一个预测新闻分类的案例,通过给定的数据集来预测测试集的新闻分类,该案例用到的是libsvm库,实现步骤我已经写到代码里面了,每一步都有注释,相信很多人都能够看得明白。
1.2数据集下载
因为数据集比较大,不适合放到github里,所以单独下载吧,放到与代码同级目录即可。
有三个文件,一个是训练数据,一个是测试数据,一个是分类。
训练数据:https://pan.baidu.com/s/1ZkxGIvvGml3vig-9_s1pRw
百度网盘加速下载地址:https://www.baiduwp.com/?m=index
1.3libsvm库安装
LIBSVM是台湾大学林智仁(Lin Chih-Jen)教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包。其它的svm库也有,这里以libsvm为例。
libsvm下载地址:libsvm-3.23.zip
MAC系统
1.下载libsvm后解压,进入目录有个文件:libsvm.so.2,把这个文件复制到python安装目录site-packages/下。
2.在site-packages/下新建libsvm文件夹,并进入libsvm目录新建init.py的空文件。
3.进入libsvm解压路径:libsvm-3.23/python/,把里面的三个文件:svm.py、svmutil.py、commonutil.py,复制到新建的:site-packages/libsvm/目录下。之后就可以使用libsvm了。
Windows系统
安装教程:https://www.cnblogs.com/bbn0111/p/8318629.html
1.4实现步骤
1.先对数据集进行分词,本案例用的是jieba分词。
2.对分词的结果进行词频统计,分配词ID。
3.根据词ID生成词向量,这就是最终的训练数据。
4.调用libsvm训练器进行训练。
1.5代码实现
GitHub:点击进入
作者:@mantchs