一、实验目的
使用朴素贝叶斯对垃圾邮件进行分类。对于给定的训练数据集,首先构建词汇表,生成向量,将数据转变为稀疏矩阵;其次,基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对于给定的邮件,利用贝叶斯定理求出后验概率最大的输出,判断是否是垃圾邮件。
二、实验步骤
- 收集数据: 给定数据文件
2. 准备数据: 用 Python 解析文本文件并进行分词处理
3. 分析数据: 可视化并观察数据
4. 数据处理:提取词汇表,构建稀疏矩阵
5. 训练算法: 使用朴素贝叶斯算法,建立模型
6. 测试算法: 对给定的邮件进行判断
三、实验要求
- 编写基于Python的算法代码,并检验分析结果。
2. 尝试使用SVM等其他算法效果是否会提升。
baseline
完成实验1
baseline.ipynb
完整版
和svm比较
baseline.ipynb