一、实验目的

使用朴素贝叶斯对垃圾邮件进行分类。对于给定的训练数据集,首先构建词汇表,生成向量,将数据转变为稀疏矩阵;其次,基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对于给定的邮件,利用贝叶斯定理求出后验概率最大的输出,判断是否是垃圾邮件。

二、实验步骤

  1. 收集数据: 给定数据文件
    2. 准备数据: 用 Python 解析文本文件并进行分词处理
    3. 分析数据: 可视化并观察数据
    4. 数据处理:提取词汇表,构建稀疏矩阵
    5. 训练算法: 使用朴素贝叶斯算法,建立模型
    6. 测试算法: 对给定的邮件进行判断

三、实验要求

  1. 编写基于Python的算法代码,并检验分析结果。
    2. 尝试使用SVM等其他算法效果是否会提升。

baseline

完成实验1
baseline.ipynb

完整版

和svm比较
baseline.ipynb