一. 实验目的
使用 Logistic 回归来预测患有疝病的马的存活问题。疝病是描述马胃肠痛的术语。然而,这种病不一定源自马的胃肠问题,其他问题也可能引发马疝病。这个数据集中包含了医院检测马疝病的一些指标,有的指标比较主观,有的指标难以测量,例如马的疼痛级别。
二. 实验步骤
- 收集数据: 给定数据文件
- 准备数据: 用 Python 解析文本文件并填充缺失值
- 分析数据: 可视化并观察数据
- 训练算法: 使用优化算法,找到最佳的系数
- 测试算法:为了量化回归的效果,需要观察错误率。根据错误率决定是否回退到训练阶段,通过改变迭代的次数和步长的参数来得到更好的回归系数
使用算法:实现一个简单的命令行程序来收集马的症状并输出预测结果
三. 实验要求
编写基于Python的算法代码,并检验分析结果。
- 尝试使用线性回归等其他算法效果是否会提升。
四. 实验过程
4.1 数据收集
源数据集地址:http://archive.ics.uci.edu/ml/datasets/Horse+Colic
4.2 数据处理
原始数据集没有列名,分类变量标记混乱,缺失值用?代替,需要进一步处理。
数据预处理.ipynb
数据预处理.ipynb
new_train.csv
new_test.csv
4.3 数据分析
4.4 算法分析与使用
5. 总结
…