人工分类 if else

什么是分类业务,如何画边界线
样本构建分类模型,预测测试样本的类别

image.png
所有样本的下标 为 0 1 的部分切片
image.png
为点绑上 颜色,根据y 来上色 0 蓝 1 红

本质是拆格子,对每个格子做了预测,再涂色( 不是求解线,因为很多边界都难以描述)

image.png
拿到x 最小值最大值 y 最值
image.png
根据点 的范围,拆分边界内的画布,500 500
x 500
500 的x坐标, y 500 *500 的y坐标
image.png
piecewise 映射函数: 对x数组中的判断,为z 赋值
image.png
寻找边界线的过程十分缓慢
image.png
xy 组和 才能看到点

逻辑分类: sigmod 样本控制很好时,预测效率很高

image.png

也是线性函数 的非线性化的方式

逻辑函数 API

image.png
image.png liblinear 的含义

image.png
底层做了什么: 构建线性回归, 训练得到了 wi
将表达式放入 digmod

画分类边界线:
这次 z 要用预测得到,即对整个画布的xy 做预测,xy 由二维变为一维数组
500500 变为 2500001
对 250000个格子预测
image.png
执行思路明确,使用工具落地,空有算法屁用没有,好好学数据结构
sigmod 只能二分类

多元分类业务 图片

多个二元分类器 解决多元分类
image.png

image.png
分类器 仍然是普通线性分类器,当样本的标签y数量变化时,自动根据样本分布,配置多个分类器,得到三个预测域

多元分类的过拟合问题 边界偏离太大

image.png
预测边界怎么这么近,蓝色区域过大?
可能过拟合 调整C
image.png
按理说 越集中的样本,占据的空间应该小