softmax
    比如输入是个图像2828 拉成784的向量
    对应的y=wx+b就是最后我们要的输出
    但是怎么变成我们想要的标签呢?
    就是对输出做softmax操作
    例如一个样本输出的o是[ 0.1978, 0.9631, -1.0407, -0.4919, -0.0370]
    对这个输出做softmax的得到y是[0.2113, 0.4543, 0.0612, 0.1060, 0.1671]
    这个输出y就是这个样本对应五种类别的概率
    image.png
    *精度问题

    方法就是y对应[0.2113, 0.4543, 0.0612, 0.1060, 0.1671]找最大的索引为1
    和结果y做等于 一样为1不一样为0 统计1的个数然后除于y的长度就是分类精度
    (精度到后面因为把softmax放到了交叉熵函数里所以没有显式的softmax,反正argmax选的是概率最大同样也是值最大的)

    损失函数
    image.png用交叉熵
    用yj的分布[0.2113, 0.4543, 0.0612, 0.1060, 0.1671]和 理想结果【0,0,1,0,0】做交叉熵