二分类用sigmoid、多分类用softmax

为什么LR要用Sigmoid函数?

Sigmoid是逻辑回归作为glm的link函数。之所以用它是因为:
1. 线性模型的输出都是在[−∞,+∞][−∞,+∞]之间的,而Sigmoid能够把它映射到[0,1][0,1]之间。正好这个是概率的范围。
2. Sigmoid是连续光滑的。
3. 根据Sigmoid函数,最后推导下来逻辑回归其实就是最大熵模型,根据最大似然估计得到的模型的损失函数就是logloss。这让整个逻辑回归都有理可据。
4. Sigmoid也让逻辑回归的损失函数成为凸函数,这也是很好的性质。
5. 逻辑回归的损失函数是二元分类的良好代理函数,这个也是Sigmoid的功劳。