常见有四种activation function

    1. sigmoid

    不常用,通常只有在output layer为binary classification时才会在output layer用

    1. tanh

    比sigmoid更好,但也不常用

    1. ReLu (最常用)
    2. leaky ReLu

    第二常用
    image.png

    tanh (相当于把sigmoid向下移动0.5):
    image.png

    tanh的优势在于将数据集中到0附近而不是0.5(sigmoid)
    sigmoid在binary classification (0/1)问题比较好用因为将数据集中到(0,1)

    不同layer可以用不同的activation function