前情提要
- 逻辑回归函数:σ(Z(i))=σ(wTx(i)+b)
- 带激活函数的逻辑回归函数:y^(i)=σ(Z(i))=σ(wTx(i)+b)=1+e−Z(i)1
- 损失函数:L(y^(i),y(i))=−(y(i)log(y^(i))+(1−y(i))log(1−y^(i)))
这里我们设置一个简单的置换:a=y^(i)
那么:
- 带激活函数的逻辑回归函数:a=y^(i)=σ(Z(i))=σ(wTx(i)+b)=1+e−Z(i)1
- 损失函数:L(a,y(i))=−(y(i)log(a)+(1−y(i))log(1−a))
我们这里如果想画一个计算图,应该如下(因为画图软件写数学公式要付费,下面只是示意图):
【w1,x1,...,wn,xn,b】⟹【Z=wTx(i)+b】⟹【a=y^(i)=σ(Z(i))】⟹【L(a,y(i))】
对于损失函数,一些公式如下:
- da=dL/da=−(y(i)/a)+(1−y(i))/(1−a)
- dZ(i)=(dL/da)∗(da/dZ(i))=a−y(i)=a(1−a)
- dwn=xndZ(i)
- db=dz
得到了dwn、db后,就可以更新这些参数值进行梯度下降,例如wn′=wn−r∗dwn
提示
这里用字母r来表示学习率,后面也可能用其他的字母来表示。
提示
这里说的主要是针对单个样本时如何计算逻辑回归的偏导数。
而成本函数的值是多个样本的累计求和的平均值。
同理,多个样本下的逻辑回归偏导数,就等于多个样本的累计求和的平均值