线性回归
如图,横坐标表示一个班20个学生的【身高】,纵坐标表示【体重】,它们之间存在某种相关关系。
任务:如果给出第21个学生的身高,如何预测其体重?
换一种说法,如果在一个测试集中,【真实体重】为y,【预测体重】为z,那么预测的误差为(y-z)的绝对值。任务等同于使成本函数(cost function)=sum((y-z).^2)最小化。
如果我们假设z=ax+b,线性回归的任务等同于通过变动参数a,b,使cost functionJ(a,b)=sum((y-ax-b).^2)最小化。
我们可以通过最小二乘法求其解析解:因为J(a,b)对于a和b是凸函数,δJ([a,b])/δ([a,b])=0的解析解即为线性回归的最优解。(见最小二乘法的推导)
另外一种方法是梯度下降算法,这种算法可以用含有4个神经元的人工神经网络来描述和求解。
神经元z的激活量为z=a*x+b,其中a,b为权重。每次训练都对a和b进行微调,a微调的幅度delta_a=-ebsilon*x*(y-z),直到数值收敛。