13 回归方法

一个简单的线性回归

\[ Y=X\beta+\epsilon \]

其中\(Y\)为n维向量，自变量\(X\) 为\(n\times p\) 的矩阵；误差项\(\epsilon\) 是一个n维向量，其中要求满足一个独立同分布的同时均值为零的条件。通常假定分布为正态的。

注意在日常中，t检验/F检验只是用于检查原假设的结果是否是显著的。但这个的前提是要在数据的分布为正态/拟正态才能真正达到实际的效果。

13.1 损失函数与分位数回归

最小二乘使用的是一个对称的二次损失函数，带有可加误差项的回归模型可写成以下的形式

\[ y_i=\mu(x_i,\beta)+\epsilon \]

其中\(\mu\) 是一个一般函数，拟合的过程中总是希望找到一个使得残差尽可能小的某个凸函数和使得其成立的向量\(\beta\) 因此需要一个凸损失函数

\[ \sum_{i=1}^n\rho(y_1-\mu(x_i,\beta)) \tag{13.1}\]

对于线性回归来说\(y=x_i^T\beta+\epsilon_i\) ，也就是将

引入其中得到

\[ \sum_{i=1}^n(y_i-x_i^T\beta)^2 \]

最小的\(\beta\) 成立

若一个损失函数为\(\rho(u)=|u|\) 这称为最小一乘回归

分位数回归：是一个最小一乘回归的特例。

\[\rho_\tau(u)=u(\tau-I(u<0))\]

当\(\tau=1\) 时候就是最小一乘回归。

library(quantreg)

Loading required package: SparseM


Attaching package: 'SparseM'

The following object is masked from 'package:base':

    backsolve

par(mfrow = c(1,2))
data(engel);plot(engel)
plot(log10(foodexp)~log10(income),data = engel,main="'engel' data ")
taus <- c(0.15,0.25,0.5,0.75,0.95,0.99)
rqs<-as.list(taus)
for (i in seq(along=taus)){
  rqs[[i]]=rq(log10(foodexp)~log10(income),
  tau=taus[i],data=engel)
  lines(log10(engel$income),fitted(rqs[[i]]),col=i+1)}
  legend("bottomright",paste("tau=",taus),inset=0.02,col=2:(length(taus)+1),lty=1)

13.2 生存分析的Cox模型

T为随机变量，在活过时间t的概率为

\[ S(t)=P(T>t)=1-P(T\leq t),t>0 \]

其中\(S(t)\) 为生存函数

library(survival)


Attaching package: 'survival'

The following object is masked from 'package:quantreg':

    untangle.specials

#fit <- survival::survfit(Surv(TIME,as.numeric(STATUS))~TX,data=u)

13.3 最小二乘性质

Theorem 13.1 令\(\hat\beta^T=(\hat\beta_0,\hat\beta_1)^T\)表示最小二乘估计，则

\[ E(\hat\beta|X^n)=\left(\begin{aligned}\beta_0\\\beta_1\end{aligned}\right) \\ V(\hat\beta|X^n)=\frac{\sigma^2}{ns_X^2}\begin{bmatrix}\frac1n\sum X_i^2&-\overline X_n\\-\overline X_n&1\end{bmatrix}\] 其中的\(s_X^2=n^{-1}\sum_{i=1}^n(X_i-\overline X_n)^2\)

13.4 岭回归

假定

13.5 Lasso回归

惩罚项由平方再到绝对值。

\[ (\hat{\alpha}^{(loss)},\hat{\beta}^{(lasso)}=arg\min\sum_{i=1}^n(y_i-\alpha-\sum_{j=1}^px_{ij}\beta_j)^2 \]