モデル推定
データの読み込み
- 今回の演習では、
lars
パッケージに含まれるdiabetes
データを用います。
data("diabetes")
head(diabetes)
線形回帰モデル
dia.lm <- lm(y~x, data=diabetes)
summary(dia.lm)
Call:
lm(formula = y ~ x, data = diabetes)
Residuals:
Min 1Q Median 3Q Max
-155.829 -38.534 -0.227 37.806 151.355
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 152.133 2.576 59.061 < 2e-16 ***
xage -10.012 59.749 -0.168 0.867000
xsex -239.819 61.222 -3.917 0.000104 ***
xbmi 519.840 66.534 7.813 4.30e-14 ***
xmap 324.390 65.422 4.958 1.02e-06 ***
xtc -792.184 416.684 -1.901 0.057947 .
xldl 476.746 339.035 1.406 0.160389
xhdl 101.045 212.533 0.475 0.634721
xtch 177.064 161.476 1.097 0.273456
xltg 751.279 171.902 4.370 1.56e-05 ***
xglu 67.625 65.984 1.025 0.305998
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 54.15 on 431 degrees of freedom
Multiple R-squared: 0.5177, Adjusted R-squared: 0.5066
F-statistic: 46.27 on 10 and 431 DF, p-value: < 2.2e-16
Ridge回帰モデル
- Ridge回帰モデルとLasso回帰モデルは、
glmnet
パッケージのglmnet()
関数を用いて推定します。
- Ridge回帰モデルは、
glmnet()
関数の引数alpha=0
を指定して推定します。
dia.ridge <- glmnet(diabetes$x, diabetes$y,
# family="gaussian",
alpha=0)
- 回帰係数と\(log(\lambda)\)との関係を可視化します。
plot(dia.ridge, label=TRUE)
- 回帰係数と\(\lambda\)との関係を可視化します。
plot(dia.ridge, xvar="lambda", label=TRUE)
- クロスバリデーションによって、最適な\(\lambda\)を決定します。
dia.ridge.cv <- cv.glmnet(diabetes$x, diabetes$y,
# family="gaussian",
alpha=0)
plot(dia.ridge.cv)
- 左側の縦点線が、MSEが最小となる\(log(\lambda)\)となります。
- Cross-varidated errorの最小値、\(\lambda\)の最小値、及びその対数値は以下の通りになります。
min(dia.ridge.cv$cvm)
[1] 3009.391
dia.ridge.cv$lambda.min
[1] 4.516003
log(dia.ridge.cv$lambda.min)
[1] 1.507627
- 選ばれた\(\lambda\)を、ペナルティと推定値のグラフに描き入れます。
plot(dia.ridge, xvar="lambda", label=TRUE)
abline(v=log(dia.ridge.cv$lambda.min), lty=2)
- MSEが最小となる時の\(\lambda\)に対応するパラメータを出力します。
coef(dia.ridge.cv, s="lambda.min")
11 x 1 sparse Matrix of class "dgCMatrix"
1
(Intercept) 152.133484
age -1.963374
sex -218.701018
bmi 504.476167
map 309.708936
tc -119.907209
ldl -49.703556
hdl -180.454315
tch 113.546639
ltg 472.886004
glu 80.608255
- MSEが最小となるときのMSEの上側\(1se\)となるときの\(\lambda\)に対応するパラメータを出力します。
coef(dia.ridge.cv, s="lambda.1se")
11 x 1 sparse Matrix of class "dgCMatrix"
1
(Intercept) 152.1334842
age 26.7106843
sex -99.2102956
bmi 333.5263290
map 217.0738406
tc -0.7188819
ldl -39.5932668
hdl -160.6401985
tch 119.7418295
ltg 285.4877726
glu 112.9543267
pred_dia.ridge.cv <- predict(dia.ridge.cv, s="lambda.min", newx=diabetes$x)
head(pred_dia.ridge.cv)
1
[1,] 201.43621
[2,] 72.08768
[3,] 173.52631
[4,] 162.54031
[5,] 128.40638
[6,] 104.37765
Lasso回帰モデル
- Lasso回帰モデルは、
glmnet()
関数の引数alpha=1
を指定して推定します。
dia.lasso <- glmnet(diabetes$x, diabetes$y,
# family="gaussian",
alpha=1)
- 回帰係数と\(log(\lambda)\)との関係を可視化します。
plot(dia.lasso, label=TRUE)
- 回帰係数と\(\lambda\)との関係を可視化します。
plot(dia.lasso, xvar="lambda", label=TRUE)
- クロスバリデーションによって、最適な\(\lambda\)を決定します。
dia.lasso.cv <- cv.glmnet(diabetes$x, diabetes$y,
# family="gaussian",
alpha=1)
plot(dia.lasso.cv)
- 左側の縦点線が、MSEが最小となる\(log(\lambda)\)となります。
- Cross-varidated errorの最小値、\(\lambda\)の最小値、及びその対数値は以下の通りになります。
min(dia.lasso.cv$cvm)
[1] 2986.619
dia.lasso.cv$lambda.min
[1] 0.0735996
log(dia.lasso.cv$lambda.min)
[1] -2.609116
- 選ばれた\(\lambda\)を、ペナルティと推定値のグラフに描き入れます。
plot(dia.lasso, xvar="lambda", label=TRUE)
abline(v=log(dia.lasso.cv$lambda.min), lty=2)
- MSEが最小となる時の\(\lambda\)に対応するパラメータを出力します。
coef(dia.lasso.cv, s="lambda.min")
11 x 1 sparse Matrix of class "dgCMatrix"
1
(Intercept) 152.13348
age -6.62609
sex -235.98713
bmi 522.13081
map 321.24746
tc -565.68036
ldl 298.49852
hdl .
tch 145.55907
ltg 667.99392
glu 66.80703
- MSEが最小となるときのMSEの上側\(1se\)となるときの\(\lambda\)に対応するパラメータを出力します。
coef(dia.lasso.cv, s="lambda.1se")
11 x 1 sparse Matrix of class "dgCMatrix"
1
(Intercept) 152.133484
age .
sex -82.922210
bmi 511.428467
map 238.119244
tc .
ldl .
hdl -175.401082
tch .
ltg 451.053356
glu 2.612794
pred_dia.lasso.cv <- predict(dia.lasso.cv, s="lambda.min", newx=diabetes$x)
EN回帰モデル
- EN回帰モデルは、
glmnet()
関数の引数alpha
の値を0〜1の間で指定して推定します。ここではalpha=0.5
とします。
dia.EN <- glmnet(diabetes$x, diabetes$y,
# family="gaussian",
alpha=0.5)
- 回帰係数と\(log(\lambda)\)との関係を可視化します。
plot(dia.EN, label=TRUE)
- 回帰係数と\(\lambda\)との関係を可視化します。
plot(dia.EN, xvar="lambda", label=TRUE)
- クロスバリデーションによって、最適な\(\lambda\)を決定します。
dia.EN.cv <- cv.glmnet(diabetes$x, diabetes$y,
# family="gaussian",
alpha=0.5)
plot(dia.EN.cv)
- 左側の縦点線が、MSEが最小となる\(log(\lambda)\)となります。
- Cross-varidated errorの最小値、\(\lambda\)の最小値、及びその対数値は以下の通りになります。
min(dia.EN.cv$cvm)
[1] 2996.299
dia.EN.cv$lambda.min
[1] 1.506629
log(dia.EN.cv$lambda.min)
[1] 0.409875
- 選ばれた\(\lambda\)を、ペナルティと推定値のグラフに描き入れます。
plot(dia.EN, xvar="lambda", label=TRUE)
abline(v=log(dia.EN.cv$lambda.min), lty=2)
- MSEが最小となる時の\(\lambda\)に対応するパラメータを出力します。
coef(dia.EN.cv, s="lambda.min")
11 x 1 sparse Matrix of class "dgCMatrix"
1
(Intercept) 152.13348
age .
sex -203.45857
bmi 519.20505
map 300.63375
tc -123.93250
ldl .
hdl -205.28618
tch 30.94044
ltg 510.96600
glu 59.80693
- MSEが最小となるときのMSEの上側\(1se\)となるときの\(\lambda\)に対応するパラメータを出力します。
coef(dia.EN.cv, s="lambda.1se")
11 x 1 sparse Matrix of class "dgCMatrix"
1
(Intercept) 152.133484
age .
sex -11.219144
bmi 475.321772
map 201.859709
tc .
ldl .
hdl -132.714852
tch .
ltg 416.987550
glu 4.915767
pred_dia.EN.cv <- predict(dia.EN.cv, s="lambda.min", newx=diabetes$x)
head(pred_dia.EN.cv)
1
[1,] 203.85801
[2,] 70.69643
[3,] 175.32245
[4,] 162.15954
[5,] 127.52535
[6,] 105.15072
---
title: "統計解析R演習9"
#author: "Tomoyuki Furutani"
#date: "2019/8/14"
output:
  html_notebook: default
  html_document: default
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
knitr::opts_chunk$set(cache = TRUE)
knitr::opts_chunk$set(error = TRUE)
```

## 演習の概要
- Lasso回帰モデル、Ridge回帰モデル

### 注意事項
- 慶應義塾大学SFCで開講している「統計解析」の授業履修者向けの演習用ページです。
- 必ずしも全てのバージョンのRやOSで動作確認を行っていません。この演習用ページを作成している段階では、R3.6.0を使っています。
- Rの更新などにより、Rコードなどを予告無しに変更する場合があります。 

## データ分析の準備
### パッケージのインストール
- 今回の演習では、以下のパッケージを使います。
```{r install.packages, eval=FALSE}
install.packages("ggplot2")
install.packages("glmnet")
install.packages("lars")
```

```{r library, eval=FALSE}
library(ggplot2)
library(glmnet)
library(lars)
```

## モデル推定
### データの読み込み
- 今回の演習では、`lars`パッケージに含まれる`diabetes`データを用います。
```{r diabetes}
data("diabetes")
head(diabetes)
```

### 線形回帰モデル
- まず重回帰モデルを推定します。
```{r dia.lm}
dia.lm <- lm(y~x, data=diabetes)
summary(dia.lm)
```

### Ridge回帰モデル
- Ridge回帰モデルとLasso回帰モデルは、`glmnet`パッケージの`glmnet()`関数を用いて推定します。
- Ridge回帰モデルは、`glmnet()`関数の引数`alpha=0`を指定して推定します。
```{r coa.ridge}
dia.ridge <- glmnet(diabetes$x, diabetes$y, 
                    # family="gaussian", 
                    alpha=0)
```
- 回帰係数と$log(\lambda)$との関係を可視化します。
```{r dia.ridge.plot1}
plot(dia.ridge, label=TRUE)
```
- 回帰係数と$\lambda$との関係を可視化します。
```{r dia.ridge.plot2}
plot(dia.ridge, xvar="lambda", label=TRUE)
```
- クロスバリデーションによって、最適な$\lambda$を決定します。
```{r dia.ridge.cv}
dia.ridge.cv <- cv.glmnet(diabetes$x, diabetes$y, 
                    # family="gaussian", 
                    alpha=0)
```
- クロスバリデーションの結果を可視化します。
```{r dia.ridge.cv.plot}
plot(dia.ridge.cv)
```
- 左側の縦点線が、MSEが最小となる$log(\lambda)$となります。
- Cross-varidated errorの最小値、$\lambda$の最小値、及びその対数値は以下の通りになります。
```{r dia.ridge.cv.mse}
min(dia.ridge.cv$cvm)
dia.ridge.cv$lambda.min
log(dia.ridge.cv$lambda.min)
```
- 選ばれた$\lambda$を、ペナルティと推定値のグラフに描き入れます。
```{r dia.ridge.cv.plot3}
plot(dia.ridge, xvar="lambda", label=TRUE)
abline(v=log(dia.ridge.cv$lambda.min), lty=2)
```
- MSEが最小となる時の$\lambda$に対応するパラメータを出力します。
```{r dia.ridge.cv.lambda.min}
coef(dia.ridge.cv, s="lambda.min")
```
- MSEが最小となるときのMSEの上側$1se$となるときの$\lambda$に対応するパラメータを出力します。
```{r dia.ridge.cv.lambda.1se}
coef(dia.ridge.cv, s="lambda.1se")
```
- 推定したパラメータによる予測値を出力します。
```{r dia.ridge.cv.lambda.min.predict}
pred_dia.ridge.cv <- predict(dia.ridge.cv, s="lambda.min", newx=diabetes$x)
head(pred_dia.ridge.cv)
```

### Lasso回帰モデル
- Lasso回帰モデルは、`glmnet()`関数の引数`alpha=1`を指定して推定します。
```{r coa.lasso}
dia.lasso <- glmnet(diabetes$x, diabetes$y, 
                    # family="gaussian", 
                    alpha=1)
```
- 回帰係数と$log(\lambda)$との関係を可視化します。
```{r dia.lasso.plot1}
plot(dia.lasso, label=TRUE)
```
- 回帰係数と$\lambda$との関係を可視化します。
```{r dia.lasso.plot2}
plot(dia.lasso, xvar="lambda", label=TRUE)
```
- クロスバリデーションによって、最適な$\lambda$を決定します。
```{r dia.lasso.cv}
dia.lasso.cv <- cv.glmnet(diabetes$x, diabetes$y, 
                          # family="gaussian", 
                          alpha=1)
```
- クロスバリデーションの結果を可視化します。
```{r dia.lasso.cv.plot}
plot(dia.lasso.cv)
```
- 左側の縦点線が、MSEが最小となる$log(\lambda)$となります。
- Cross-varidated errorの最小値、$\lambda$の最小値、及びその対数値は以下の通りになります。
```{r dia.lasso.cv.mse}
min(dia.lasso.cv$cvm)
dia.lasso.cv$lambda.min
log(dia.lasso.cv$lambda.min)
```
- 選ばれた$\lambda$を、ペナルティと推定値のグラフに描き入れます。
```{r dia.lasso.cv.plot3}
plot(dia.lasso, xvar="lambda", label=TRUE)
abline(v=log(dia.lasso.cv$lambda.min), lty=2)
```
- MSEが最小となる時の$\lambda$に対応するパラメータを出力します。
```{r dia.lasso.cv.lambda.min}
coef(dia.lasso.cv, s="lambda.min")
```
- MSEが最小となるときのMSEの上側$1se$となるときの$\lambda$に対応するパラメータを出力します。
```{r dia.lasso.cv.lambda.1se}
coef(dia.lasso.cv, s="lambda.1se")
```
- 推定したパラメータによる予測値を出力します。
```{r dia.lasso.cv.lambda.min.predict}
pred_dia.lasso.cv <- predict(dia.lasso.cv, s="lambda.min", newx=diabetes$x)
head(pred_dia.lasso.cv)
```

### EN回帰モデル
- EN回帰モデルは、`glmnet()`関数の引数`alpha`の値を0〜1の間で指定して推定します。ここでは`alpha=0.5`とします。
```{r coa.en}
dia.EN <- glmnet(diabetes$x, diabetes$y, 
                    # family="gaussian", 
                    alpha=0.5)
```
- 回帰係数と$log(\lambda)$との関係を可視化します。
```{r dia.en.plot1}
plot(dia.EN, label=TRUE)
```
- 回帰係数と$\lambda$との関係を可視化します。
```{r dia.en.plot2}
plot(dia.EN, xvar="lambda", label=TRUE)
```
- クロスバリデーションによって、最適な$\lambda$を決定します。
```{r dia.en.cv}
dia.EN.cv <- cv.glmnet(diabetes$x, diabetes$y, 
                          # family="gaussian", 
                          alpha=0.5)
```
- クロスバリデーションの結果を可視化します。
```{r dia.en.cv.plot}
plot(dia.EN.cv)
```
- 左側の縦点線が、MSEが最小となる$log(\lambda)$となります。
- Cross-varidated errorの最小値、$\lambda$の最小値、及びその対数値は以下の通りになります。
```{r dia.en.cv.mse}
min(dia.EN.cv$cvm)
dia.EN.cv$lambda.min
log(dia.EN.cv$lambda.min)
```
- 選ばれた$\lambda$を、ペナルティと推定値のグラフに描き入れます。
```{r dia.en.cv.plot3}
plot(dia.EN, xvar="lambda", label=TRUE)
abline(v=log(dia.EN.cv$lambda.min), lty=2)
```
- MSEが最小となる時の$\lambda$に対応するパラメータを出力します。
```{r dia.en.cv.lambda.min}
coef(dia.EN.cv, s="lambda.min")
```
- MSEが最小となるときのMSEの上側$1se$となるときの$\lambda$に対応するパラメータを出力します。
```{r dia.en.cv.lambda.1se}
coef(dia.EN.cv, s="lambda.1se")
```
- 推定したパラメータによる予測値を出力します。
```{r dia.en.cv.lambda.min.predict}
pred_dia.EN.cv <- predict(dia.EN.cv, s="lambda.min", newx=diabetes$x)
head(pred_dia.EN.cv)
```

- 今回の演習は以上です。