2022-05-23

plmパッケージを用いたパネルデータ分析[R]

R 計量

こちらの資料がソース。 rstudio-pubs-static.s3.amazonaws.com https://dss.princeton.edu/training/Panel101R.pdf

plmパッケージ

rdrr.io https://cran.r-project.org/web/packages/plm/plm.pdf

データの読み込み

library(foreign)
Panel <- read.dta("http://dss.princeton.edu/training/Panel101.dta")

データ

head(Panel)

  country year           y y_bin        x1         x2          x3   opinion op
1       A 1990  1342787840     1 0.2779036 -1.1079559  0.28255358 Str agree  1
2       A 1991 -1899660544     0 0.3206847 -0.9487200  0.49253848     Disag  0
3       A 1992   -11234363     0 0.3634657 -0.7894840  0.70252335     Disag  0
4       A 1993  2645775360     1 0.2461440 -0.8855330 -0.09439092     Disag  0
5       A 1994  3008334848     1 0.4246230 -0.7297683  0.94613063     Disag  0
6       A 1995  3229574144     1 0.4772141 -0.7232460  1.02968037 Str agree  1

プロット

変数yに関してのプロット。

coplot(y ~ year|country, type="l", data=Panel)    # Lines
coplot(y ~ year|country, type="b", data=Panel)  # Points and lines

散布図。

library(car)
scatterplot(y~year|country, boxplots=FALSE, smooth=TRUE, reg.line=FALSE, data=Panel)

固定効果モデル

共分散モデル、Within推定量、個体ダミー変数モデル、最小二乗ダミー変数モデル

yと国に関しての描画。

library(gplots)
plotmeans(y ~ country, main="Heterogeineity across countries", data=Panel)

plotmeansは、平均値の95%信頼区間を描画する。

library(gplots)
plotmeans(y ~ year, main="Heterogeineity across countries", data=Panel)

回帰分析

ols <-lm(y ~ x1, data=Panel)
summary(ols)

Coefficients:
             Estimate Std. Error t value Pr(>|t|)  
(Intercept) 1.524e+09  6.211e+08   2.454   0.0167 *
x1          4.950e+08  7.789e+08   0.636   0.5272

作図

yhat <- ols$fitted
plot(Panel$x1, Panel$y, pch=19, xlab="x1", ylab="y")
abline(lm(Panel$y~Panel$x1),lwd=3, col="red")

ggplotの場合。

library(ggplot2)
ggplot(Panel, aes(x = x1, y = y))+
  geom_point() +
  geom_smooth(method=lm)

重回帰分析・国を追加

fixed.dum <-lm(y ~ x1 + factor(country) - 1, data=Panel)
summary(fixed.dum)

Coefficients:
                   Estimate Std. Error t value Pr(>|t|)    
x1                2.476e+09  1.107e+09   2.237  0.02889 *  
factor(country)A  8.805e+08  9.618e+08   0.916  0.36347    
factor(country)B -1.058e+09  1.051e+09  -1.006  0.31811    
factor(country)C -1.723e+09  1.632e+09  -1.056  0.29508    
factor(country)D  3.163e+09  9.095e+08   3.478  0.00093 ***
factor(country)E -6.026e+08  1.064e+09  -0.566  0.57329    
factor(country)F  2.011e+09  1.123e+09   1.791  0.07821 .  
factor(country)G -9.847e+08  1.493e+09  -0.660  0.51190

yhat <- fixed.dum$fitted
library(car)
scatterplot(yhat~Panel$x1|Panel$country, boxplots=FALSE, xlab="x1", ylab="yhat",smooth=FALSE)
abline(lm(Panel$y~Panel$x1),lwd=3, col="red")

要因変数（国）の各要素は、各国特有の効果を吸収している。予測変数x1はOLSモデルでは有意ではなかったが、一旦国ごとの差異をコントロールすると、OLS_DUM（すなわちLSDVモデル）でx1は有意となる。

固定効果：n 個のエンティティ固有の切片（plmパッケージを使用）

y: 従属変数
x1: 独立変数
data: データ
index: パネルセッティング
model="within": 固定効果オプション

library(plm)
fixed <- plm(y ~ x1, data=Panel, index=c("country", "year"), model="within")
summary(fixed)

結果。

Balanced Panel: n = 7, T = 10, N = 70

Residuals:
     Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
-8.63e+09 -9.70e+08  5.40e+08  0.00e+00  1.39e+09  5.61e+09 

Coefficients:
     Estimate Std. Error t-value Pr(>|t|)  
x1 2475617827 1106675594   2.237  0.02889 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Total Sum of Squares:    5.2364e+20
Residual Sum of Squares: 4.8454e+20
R-Squared:      0.074684
Adj. R-Squared: -0.029788
F-statistic: 5.00411 on 1 and 62 DF, p-value: 0.028892

n = グループ/パネル数
T = 年
N = 総観測数

Coefficients:Estimate
x1の係数は、Xが1単位増加したときに、Yが国ごとに平均してどれだけ時間的に変化するかを示している。

x Pr(>|t|):0.02889:

Pr(>|t|)= 両側p値は，各係数が0と異なるという仮説を検定する。これを棄却するには，p値が0.05 (95%, 0.10のアルファも選択できる)でなければならず、これが事実であれば、その変数が従属変数(y)に有意な影響を持つことができる。

p-value: 0.028892:

この数値が< 0.05であればこのモデルは問題ない。これは、モデルのすべての係数が0に比べて異なるかどうかを見る検定（F）である。

fixef(fixed) # 固定効果（各国の定数）を表示する

結果。

          A           B           C           D           E           F           G 
  880542404 -1057858363 -1722810755  3162826897  -602622000  2010731793  -984717493

pFtest(fixed, ols) # 固定効果に対する検定。固定効果よりもOLSの方が良いのか？

結果。

data:  y ~ x1
F = 2.9655, df1 = 6, df2 = 62, p-value = 0.01307
alternative hypothesis: significant effects

p値が0.05未満であれば、固定効果モデルがより良い選択となる。

ランダム効果モデル (ランダム切片, 部分プーリングモデル)

model="random"と指定する。

random <- plm(y ~ x1, data=Panel, index=c("country", "year"), model="random")
summary(random)

結果。

Balanced Panel: n = 7, T = 10, N = 70

Effects:
                    var   std.dev share
idiosyncratic 7.815e+18 2.796e+09 0.873
individual    1.133e+18 1.065e+09 0.127
theta: 0.3611

Residuals:
     Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
-8.94e+09 -1.51e+09  2.82e+08  0.00e+00  1.56e+09  6.63e+09 

Coefficients:
              Estimate Std. Error z-value Pr(>|z|)
(Intercept) 1037014284  790626206  1.3116   0.1896
x1          1247001782  902145601  1.3823   0.1669

Total Sum of Squares:    5.6595e+20
Residual Sum of Squares: 5.5048e+20
R-Squared:      0.02733
Adj. R-Squared: 0.013026
Chisq: 1.91065 on 1 DF, p-value: 0.16689

係数の解釈は難しい。なぜなら、係数はwithin効果とbetween果の両方を含んでいるからである。TSCSの場合、Xが時間軸で1単位、国別で1単位変化したときのXのYに対する平均的な効果を表している。

Pr(>|t|)= 両側検定のp値は，各係数が0と異なるという仮説を検定する。これを棄却するには，p値が0.05 (95%, 0.10のアルファも選択できる)でなければならず，これが事実であれば，その変数が従属変数(y)に有意な影響を持つことができる．

カイ二乗検定のP値：この数値が<0.05であれば、そのモデルはOKである。これは、モデル中のすべての係数がゼロと異なるかどうかを確認する検定 (F)である。

パネルデータとして設定（上記のモデルを実行する別の方法）

Panel.set <- pdata.frame(Panel, index = c("country", "year"))

plmパッケージでは、plm.data()はpdata.frame()に変更されている。

パネル設定によるランダム効果 (上記と同じ出力)

random.set <- plm(y ~ x1, data = Panel.set, model="random")
summary(random.set)

結果。

Balanced Panel: n = 7, T = 10, N = 70

Effects:
                    var   std.dev share
idiosyncratic 7.815e+18 2.796e+09 0.873
individual    1.133e+18 1.065e+09 0.127
theta: 0.3611

Residuals:
     Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
-8.94e+09 -1.51e+09  2.82e+08  0.00e+00  1.56e+09  6.63e+09 

Coefficients:
              Estimate Std. Error z-value Pr(>|z|)
(Intercept) 1037014284  790626206  1.3116   0.1896
x1          1247001782  902145601  1.3823   0.1669

Total Sum of Squares:    5.6595e+20
Residual Sum of Squares: 5.5048e+20
R-Squared:      0.02733
Adj. R-Squared: 0.013026
Chisq: 1.91065 on 1 DF, p-value: 0.16689

固定効果がランダム効果か？

固定効果かランダム効果かを決定するために、帰無仮説は、望ましいモデルがランダム効果で、代替モデルが固定効果であるとするHausman検定を実行できる（Green, 2008, chapter 9を参照）。これは基本的に、固有誤差(ui)が回帰変数と相関しているかどうかを検定するもので、帰無仮説は相関していないというものである。

固定効果モデルを実行して推定値を保存し、次にランダム・モデルを実行して推定値を保存し、そして検定を実行する。P値が有意であれば（たとえば、<0.05）、固定効果を使用し、そうでなければランダム効果を使用する。

phtest(fixed, random)

結果。

 Hausman Test

data:  y ~ x1
chisq = 3.674, df = 1, p-value = 0.05527
alternative hypothesis: one model is inconsistent

p-valueの数値が0.05未満であれば、固定効果を用いる。

その他のテスト・測定項目

時間固定効果に対する検定

fixed <- plm(y ~ x1, data=Panel, index=c("country", "year"), model="within")
fixed.time <- plm(y ~ x1 + factor(year), data=Panel, index=c("country", "year"), model="within")
summary(fixed.time)

結果。

Coefficients:
                   Estimate Std. Error t-value Pr(>|t|)  
x1               1389050354 1319849567  1.0524  0.29738  
factor(year)1991  296381559 1503368528  0.1971  0.84447  
factor(year)1992  145369666 1547226548  0.0940  0.92550  
factor(year)1993 2874386795 1503862554  1.9113  0.06138 .
factor(year)1994 2848156288 1661498927  1.7142  0.09233 .
factor(year)1995  973941306 1567245748  0.6214  0.53698  
factor(year)1996 1672812557 1631539254  1.0253  0.30988  
factor(year)1997 2991770063 1627062032  1.8388  0.07156 .
factor(year)1998  367463593 1587924445  0.2314  0.81789  
factor(year)1999 1258751933 1512397632  0.8323  0.40898  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Total Sum of Squares:    5.2364e+20
Residual Sum of Squares: 4.0201e+20
R-Squared:      0.23229
Adj. R-Squared: 0.00052851
F-statistic: 1.60365 on 10 and 53 DF, p-value: 0.13113

個体効果および時間効果に関するF検定 F Test for Individual and/or Time Effects

withinモデルとpoolingモデルの比較に基づく個人効果および時間効果の検定。

pFtest(fixed.time, fixed)

結果。

 F test for individual effects

data:  y ~ x1 + factor(year)
F = 1.209, df1 = 9, df2 = 53, p-value = 0.3094
alternative hypothesis: significant effects

この数値が<0.05であれば時間固定効果を用いる。この例では、時間固定効果を使用する必要はない。

パネルモデルに対するラグランジュFF乗数検定 Lagrange FF Multiplier Tests for Panel Models

パネルモデルにおける個人効果および時間効果の検定である。

plmtest(fixed, c("time"), type=("bp"))

 Lagrange Multiplier Test - time effects (Breusch-Pagan) for balanced panels

data:  y ~ x1
chisq = 0.16532, df = 1, p-value = 0.6843
alternative hypothesis: significant effects

この数値が<0.05であれば時間固定効果を用いる。この例では、時間固定効果を使用する必要はない。

ランダム効果に対する検定 Breusch-Pagan ラグランジュ乗数(LM)

pool <- plm(y ~ x1, data=Panel, index=c("country", "year"), model="pooling")
summary(pool)

結果。

Residuals:
     Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
-9.55e+09 -1.58e+09  1.55e+08  0.00e+00  1.42e+09  7.18e+09 

Coefficients:
              Estimate Std. Error t-value Pr(>|t|)  
(Intercept) 1524319070  621072624  2.4543  0.01668 *
x1           494988914  778861261  0.6355  0.52722  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Total Sum of Squares:    6.2729e+20
Residual Sum of Squares: 6.2359e+20
R-Squared:      0.0059046
Adj. R-Squared: -0.0087145
F-statistic: 0.403897 on 1 and 68 DF, p-value: 0.52722

LM検定は，ランダム効果回帰と単純なOLS回帰のどちらかを決定するのに役立つ。

LM検定での帰無仮説は，実体間の分散が0であるということである。これは，単位間の有意な差がない（すなわち，パネル効果がない）ことを意味する。

plmtest(pool, type=c("bp"))

 Lagrange Multiplier Test - (Breusch-Pagan) for balanced panels

data:  y ~ x1
chisq = 2.6692, df = 1, p-value = 0.1023
alternative hypothesis: significant effects

ここでは、帰無値を棄却できず、ランダム効果が適切でないと結論づけられた。これは、国による有意差の証拠がない国による有意差の証拠がないため、単純なOLS回帰を実行することができる。

Breusch-Pagan LMの独立性検定とPasaran CD検定による横断的依存性／同時発生的相関の検定

Baltagiによれば，クロスセクション依存性 cross-sectional dependence は，長い時系列を持つマクロパネルでは問題である。これは，ミクロ・パネル（数年，多数のケース）では，あまり問題にならない．

独立性のB-P/LM検定とPasaran CD検定における帰無仮説は，主体間の残差は相関しないことである。 B-P/LMおよびPasaran CD（断面依存性）検定は，残差がエンティティ間*で相関しているかどうかを検定するために使用される．クロスセクション依存性は，検定結果にバイアスをもたらす可能性がある（同時計数相関 contemporaneous correlation ともいう）。

*Source: Hoechle, Daniel, “Robust Standard Errors for Panel Regressions with Cross-Sectional Dependence”, http://fmwww.bc.edu/repec/bocode/x/xtscc_paper.pdf

fixed <- plm(y ~ x1, data=Panel, index=c("country", "year"), model="within")
pcdtest(fixed, test = c("lm"))

結果。

 Breusch-Pagan LM test for cross-sectional dependence in panels

data:  y ~ x1
chisq = 28.914, df = 21, p-value = 0.1161
alternative hypothesis: cross-sectional dependence

pcdtest(fixed, test = c("cd"))

 Pesaran CD test for cross-sectional dependence in panels

data:  y ~ x1
z = 1.1554, p-value = 0.2479
alternative hypothesis: cross-sectional dependence

系列相関の検定

系列相関検定は，長い時系列を持つマクロパネルに適用される。ミクロ・パネル（年数が非常に少ない）では問題ない。帰無仮説は，系列相関がないことである．

pbgtest(fixed)

結果。

 Breusch-Godfrey/Wooldridge test for serial correlation in panel models

data:  y ~ x1
chisq = 14.137, df = 10, p-value = 0.1668
alternative hypothesis: serial correlation in idiosyncratic errors

p-value=0.1668なので、系列相関がない。

単位根/定常性の検定

確率的トレンドを確認するためのDickey-Fuller検定。帰無仮説は、系列が単位根を持つ（すなわち、非定常）ことである。単位根が存在する場合、変数の第1階差を取ることができる。

Panel.set <- plm.data(Panel, index = c("country", "year"))
library(tseries)
adf.test(Panel.set$y, k=2)

結果。

 Augmented Dickey-Fuller Test

data:  Panel.set$y
Dickey-Fuller = -3.9051, Lag order = 2, p-value = 0.0191
alternative hypothesis: stationary

p値<0.05の場合、単位根は存在しない。

分散不均一性 heteroskedasticity の検定

library(lmtest)
bptest(y ~ x1 + factor(country), data = Panel, studentize=F)

 Breusch-Pagan test

data:  y ~ x1 + factor(country)
BP = 14.606, df = 7, p-value = 0.04139

P<0.05であるため分散不均一性 heteroskedasticityが検出された。
分散不均一性が検出された場合、ロバスト共分散行列を使用してそれを考慮することができる。

分散不均一性を制御--ロバスト共分散行列推定法（Sandwich推定法）

vcovHC-関数は、3つの異種分散共分散推定量を推定します。

"white1" - 一般的な異種分散性を持つが系列相関を持たない場合。ランダム効果に推奨。
"white2" - "white1 "をグループ内の共通分散に制限したもの。ランダム効果に推奨
"arellano" - 分散不均一性と系列相関の両方。固定効果に推奨。

以下のオプションが適用される*。

HC0 - 分散不均一性の整合性。デフォルト。
HC1,HC2,HC3 - サンプル数が少ない場合に推奨される。HC3は、影響力のあるオブザベーションにあまりきを置かない．
HC4 - 影響力のあるオブザベーションを持つ小さな標本．
HAC - 分散不均一性と自己相関の整合性（詳細は， ?vcovHAC とタイプ）．

*Kleiber and Zeileis, 2008.

分散不均一性の制御ランダム効果

random <- plm(y ~ x1, data=Panel, index=c("country", "year"), model="random")

coeftest(random)  # 本来の係数 Original coefficients

結果。

t test of coefficients:

              Estimate Std. Error t value Pr(>|t|)
(Intercept) 1037014284  790626206  1.3116   0.1941
x1          1247001782  902145601  1.3823   0.1714

coeftest(random, vcovHC)  # 分散不均一性整合係数 Heteroskedasticity consistent coefficients

結果。

t test of coefficients:

              Estimate Std. Error t value Pr(>|t|)
(Intercept) 1037014284  907983029  1.1421   0.2574
x1          1247001782  828970247  1.5043   0.1371

# 分散不均一性整合係数タイプ 3Heteroskedasticity consistent coefficients, type 3
coeftest(random, vcovHC(random, type = "HC3"))

結果。

t test of coefficients:

              Estimate Std. Error t value Pr(>|t|)
(Intercept) 1037014284  943438284  1.0992   0.2756
x1          1247001782  867137585  1.4381   0.1550

係数のHC標準誤差を以下に示す

t(sapply(c("HC0", "HC1", "HC2", "HC3", "HC4"), function(x) sqrt(diag(vcovHC(random, type = x)))))

    (Intercept)        x1
HC0   907983029 828970247
HC1   921238957 841072643
HC2   925403820 847733474
HC3   943438284 867137584
HC4   941376033 866024033

標準誤差は、HCの種類によって異なる。

分散不均一性の制御・固定効果

fixed <- plm(y ~ x1, data=Panel, index=c("country", "year"), model="within")

coeftest(fixed)   # 本来の係数Original coefficients

結果。

t test of coefficients:

     Estimate Std. Error t value Pr(>|t|)  
x1 2475617827 1106675594   2.237  0.02889 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

coeftest(fixed, vcovHC) # 分散不均一性整合係数 Heteroskedasticity consistent coefficients

結果。

t test of coefficients:

     Estimate Std. Error t value Pr(>|t|)  
x1 2475617827 1358388942  1.8225  0.07321 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

# 分散不均一性整合係数 (Arellano)
coeftest(fixed, vcovHC(fixed, method = "arellano"))

結果。

t test of coefficients:

     Estimate Std. Error t value Pr(>|t|)  
x1 2475617827 1358388942  1.8225  0.07321 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

# 分散不均一性整合係数タイプ 3Heteroskedasticity consistent coefficients, type 3
coeftest(fixed, vcovHC(fixed, type = "HC3"))

結果。

t test of coefficients:

     Estimate Std. Error t value Pr(>|t|)  
x1 2475617827 1439083523  1.7203  0.09037 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

係数のHC標準誤差を以下に示す

t(sapply(c("HC0", "HC1", "HC2", "HC3", "HC4"), function(x) sqrt(diag(vcovHC(fixed, type = x)))))

結果。

         HC0.x1     HC1.x1     HC2.x1     HC3.x1     HC4.x1
[1,] 1358388942 1368196931 1397037369 1439083523 1522166034

パッケージをワークスペースから取り除く。

detach("package:gplots")

2022-05-18

香川県のゲーム条例「違憲」訴訟が結審　8月に判決へ　高松地裁(KSB)

ネット・ゲーム依存

news.ksb.co.jp

16日の裁判で、天野裁判長は原告側から訴訟の「取り下げ書」が提出されたことを明らかにしました。被告の香川県側は取り下げには同意せず、16日で裁判は結審。2022年8月30日に判決が言い渡されることになりました。取り下げ書は4月25日付で、原告2人の名前で提出されました。原告の代理人は2022年3月に辞任したということです。

2022-05-17

「人間の集中力は8秒で金魚より短い」という説は正しいのか

ネット・ゲーム依存

なぜ「金魚」なのか。
答えは英語の慣用句にある。

「金魚の記憶」(memory of a goldfish)という言葉もあり「非常に乏しい記憶力」という意味である。

ejje.weblio.jp

8秒説の前は3秒説だった

8秒説が唱えられる前は3秒説が唱えられていたことが判明している。

www.livescience.com

金魚が水槽をぐるぐると回っているのをイメージしたからではないかと推測されているが、決定づける証拠はない。もちろん3秒説にもエビデンスはない。

科学者たちの反論

Kalpathy Ramaiyer Subramanianが検証を行い、金魚の注意持続時間が8秒であることが誤りであることを指摘している。

www.ijtrd.com

また、実際には金魚は少なくとも5カ月は記憶があることが示唆されている。

economictimes.indiatimes.com

金魚は、一般に信じられているよりもはるかに知的なのだ。
神経心理学者は、金魚が良い記憶力を持っていることから、実際に記憶形成のモデルとして使用している。

www.warc.com

マイクロソフトの発表

ことの発端は2015年、カナダのマイクロソフトの研究チームの発表である。研究チームは「人間の平均的な注意持続時間は金魚より1秒遅れている」と報告した。

マイクロソフトの研究には平均9秒以下の注意力しか持たない金魚と比較して、人間の注意力がいかに「減少」しているか(12秒から8秒へ)を示すインフォグラフィックが提示されている。

マイクロソフトがこのような結果を示したのは、コンテンツをより短くコンパクトに誘導するためである。

ファクトチェックをしないメディア

マイクロソフトの報告をThe TelegraphからTIMEまで多くのメディアがファクトチェックをせずにニュースとして垂れ流したことから、金魚の話は広く知られることになった。

データの入手先

マイクロソフトが示した注意持続時間は独自に調査したものではなくStatistic Brainという研究機関から入手したものである。

www.statisticbrain.com

注意持続時間の統計。

www.statisticbrain.com

購読料を払えば内容をみることができるようだが、金魚の注意持続時間については書かれていないようだ。マイクロソフトがマーケティングの際に盛り込んだもののようだ。

参考リンク

https://bettermarketing.pub/busting-the-great-goldfish-attention-span-myth-8150ba9af0efbettermarketing.pub

www.bbc.co.uk

2022-05-16

香川ゲーム条例訴訟、８月判決　原告側の訴訟取り下げ認めず(産経新聞)

ネット・ゲーム依存

www.sankei.com

男性側は訴えの取り下げを表明したが認められなかった。

2022-05-11

監訳者・川島隆太さん「反抗期」を精神疾患にしてしまう-ダンクリー『子どものデジタル脳完全回復プログラム』

子どものデジタル脳完全回復プログラム

Amazon

日本語訳

研究から、メディアの消費量とそのような問題行動との間に関連性があるとわかっている。「反抗期障害」は、「精神障害の診断と統計マニュアル(DSM)」に掲載されている実際の診断名だが、現実には、それらの症状はほとんどの場合、ADHDやトラウマなどより具体的なものと関連している。(p.118)

日本語版を読んでいて思わず「そんな診断名ねーよ」と突っ込んでしまったが、前後の文脈で翻訳の問題であることは明らかだったので、原文を確認してみた。

原文

research suggests that there ’s a link between amount of media consumption and such disruptive behaviors. Although “oppositional-defiant disorder” is an actual diagnosis listed in the DSM, in practice these symptoms are virtually always related to something more specific, such as ADHD or trauma.(p.78)

証拠としてはDSM-5の日本語版(p.454)のスクリーンショットを掲載しておこう。

反抗挑発症、もしくは反抗挑戦性障害と翻訳するのが正しい。
些細なことだが、原文も間違っていて、oppositionalとdefiant間にハイフンは不要である。

もちろん「反抗期」とは全く関係はない。

「反抗期障害」なんてものをよく知らない人が読んだら、精神疾患は「反抗期」まで精神疾患にしているのか！(怒)となってしまうだろう。はたまた、反抗期はADHDやトラウマに関係しているととんでもない読み方をしてしまうかもしれない。

川島隆太さんの監訳、大丈夫なのだろうか。

2022-05-08

『子どものデジタル脳完全回復プログラム』の著者ビクトリア・ダンクリーは代替医療推進者である

子どものデジタル脳完全回復プログラム

Amazon

プロフィール
https://drdunckley.com/wp-content/uploads/2011/10/Bio-V-Dunckley-MD2.pdf

ダンクリー博士は、ビタミンやハーブのサプリメント、微量栄養素の検査、バイオフィールド（身体の生体電気エネルギーフィールド）をサポートすることによって従来の治療法を補強している。ビデオゲームやその他の電子機器による脳の汚染を減らす「電子断食」(electronic fast)を利用し、気分、行動、認知、社会的スキルに急速な改善をもたらす4週間の「Save Your Child's Brain」プログラムで、何百人もの子供や若者を治療している。
ダンクリー博士は米国ホリスティック医学協会の会員である。

参考：
kotobank.jp

2022-05-06

R二乗値は何の役にも立たない

計量

カーネギーメロン大学のCosma Shalizi氏による資料から。

https://www.stat.cmu.edu/~cshalizi/

こちらの3節の翻訳である。
https://www.stat.cmu.edu/~cshalizi/mreg/15/lectures/10/lecture-10.pdf

3. R二乗

R二乗は線形モデルを最小二乗法で推定する場合、適合した値の標本分散とYの標本分散の比で求められる。

　(5)

あるいはYの標本共分散と適合した値の比率である。

　(6)

これらが等しいことを示す。重要なのは1) $y_i = \hat{m}(x_i) + e_{i}$ 、2) $e_{i}$ と $\hat{m}(x_i)$ の標本共分散がちょうどゼロであることである。

最小二乗法で推定された線形モデルについては、式5と式6が常に同じ結果を与えることがわかる。

$s^2_\hat{m}$ とはなんだろうか。 $\hat{m}(x_i) = \hat\beta_0 + \hat{\beta}_1 x_1$ であるから。

こうしてR二乗の3番目の式が得られる。

(7)

ここから、さらに4つ目の式が導かれる。

(8)

XとYの相関係数の二乗であることがわかる（したがってR二乗と呼ばれる）。この式の特筆すべき点は、YをXに回帰させても、XをYに回帰させても、全く同じR二乗が得られることである。 R二乗の最終式は次のようになる。

(9)

$\hat{\sigma}^2$ は残差の標本分散であり、残差は $\hat{m}$ 相関がないので、分子が $s^2_\hat{m}$ に等しいことを示すのは難しくない。

調整済みR二乗

$\hat{\sigma}^2$ は $\sigma^2$ の推定値としてわずかに負のバイアスを持つことは良く知られている。そのため、 $\hat{\sigma}^2$ の代わりに、 $\sigma^2$ のバイアスのない推定値として $\frac{n}{n-2} \hat{\sigma}^2$ を用いた調整済みR二乗を見ることがある。

R二乗のリミット

式7より、 $\hat{\beta}_1 = 0$ のときR二乗は0になる。一方、すべての残差が0であれば、 $s^2_Y= \hat{\beta} \frac{1}{2} s^2_x$ となり、R二乗は1となる。とはならない。R二乗が1より大きくなることはありえないことを示すのはそれほど難しいことではないので、その限界を示した。標本の傾きが0であればR二乗は0となり、可能な限り小さくなり、すべてのデータ点が正確に直線上にあれば、R二乗は1となり、可能な限り大きくなる。

3.1理論的R二乗

本当の係数がわかったとする。R二乗はどうなるのだろうか？
式(5)を使うと、次のようになる。

すべてのパラメータ推定値が一致し、この式はすべてのパラメータで連続なので、我々の推定値から得られるR二乗はこの極限に収束する。線形モデルが全く間違っていたとしても、 $\beta_1$ の推定値は $Cov\lbrack X,Y \rbrack / Var \lbrack X \rbrack$ に収束する。したがって、単純な線形モデルが適用されようがされまいが、 $\beta_1$ を適切に解釈すれば、理論的R二乗は式13で与えられる。

3.2 邪魔か迷惑か？

残念ながら、R二乗に関する多くの神話が科学界に蔓延しており、この時点でそれらに対する免疫をつけることが肝要である。

最も基本的なことは、R二乗は適合度を測定するものではないということである。 a) モデルが完全に正しい場合、R二乗は恣意的に低くなることがある。式(13)を見てほしい。 $Var \lbrack X \rbrack$ を小さく、または $\sigma^2$ を大きくすることで、単純な線形回帰モデルの仮定がすべて正しくても、R二乗が0に近づいてしまう。たとえ単純な線形回帰モデルのすべての仮定があらゆる点で正しくても。

b) R二乗はモデルが全く間違っている場合、任意に1に近づけることができる。例えば、本文中2節のシミュレーションに適用した線形モデルのR二乗は0.745である。真のモデルが非線形であるとき、R二乗がどれだけ高くなるかは、実に無限大である。必要なのは、最良の線形近似の傾きがゼロでないことと、 $Var \lbrack X \rbrack$ が大きくなることである。

R二乗は予測可能性を示す指標としてはかなり役に立たない。 a) R二乗は予測誤差について何も触れていない。式13に戻り、架空のケースを考えてみよう。 $\sigma^2$ が全く同じで、係数に変化がない場合でも、Xの範囲を変えるだけでR二乗は0から1の間のどこにでもなる。平均二乗誤差は、予測値の良し悪しを測るのにもっと適した尺度である。さらに良いのは、このコースの後半で取り上げる標本外誤差の推定値である。

b) R二乗は区間予測について何も触れていない。特に、予測区間やm(x)の信頼区間がどの程度になるかについては、何も教えてくれない。

R二乗は異なるデータセット間で比較することはできない。もう一度式（13）を見て全く同じモデルが異なるデータで全く異なるR二乗値を持つことがあることを確認してほしい。
R二乗は，未変換Yを使ったモデルと変換したYを使ったモデルの間，あるいはYの異なる変換の間で比較することはできない。より正確には，自由な国なので，誰もそれを止めはしないが、無意味である。具体的には、モデルの仮定がよりよく満たされるとR二乗は簡単に下がる、など。
R二乗が比較できる1つの状況は、同じ変換されていない応答変数で、異なるモデルが同じデータセットに適合するときである。その場合、二乗の増加は、サンプル内MSE(Mean Squared Error, 平均二乗誤差)の減少と同じである（式9による）。しかし、その場合は、MSEを比較するだけでもよいかもしれない。
R二乗は回帰によって「説明される分散の割合」であるという理解が非常に一般的である。これはR二乗を「決定係数」と呼ぶことことに付随するる。これらの用法は、式9から生じたものに過ぎず、推奨および根拠なるものは何もない。式8は、XをYに回帰させた場合、全く同じR二乗が得られることを示している。このこと自体、高いR二乗が、ある変数を別の変数で説明することについて何も語っていないことを示すのに十分であろう。また、どちらかが他方を説明することができないにもかかわらず、R二乗が高いという状況を作り出すことは非常に簡単である(6)。R二乗の観点から「説明する」という動詞を再定義しない限り、R二乗と科学的説明と呼ばれるものの間には何の関連もない(7)。

R二乗の代わりに調整済みR二乗を使用しても、このような問題は全く解決されない。

この時点で、R二乗が何の役に立つのか、他のツールではできないどんな仕事をするのか、疑問に思われるかもしれない。私が言える唯一の正直な答えは、R二乗が全く役に立たなかったという状況を見つけたことがないということある。もし私が回帰分析のカリキュラムをゼロから設計することができたなら、R二乗について言及することはないでしょう。残念ながら、それは歴史的遺物として生き続けているので、あなたはそれが何であるか、そして人々がそれについてどんな誤解に苦しんでいるかを知っておく必要がある。

(6) 例えば、シカゴでの死者数を、毎日Tシャツを着ているシカゴ市民の数で回帰させたとする。さらに言えば、Tシャツを着ているシカゴ市民の数を死亡者数に回帰させることを想像してほしい。説明として推奨されることがさらに少ない何千もの例については、http://www.tylervigen.com/spurious-correlations を参照。
(7) 研究者の中には（Weisburd and Piquero 2008; Low-D´ecarie et al. 2014など）は、生態学や犯罪に関する科学論文で報告されたR二乗の値をすべて集め、生態学者や犯罪学者が研究対象の現象の説明力を高めたかどうかを確認しようと試みている。なぜこのような演習が無意味なのか、おわかりいただけたであろう。

このことが議論されたReddit。

plmパッケージ

データの読み込み

データ

プロット

固定効果モデル

回帰分析

作図

重回帰分析・国を追加

固定効果：n 個のエンティティ固有の切片（plmパッケージを使用）

ランダム効果モデル (ランダム切片, 部分プーリングモデル)

パネルデータとして設定（上記のモデルを実行する別の方法）

パネル設定によるランダム効果 (上記と同じ出力)

固定効果がランダム効果か？

その他のテスト・測定項目

個体効果および時間効果に関するF検定 F Test for Individual and/or Time Effects

パネルモデルに対するラグランジュFF乗数検定 Lagrange FF Multiplier Tests for Panel Models

ランダム効果に対する検定 Breusch-Pagan ラグランジュ乗数(LM)

Breusch-Pagan LMの独立性検定とPasaran CD検定による横断的依存性／同時発生的相関の検定

系列相関の検定

単位根/定常性の検定

分散不均一性 heteroskedasticity の検定

分散不均一性を制御--ロバスト共分散行列推定法（Sandwich推定法）

分散不均一性の制御 ランダム効果

分散不均一性の制御・固定効果

8秒説の前は3秒説だった

科学者たちの反論

マイクロソフトの発表

ファクトチェックをしないメディア

データの入手先

参考リンク

3. R二乗

調整済みR二乗

R二乗のリミット

3.1理論的R二乗

3.2 邪魔か迷惑か？

分散不均一性の制御ランダム効果