井出草平の研究ノート

計量

社会調査に必要なサンプルサイズ

ベストの本を読んでいてみつけた記述。 社会問題とは何か: なぜ、どのように生じ、なくなるのか? (筑摩選書)作者:ベスト,ジョエル筑摩書房Amazon 標本は、正確な結果を担保するにはあまりにも小さく見えるかもしれない。実際、多数の人が標本調査を疑う。全…

Rで平均二乗誤差(MSE)を計算する方法[R]

www.statology.org モデルの予測精度を測定するために使用される最も一般的な測定基準の1つはMSEで、平均二乗誤差の略だ。次のように計算される: Σ - "合計 "を意味する記号 n - サンプルサイズ - 実際のデータ値 - 予測データ値 MSEの値が小さいほど、モデ…

Rでのブートストラップ・サンプリング[R]

ブートストラップは、サンプルからの統計量を推定するために、置換を伴うランダム・サンプリングを使用する。このサンプルからリサンプリングを行うことで、母集団を代表するような新しいデータを生成することができる。小さな標本から1度だけ統計量を推定す…

DFactorモデル[LatentGOLD]

DFactorモデルとは、Discrete Factor Modelsのことで、離散値の探索的因子分析のアプローチの一つである。 世の中では順序や離散データに対して当たり前のようにPearsonの相関係数と最尤法で因子分析している論文ばかりだが、大きな間違いの一つである。 ア…

全ての組み合わせでCramerのVを計算する、1つのデータフレームで実行する場合

先に作成したコードの変型版。 ides.hatenablog.com コード # ライブラリの読み込み library(dplyr) # ダミーデータの作成 set.seed(42) dummy_data <- data.frame(matrix(sample(0:2, 1000, replace = TRUE), ncol = 10)) colnames(dummy_data) <- paste0("…

無条件平均値代入法 Unconditional Mean Imputation [stata]

欠測値の補足方法の一つ。やっていることは変数の平均値を出し、欠損値の中に入れる、というだけである。 利点については以下のようなものが挙げられている。 簡単で直感的: 平均値代入法は非常に簡単で直感的な手法であるため、理解しやすく、実装も容易で…

Little's Missing Completely at Random (MCAR) 検定

naniarパッケージを用いた方法 library("naniar") Little (1988)の検定統計量を用いて、データが完全にランダムに欠落しているかどうか(MCAR)を評価する。この検定の帰無仮説は、データがMCARであるというもので、検定統計量はカイ二乗値である。 mcar_test(…

全ての組み合わせでCramerのVを計算する[R]

今回はCramerのVの計算。 CramerのVは名目尺度以上のものに適応できる。 今回は2値の名義尺度と3値の順序尺度を例にしている。 検定はカイ二乗検定を用いるため、やや複雑でAIにすべて書かせるのは無理だった。 Phindが書いたのはCramerのVのところだけだが…

Phindでリコードのコードを書く[R]

統計の分野の人がリコードと呼ぶ作業をPhindで実験してみた。リコードという呼び方は方言(ジャーゴン)だそうで、プログラミングの分野ではnormalizeかcanonicalizeと呼ぶらしい。統計でnormalizeというと正規分布を用いて0から1までの数字にすることなどを指…

全ての組み合わせでクロス集計表分析を行う[R]

Phind(https://www.phind.com/)を利用してデータに含まれる変数の全組み合わせのクロス集計表分析を実行するコードを書いてもらった。 まず、ダミーデータを作成。 set.seed(123) df <- data.frame(matrix(sample(0:2, 100, replace = TRUE), nrow = 10)) co…

コレスポンデンス分析 その1[R]

www.sthda.com コレスポンデンス分析(CA)は、主成分分析の拡張版で、質的変数(またはカテゴリデータ)間の関係を探索するのに適している。主成分分析と同様に、データセットを2次元プロットで要約し、可視化するためのソリューションを提供する。 ここでは…

Rでのデータ読み込み・書き出しはrioパッケージを使うべし[R]

rioパッケージの解説翻訳をした。 cran.r-project.org データファイルのインポート、エクスポート、コンバート rio の背景にある考えは、R へのデータのインポートと R からのデータのエクスポートのプロセスを簡素化することだ。このプロセスは、おそらく不…

固定効果SEM・ランダム効果SEM[Stata]

SEMモデル内に観測されない異質性を組み入れることができる。これを行うために、我々は、観測されない潜在変数を使用する。 このモデルでは、潜在的なUは独立変数と相関し、従属変数に一定の効果を持つ。 . sem (U -> dg02i1, ) (U -> dg02i2, ) (U -> dg02i…

パネルデータ分析における固定効果およびランダム効果[Stata]

Sayed HossainさんのYouTube動画から。 www.youtube.com データはこちらからダウンロードできる。 https://bityl.co/E3kh 以下の手法でパネルデータを作成する。 プールドOLS回帰モデル 固定効果モデルまたはLSDVモデル ランダム効果モデル データ ここでは…

Stataにおける処置効果推定 その1[Stata]

blog.stata.com 処置効果推定量とは、観察データに基づき、ある処置が結果に及ぼす因果的な効果を推定するものである。 本日の投稿では、4つの処置効果推定量について説明する。 RA: 回帰調整 Regression adjustment IPW: 逆確率重み付け Inverse probabilit…

傾向スコアによる重み付けを行うPSweightパッケージ[R]その2

こちらの続き。 ides.hatenablog.com ides.hatenablog.com cran.r-project.org こちらの4章の翻訳。 https://cran.r-project.org/web/packages/PSweight/vignettes/vignette.pdf 4.3. 複数の処置法を用いた傾向スコアによる重み付け セクション4.2で二重処置…

傾向スコアによる重み付けを行うPSweightパッケージ[R]その1

cran.r-project.org こちらの4章の翻訳。 https://cran.r-project.org/web/packages/PSweight/vignettes/vignette.pdf 4. NCDSデータによるケーススタディ NCDS(National Child Development Survey)データを用いて、教育達成度の時間給への因果関係を推定…

ベイジアンt検定[R]

www.sumsar.net bayes.t.test 関数 t.test関数は、4つのバージョンのt検定を実行するために使われる。ここでは、1標本と対の標本の選択肢だけを紹介する。bayes.t.testはt検定のベイジアン的な代替法を実行し、t.test関数と互換性のある関数用法を有している…

傾向スコアによる重み付けを行うPSweightパッケージの概要説明[R]

cran.r-project.org こちらの3章の翻訳。 https://cran.r-project.org/web/packages/PSweight/vignettes/vignette.pdf 3.パッケージの概要 PSweightパッケージには、観察研究のデザインと分析に特化した2つのモジュールが含まれている。 デザインモジュール…

順序ロジスティック回帰分析をStata、Mplus、Rで行う[Stata][Mplus][R]

brant検定がうまくいかないデータで走らせたかったので、Richard WilliamsのGologit2で使用されているデータを使用した。 解析例は下記のPDF内にあるものと基本的に同じである。 https://www.stata.com/meeting/4nasug/gologit2.pdf Stata 標準誤差をロバス…

順序ロジスティック回帰[Stata]

Stataでの順序ロジスティック回帰分析の方法について。 stats.oarc.ucla.edu 順序ロジスティック回帰 順序付きロジスティック回帰の例 例 1: マーケティング・リサーチ会社が、人々がファーストフード・チェーンで注文するソーダのサイズ(S、M、L、特大)に…

RStanのインストールに関するメモ(2022年7月)[R]

2022年7月現在の、RにStanをインストールする手順を記載する。 現在の注意点はRStanはR4.2に対応していない、ということである。最新バージョンのRとRtoolsではRStanは動かないことに注意が必要である。 なお、Windowsでの方法であり、Macでは試していないの…

尤度に基づいた検定、IC指標の比較

Nylund、Asparouhov、Muthénの論文からnaive chi-square(NCS)、Lo–Mendell–Rubin、bootstrap likelihood ratio testの比較をした論文の結論部分。BLRTの優位性が示された論文として見かけることがあるが、あくまでもデータ次第であることが指摘されてことが…

相関係数の高い説明変数があれば多重共線性を考慮して片方を除くべき?

SPSSによる多変量解析オーム社Amazon 重回帰分析はとても分かりやすく有効な分析法だが、説明変数間の相関が高すぎる場合は、 パラメータの推定が不安定になるという問題点がある。 これは、説明変数間にすでに別の線型回帰関係が含まれているということであ…

多重共線性のシミュレーション

下記エントリーの続き。 ides.hatenablog.com こちらの教科書から多重共線性について Statistical Rethinking: A Bayesian Course with Examples in R and STAN (Chapman & Hall/CRC Texts in Statistical Science)作者:McElreath, RichardChapman and Hall/…

多重共線性の根本的な問題はモデルが答えようとする問題の方にありモデルそのものにはない

多重共線性があるかどうかを調べるのにVIFの値を出して4以下/10以下ならOKといった運用をしがちだが、この運用には問題がある。 第一にVIFの値で機械的にカットオフを設けることに問題があること、第二に多重共線性をモデルに求めているという根本的な誤りが…

ベイズ法・ポワソンモデルを用いたクロス集計表の分析

クロス表データのベイズ分析のために使用できるいくつかの可能性があるモデルがある。 クロス表の各セルでの頻度に対するいわゆる対数線形モデル(ポアソン・モデル)。各セルのデータの比率の推定値を得るための二項モデルである。カイ二乗検定よりもさらに…

correlationパッケージ[R]

自動で相関係数を一気に計算するパッケージの一つ。サンプルデータはmtcarsを用いる。 cran.r-project.org easystats.github.io data(mtcars) head(mtcars,5) データ。 mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160 110 3.90 2.620 1…

R二乗は役に立たないのか?

カーネギーメロン大学のCosma Shalizi氏の「R二乗値は何の役にも立たない」関連。 ides.hatenablog.com バージニア大学図書館のクレイ・フォード氏によるシミュレーションをみてみよう。 data.library.virginia.edu 2015年10月16日(木)、不信感を抱いた学…

パス解析・直接効果・間接効果[Mplus][R]

UCLA: Statistical Consulting Groupのページから。 stats.oarc.ucla.edu UCLAではMplusのコードが書かれているが、このエントリでは、同じ分析をRのlavaanでの再現したいと思う。 Mplus パス解析はすべての変数が観測される方程式系を推定するために使用さ…