井出草平の研究ノート

R

カテゴリカル変数が独立変数に入った単回帰分析[ベイズ]

Stanコード data { int<lower=0> N; // サンプルサイズ int<lower=0, upper=1> X[N]; // 独立変数(性別、0: 男性、1: 女性) real Y[N]; // 従属変数(賃金) } parameters { real alpha; // 切片 real beta; // 性別の効果 real<lower=0> sigma; // 誤差の標準偏差 } model { vector[N] gender_</lower=0></lower=0,></lower=0>…

単回帰分析[ベイズ]

通常の頻度統計で行う。 library(AER) # CPS1985 データを含むパッケージ data("CPS1985", package = "AER") fit.freq <- lm(wage ~ age, data = CPS1985) print(fit.freq) 結果。 Call: lm(formula = wage ~ age, data = CPS1985) Coefficients: (Intercept…

ICCのサンプルサイズの推定[R]

ICC, 級内相関のサンプルサイズの推定。 cran.r-project.org p、帰無仮説 p0、評価数 (k)、検出力、アルファが与えられた場合の標本サイズを計算する。また、p、p0、またはpとp0の0~1の組み合わせの異なる値の標本サイズを生成することもできる。 基になっ…

ICCのサンプルサイズの推定[R]

ICC, 級内相関のサンプルサイズの推定。 cran.r-project.org p、帰無仮説 p0、評価数 (k)、検出力、アルファが与えられた場合の標本サイズを計算する。また、p、p0、またはpとp0の0~1の組み合わせの異なる値の標本サイズを生成することもできる。 基になっ…

lavaanの結果をcsvで書きだす[R][lavaan]

psychパッケージのbfiデータを読み込む library("psych") data(bfi) lavaanパッケージでbfiデータを用い、因子分析と回帰分析を含む分析を行う library("lavaan") model = ' Neuroticism =~ N1 + N2 + N3 + N4 + N5 Extraversion =~ E1 + E2 + E3 + E4 + E5 …

ロジスティック回帰におけるモデル適合度の測定

こちらの論文で挙げられている方法を検討した。 www.ncbi.nlm.nih.gov Weiss, B.A. and Dardick, W. (2016) ‘An Entropy-Based Measure for Assessing Fuzziness in Logistic Regression’, Educational and Psychological Measurement, 76(6), pp. 986–1004.…

順序ロジスティック回帰分析をStata、Mplus、Rで行う-更新[Stata][Mplus][R]

順序ロジスティック回帰分析をStata、Mplus、Rで行う 以前のエントリの更新。 ides.hatenablog.com brant検定が通らない例を使っている。 Stata brant検定が走らない場合はfindit spost13_adoからspost13_adoをインストールする必要がある。 use https://www…

最小二乗法を用いた重回帰分析の前提条件と確認方法

重回帰の前提は下記のものである。 線形性 Linearity...予測変数と従属変数の残差間に線形関係が存在する。 正規性 Normality ...残差が正規分布する。 分散均一性 homoscedasticity ...残差は一定の分散を持つと仮定する 独立性 Independence...観測変数が…

ノンパラメトリックANCOVA

rdrr.io sm.ancova関数の形式は以下。 sm.ancova(x, y, group, h, model = "none", h.alpha = NA, weights=NA, covar = diag(1/weights), ...) 引数modelは"none", "equal", "parallel"のいずれかのオプションが選べる。 "none":各グループが完全に独立した…

lasso, adaptive lasso, group lasso[R]

https://www.math.mcgill.ca/yyang/comp/notes/note4code.R library(glmnet) このパッケージで使用されるデフォルトのモデルは、Guassian線形モデルまたは最小二乗法である。説明のためにあらかじめ作成したデータセットをロードする。ユーザは自分のデータ…

summarytoolsの紹介[R]

cran.r-project.org cran.r-project.org www.rdocumentation.org 1. 概要 summarytoolsはデータ探索と簡単な報告を中心とした一貫した機能セットを提供する。その中核には以下の4つの関数が存在する: 関数説明 freq() 回数、比率、累積統計量、および欠損デ…

Lasssoのパッケージglmnet入門[R]

https://glmnet.stanford.edu/articles/glmnet.html はじめに Glmnetは一般化線形モデルおよび類似モデルをペナルティ付き最尤法でフィッティングするパッケージである。正則化パラメータλの値のグリッド(対数スケール)において、正則化パスがlassoまたはe…

Rで平均二乗誤差(MSE)を計算する方法[R]

www.statology.org モデルの予測精度を測定するために使用される最も一般的な測定基準の1つはMSEで、平均二乗誤差の略だ。次のように計算される: Σ - "合計 "を意味する記号 n - サンプルサイズ - 実際のデータ値 - 予測データ値 MSEの値が小さいほど、モデ…

Rでのブートストラップ・サンプリング[R]

ブートストラップは、サンプルからの統計量を推定するために、置換を伴うランダム・サンプリングを使用する。このサンプルからリサンプリングを行うことで、母集団を代表するような新しいデータを生成することができる。小さな標本から1度だけ統計量を推定す…

mtcarsデータを用いたLasso回帰[R]

Lasso 回帰は、データに多重共線性が存在するときに、回帰モデルを適合させるために使用できる手法である。 簡単に言うと、最小2乗回帰は,残差2乗和 (RSS) を最小化する係数推定を見つける。 RSS = Σ(yi - ŷi)2 ここで Σ : 和を意味するギリシャ記号 yi: 番…

Lasso回帰モデル - R bloggers[R]

以前にStataでLasso、リッジ回帰の使い方は解説している。 ides.hatenablog.com 今回はRでの実行例について。 Lasso Regression Model with R code www.r-bloggers.com Tibshirani (1996) は、パラメータの選択と縮小のために、LASSO (Least Absolute Shrink…

全ての組み合わせでCramerのVを計算する、1つのデータフレームで実行する場合

先に作成したコードの変型版。 ides.hatenablog.com コード # ライブラリの読み込み library(dplyr) # ダミーデータの作成 set.seed(42) dummy_data <- data.frame(matrix(sample(0:2, 1000, replace = TRUE), ncol = 10)) colnames(dummy_data) <- paste0("…

Little's Missing Completely at Random (MCAR) 検定

naniarパッケージを用いた方法 library("naniar") Little (1988)の検定統計量を用いて、データが完全にランダムに欠落しているかどうか(MCAR)を評価する。この検定の帰無仮説は、データがMCARであるというもので、検定統計量はカイ二乗値である。 mcar_test(…

全ての組み合わせでCramerのVを計算する[R]

今回はCramerのVの計算。 CramerのVは名目尺度以上のものに適応できる。 今回は2値の名義尺度と3値の順序尺度を例にしている。 検定はカイ二乗検定を用いるため、やや複雑でAIにすべて書かせるのは無理だった。 Phindが書いたのはCramerのVのところだけだが…

Phindでリコードのコードを書く[R]

統計の分野の人がリコードと呼ぶ作業をPhindで実験してみた。リコードという呼び方は方言(ジャーゴン)だそうで、プログラミングの分野ではnormalizeかcanonicalizeと呼ぶらしい。統計でnormalizeというと正規分布を用いて0から1までの数字にすることなどを指…

全ての組み合わせでクロス集計表分析を行う[R]

Phind(https://www.phind.com/)を利用してデータに含まれる変数の全組み合わせのクロス集計表分析を実行するコードを書いてもらった。 まず、ダミーデータを作成。 set.seed(123) df <- data.frame(matrix(sample(0:2, 100, replace = TRUE), nrow = 10)) co…

コレスポンデンス分析 その1[R]

www.sthda.com コレスポンデンス分析(CA)は、主成分分析の拡張版で、質的変数(またはカテゴリデータ)間の関係を探索するのに適している。主成分分析と同様に、データセットを2次元プロットで要約し、可視化するためのソリューションを提供する。 ここでは…

Rでのデータ読み込み・書き出しはrioパッケージを使うべし[R]

rioパッケージの解説翻訳をした。 cran.r-project.org データファイルのインポート、エクスポート、コンバート rio の背景にある考えは、R へのデータのインポートと R からのデータのエクスポートのプロセスを簡素化することだ。このプロセスは、おそらく不…

LCCAパッケージのデータ

scholarsphere.psu.edu lcca_1.1.0.zipの中にあるdataフォルダにデータがある。 データはgzで圧縮されているので、解凍すると.txt形式のデータが表れる。 Excelなどでは読めないのでread.table()を用いてRで読む。 NHsmoking データ読み込み NHsmoking <- re…

潜在クラス因果分析 Latent Class Causal Analysis (LCCA)パッケージの解説 [R]

scholarsphere.psu.edu 説明 本パッケージは、潜在クラス因果分析(LCCA)、潜在クラス分析(LCA)、共変量付きLCAを実行するために、Methodology Centerによって開発されたRパッケージである。LCAは、観測されないカテゴリ変数が与えられたとき、それらが条…

交差遅延パネルモデルCross-lagged Panel Model[R]

Stataでの分析方法はこちら。 ides.hatenablog.com Mplusでの分析方法はこちら。 ides.hatenablog.com データ読み込み library(rio) nes3wave <-import("nes3wave.dta") 今回のパス図を先に表示しておこう。 コードは末尾。semPlotパッケージを用いて描画し…

psychパッケージを用いた探索的因子分析のパス図[R]

www.rdocumentation.org データ library(psych) library(GPArotation) data(bfi) d1 <- bfi[1:25] res01 <- fa(d1, nfactors = 5, fm = "ml", rotate = "promax", scores=TRUE) fa.diagram (res01, cut=0.3, simple=FALSE, sort=TRUE, digits=3) オプション …

傾向スコアによる重み付けを行うPSweightパッケージ[R]その2

こちらの続き。 ides.hatenablog.com ides.hatenablog.com cran.r-project.org こちらの4章の翻訳。 https://cran.r-project.org/web/packages/PSweight/vignettes/vignette.pdf 4.3. 複数の処置法を用いた傾向スコアによる重み付け セクション4.2で二重処置…

傾向スコアによる重み付けを行うPSweightパッケージ[R]その1

cran.r-project.org こちらの4章の翻訳。 https://cran.r-project.org/web/packages/PSweight/vignettes/vignette.pdf 4. NCDSデータによるケーススタディ NCDS(National Child Development Survey)データを用いて、教育達成度の時間給への因果関係を推定…

ベイジアンt検定[R]

www.sumsar.net bayes.t.test 関数 t.test関数は、4つのバージョンのt検定を実行するために使われる。ここでは、1標本と対の標本の選択肢だけを紹介する。bayes.t.testはt検定のベイジアン的な代替法を実行し、t.test関数と互換性のある関数用法を有している…