井出草平の研究ノート

R

Rで平均二乗誤差(MSE)を計算する方法[R]

www.statology.org モデルの予測精度を測定するために使用される最も一般的な測定基準の1つはMSEで、平均二乗誤差の略だ。次のように計算される: Σ - "合計 "を意味する記号 n - サンプルサイズ - 実際のデータ値 - 予測データ値 MSEの値が小さいほど、モデ…

Rでのブートストラップ・サンプリング[R]

ブートストラップは、サンプルからの統計量を推定するために、置換を伴うランダム・サンプリングを使用する。このサンプルからリサンプリングを行うことで、母集団を代表するような新しいデータを生成することができる。小さな標本から1度だけ統計量を推定す…

mtcarsデータを用いたLasso回帰[R]

Lasso 回帰は、データに多重共線性が存在するときに、回帰モデルを適合させるために使用できる手法である。 簡単に言うと、最小2乗回帰は,残差2乗和 (RSS) を最小化する係数推定を見つける。 RSS = Σ(yi - ŷi)2 ここで Σ : 和を意味するギリシャ記号 yi: 番…

Lasso回帰モデル - R bloggers[R]

以前にStataでLasso、リッジ回帰の使い方は解説している。 ides.hatenablog.com 今回はRでの実行例について。 Lasso Regression Model with R code www.r-bloggers.com Tibshirani (1996) は、パラメータの選択と縮小のために、LASSO (Least Absolute Shrink…

全ての組み合わせでCramerのVを計算する、1つのデータフレームで実行する場合

先に作成したコードの変型版。 ides.hatenablog.com コード # ライブラリの読み込み library(dplyr) # ダミーデータの作成 set.seed(42) dummy_data <- data.frame(matrix(sample(0:2, 1000, replace = TRUE), ncol = 10)) colnames(dummy_data) <- paste0("…

Little's Missing Completely at Random (MCAR) 検定

naniarパッケージを用いた方法 library("naniar") Little (1988)の検定統計量を用いて、データが完全にランダムに欠落しているかどうか(MCAR)を評価する。この検定の帰無仮説は、データがMCARであるというもので、検定統計量はカイ二乗値である。 mcar_test(…

全ての組み合わせでCramerのVを計算する[R]

今回はCramerのVの計算。 CramerのVは名目尺度以上のものに適応できる。 今回は2値の名義尺度と3値の順序尺度を例にしている。 検定はカイ二乗検定を用いるため、やや複雑でAIにすべて書かせるのは無理だった。 Phindが書いたのはCramerのVのところだけだが…

Phindでリコードのコードを書く[R]

統計の分野の人がリコードと呼ぶ作業をPhindで実験してみた。リコードという呼び方は方言(ジャーゴン)だそうで、プログラミングの分野ではnormalizeかcanonicalizeと呼ぶらしい。統計でnormalizeというと正規分布を用いて0から1までの数字にすることなどを指…

全ての組み合わせでクロス集計表分析を行う[R]

Phind(https://www.phind.com/)を利用してデータに含まれる変数の全組み合わせのクロス集計表分析を実行するコードを書いてもらった。 まず、ダミーデータを作成。 set.seed(123) df <- data.frame(matrix(sample(0:2, 100, replace = TRUE), nrow = 10)) co…

コレスポンデンス分析 その1[R]

www.sthda.com コレスポンデンス分析(CA)は、主成分分析の拡張版で、質的変数(またはカテゴリデータ)間の関係を探索するのに適している。主成分分析と同様に、データセットを2次元プロットで要約し、可視化するためのソリューションを提供する。 ここでは…

Rでのデータ読み込み・書き出しはrioパッケージを使うべし[R]

rioパッケージの解説翻訳をした。 cran.r-project.org データファイルのインポート、エクスポート、コンバート rio の背景にある考えは、R へのデータのインポートと R からのデータのエクスポートのプロセスを簡素化することだ。このプロセスは、おそらく不…

LCCAパッケージのデータ

scholarsphere.psu.edu lcca_1.1.0.zipの中にあるdataフォルダにデータがある。 データはgzで圧縮されているので、解凍すると.txt形式のデータが表れる。 Excelなどでは読めないのでread.table()を用いてRで読む。 NHsmoking データ読み込み NHsmoking <- re…

潜在クラス因果分析 Latent Class Causal Analysis (LCCA)パッケージの解説 [R]

scholarsphere.psu.edu 説明 本パッケージは、潜在クラス因果分析(LCCA)、潜在クラス分析(LCA)、共変量付きLCAを実行するために、Methodology Centerによって開発されたRパッケージである。LCAは、観測されないカテゴリ変数が与えられたとき、それらが条…

交差遅延パネルモデルCross-lagged Panel Model[R]

Stataでの分析方法はこちら。 ides.hatenablog.com Mplusでの分析方法はこちら。 ides.hatenablog.com データ読み込み library(rio) nes3wave <-import("nes3wave.dta") 今回のパス図を先に表示しておこう。 コードは末尾。semPlotパッケージを用いて描画し…

psychパッケージを用いた探索的因子分析のパス図[R]

www.rdocumentation.org データ library(psych) library(GPArotation) data(bfi) d1 <- bfi[1:25] res01 <- fa(d1, nfactors = 5, fm = "ml", rotate = "promax", scores=TRUE) fa.diagram (res01, cut=0.3, simple=FALSE, sort=TRUE, digits=3) オプション …

傾向スコアによる重み付けを行うPSweightパッケージ[R]その2

こちらの続き。 ides.hatenablog.com ides.hatenablog.com cran.r-project.org こちらの4章の翻訳。 https://cran.r-project.org/web/packages/PSweight/vignettes/vignette.pdf 4.3. 複数の処置法を用いた傾向スコアによる重み付け セクション4.2で二重処置…

傾向スコアによる重み付けを行うPSweightパッケージ[R]その1

cran.r-project.org こちらの4章の翻訳。 https://cran.r-project.org/web/packages/PSweight/vignettes/vignette.pdf 4. NCDSデータによるケーススタディ NCDS(National Child Development Survey)データを用いて、教育達成度の時間給への因果関係を推定…

ベイジアンt検定[R]

www.sumsar.net bayes.t.test 関数 t.test関数は、4つのバージョンのt検定を実行するために使われる。ここでは、1標本と対の標本の選択肢だけを紹介する。bayes.t.testはt検定のベイジアン的な代替法を実行し、t.test関数と互換性のある関数用法を有している…

傾向スコアによる重み付けを行うPSweightパッケージの概要説明[R]

cran.r-project.org こちらの3章の翻訳。 https://cran.r-project.org/web/packages/PSweight/vignettes/vignette.pdf 3.パッケージの概要 PSweightパッケージには、観察研究のデザインと分析に特化した2つのモジュールが含まれている。 デザインモジュール…

順序ロジスティック回帰分析をStata、Mplus、Rで行う[Stata][Mplus][R]

brant検定がうまくいかないデータで走らせたかったので、Richard WilliamsのGologit2で使用されているデータを使用した。 解析例は下記のPDF内にあるものと基本的に同じである。 https://www.stata.com/meeting/4nasug/gologit2.pdf Stata 標準誤差をロバス…

RStudio上のRを使う感覚でStataが利用できるパッケージ Statamarkdown[R][Stata]

RStudio上のRを使う感覚でStataが利用できるパッケージである。 www.ssc.wisc.edu はてなブログではチャンクオプションが表示できないため、原版と見比べながら学習してほしい。 Statamarkdown by Doug Hemken 2022-03-02 1 StataとR Markdown 1.1 はじめに …

RStanのインストールに関するメモ(2022年7月)[R]

2022年7月現在の、RにStanをインストールする手順を記載する。 現在の注意点はRStanはR4.2に対応していない、ということである。最新バージョンのRとRtoolsではRStanは動かないことに注意が必要である。 なお、Windowsでの方法であり、Macでは試していないの…

ベイズ法・ポワソンモデルを用いたクロス集計表の分析

クロス表データのベイズ分析のために使用できるいくつかの可能性があるモデルがある。 クロス表の各セルでの頻度に対するいわゆる対数線形モデル(ポアソン・モデル)。各セルのデータの比率の推定値を得るための二項モデルである。カイ二乗検定よりもさらに…

correlationパッケージ[R]

自動で相関係数を一気に計算するパッケージの一つ。サンプルデータはmtcarsを用いる。 cran.r-project.org easystats.github.io data(mtcars) head(mtcars,5) データ。 mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160 110 3.90 2.620 1…

パス解析・直接効果・間接効果[Mplus][R]

UCLA: Statistical Consulting Groupのページから。 stats.oarc.ucla.edu UCLAではMplusのコードが書かれているが、このエントリでは、同じ分析をRのlavaanでの再現したいと思う。 Mplus パス解析はすべての変数が観測される方程式系を推定するために使用さ…

plmパッケージを用いたパネルデータ分析[R]

こちらの資料がソース。 rstudio-pubs-static.s3.amazonaws.com https://dss.princeton.edu/training/Panel101R.pdf plmパッケージ rdrr.io https://cran.r-project.org/web/packages/plm/plm.pdf データの読み込み library(foreign) Panel <- read.dta("htt…

performanceパッケージ[R]

easystats.github.io CRAN: https://cran.r-project.org/web/packages/performance/index.html rdrr.io: https://rdrr.io/cran/performance/ YouTubeでの解説(英語) www.youtube.com コードの使用法 https://rdrr.io/cran/performance/f/README.md 回帰モデ…

マハラノビス距離による外れ値の検索[R]

rpubs.com Rのマハラノビス()関数は、多次元データの外れ値を検出する簡単な手段を提供する。 例えば、身長と体重のデータフレームがあるとする。 hw <- data.frame(Height.cm=c(164, 167, 168, 169, 169, 170, 170, 170, 171, 172, 172, 173, 173, 175, 176…

データフレームの行列入れ替え[R]

data <- t(data) ameblo.jp www.marsja.se

条件を指定して行を削除する[R]

www.datasciencemadesimple.com 特定の列の特定の値のケースを削除 サンプルデータを作成 df1 = data.frame(Name = c('George','Andrea', 'Micheal','Maggie','Ravi','Xien','Jalpa'), Grade_score=c(4,6,2,9,5,7,8), Mathematics1_score=c(45,78,44,89,66,4…