井出草平の研究ノート

計量

カテゴリカル変数が独立変数に入った単回帰分析[ベイズ]

Stanコード data { int<lower=0> N; // サンプルサイズ int<lower=0, upper=1> X[N]; // 独立変数(性別、0: 男性、1: 女性) real Y[N]; // 従属変数(賃金) } parameters { real alpha; // 切片 real beta; // 性別の効果 real<lower=0> sigma; // 誤差の標準偏差 } model { vector[N] gender_</lower=0></lower=0,></lower=0>…

単回帰分析[ベイズ]

通常の頻度統計で行う。 library(AER) # CPS1985 データを含むパッケージ data("CPS1985", package = "AER") fit.freq <- lm(wage ~ age, data = CPS1985) print(fit.freq) 結果。 Call: lm(formula = wage ~ age, data = CPS1985) Coefficients: (Intercept…

ICCのサンプルサイズの推定[R]

ICC, 級内相関のサンプルサイズの推定。 cran.r-project.org p、帰無仮説 p0、評価数 (k)、検出力、アルファが与えられた場合の標本サイズを計算する。また、p、p0、またはpとp0の0~1の組み合わせの異なる値の標本サイズを生成することもできる。 基になっ…

ICCのサンプルサイズの推定[R]

ICC, 級内相関のサンプルサイズの推定。 cran.r-project.org p、帰無仮説 p0、評価数 (k)、検出力、アルファが与えられた場合の標本サイズを計算する。また、p、p0、またはpとp0の0~1の組み合わせの異なる値の標本サイズを生成することもできる。 基になっ…

lavaanの結果をcsvで書きだす[R][lavaan]

psychパッケージのbfiデータを読み込む library("psych") data(bfi) lavaanパッケージでbfiデータを用い、因子分析と回帰分析を含む分析を行う library("lavaan") model = ' Neuroticism =~ N1 + N2 + N3 + N4 + N5 Extraversion =~ E1 + E2 + E3 + E4 + E5 …

ロジスティック回帰におけるモデル適合度の測定

こちらの論文で挙げられている方法を検討した。 www.ncbi.nlm.nih.gov Weiss, B.A. and Dardick, W. (2016) ‘An Entropy-Based Measure for Assessing Fuzziness in Logistic Regression’, Educational and Psychological Measurement, 76(6), pp. 986–1004.…

順序ロジスティック回帰分析をStata、Mplus、Rで行う-更新[Stata][Mplus][R]

順序ロジスティック回帰分析をStata、Mplus、Rで行う 以前のエントリの更新。 ides.hatenablog.com brant検定が通らない例を使っている。 Stata brant検定が走らない場合はfindit spost13_adoからspost13_adoをインストールする必要がある。 use https://www…

最小二乗法を用いた重回帰分析の前提条件と確認方法

重回帰の前提は下記のものである。 線形性 Linearity...予測変数と従属変数の残差間に線形関係が存在する。 正規性 Normality ...残差が正規分布する。 分散均一性 homoscedasticity ...残差は一定の分散を持つと仮定する 独立性 Independence...観測変数が…

Ordinalパッケージを用いた順序ロジスティック回帰分析

quantifyinghealth.com 注:動作しないコードを書き換え、不足しているものに関して注という形で補完している。 順序ロジスティック回帰は、1つまたは複数の予測変数(数値またはカテゴリ)と順序結果の間の関係をモデルする回帰分析の一種だ。順序結果は、…

ノンパラメトリックANCOVA

rdrr.io sm.ancova関数の形式は以下。 sm.ancova(x, y, group, h, model = "none", h.alpha = NA, weights=NA, covar = diag(1/weights), ...) 引数modelは"none", "equal", "parallel"のいずれかのオプションが選べる。 "none":各グループが完全に独立した…

区分線形回帰モデル

www.rdocumentation.org 区分線形回帰モデルは、データセットを複数の区間に分割し、それぞれの区間で線形回帰モデルを適用する手法である。これにより、データの局所的な傾向や非線形のパターンを捉えることができる。ここではsegmentedパッケージを使用す…

lasso, adaptive lasso, group lasso[R]

https://www.math.mcgill.ca/yyang/comp/notes/note4code.R library(glmnet) このパッケージで使用されるデフォルトのモデルは、Guassian線形モデルまたは最小二乗法である。説明のためにあらかじめ作成したデータセットをロードする。ユーザは自分のデータ…

summarytoolsの紹介[R]

cran.r-project.org cran.r-project.org www.rdocumentation.org 1. 概要 summarytoolsはデータ探索と簡単な報告を中心とした一貫した機能セットを提供する。その中核には以下の4つの関数が存在する: 関数説明 freq() 回数、比率、累積統計量、および欠損デ…

代理回答の信頼性についての研究者の見解

社会調査では代理回答が起こっていることが分かっている。 www.jstage.jst.go.jp 雄太郎花田, 海人仲田, & 寧佐藤. (2014). Ce5-3 郵送調査における代理回答分析と有効回答率の再定義: 内閣府の郵送世論調査の結果から(一般セッション 社会(2)). 日本行動計…

社会調査に必要なサンプルサイズ

ベストの本を読んでいてみつけた記述。 社会問題とは何か: なぜ、どのように生じ、なくなるのか? (筑摩選書)作者:ベスト,ジョエル筑摩書房Amazon 標本は、正確な結果を担保するにはあまりにも小さく見えるかもしれない。実際、多数の人が標本調査を疑う。全…

Lasssoのパッケージglmnet入門[R]

https://glmnet.stanford.edu/articles/glmnet.html はじめに Glmnetは一般化線形モデルおよび類似モデルをペナルティ付き最尤法でフィッティングするパッケージである。正則化パラメータλの値のグリッド(対数スケール)において、正則化パスがlassoまたはe…

Rで平均二乗誤差(MSE)を計算する方法[R]

www.statology.org モデルの予測精度を測定するために使用される最も一般的な測定基準の1つはMSEで、平均二乗誤差の略だ。次のように計算される: Σ - "合計 "を意味する記号 n - サンプルサイズ - 実際のデータ値 - 予測データ値 MSEの値が小さいほど、モデ…

Rでのブートストラップ・サンプリング[R]

ブートストラップは、サンプルからの統計量を推定するために、置換を伴うランダム・サンプリングを使用する。このサンプルからリサンプリングを行うことで、母集団を代表するような新しいデータを生成することができる。小さな標本から1度だけ統計量を推定す…

Stataにおけるlasso入門[stata]

blog.stata.com なぜlassoが興味深いのか? 最小絶対縮小選択演算子(lasso)はモデル係数を推定し、これらの推定値はどの共変量をモデルに含めるかを選択するために使用できる。lassoは結果予測や因果パラメータに関する推論に使用される。この投稿では、la…

mtcarsデータを用いたLasso回帰[R]

Lasso 回帰は、データに多重共線性が存在するときに、回帰モデルを適合させるために使用できる手法である。 簡単に言うと、最小2乗回帰は,残差2乗和 (RSS) を最小化する係数推定を見つける。 RSS = Σ(yi - ŷi)2 ここで Σ : 和を意味するギリシャ記号 yi: 番…

DFactorモデル[LatentGOLD]

DFactorモデルとは、Discrete Factor Modelsのことで、離散値の探索的因子分析のアプローチの一つである。 世の中では順序や離散データに対して当たり前のようにPearsonの相関係数と最尤法で因子分析している論文ばかりだが、大きな間違いの一つである。 ア…

全ての組み合わせでCramerのVを計算する、1つのデータフレームで実行する場合

先に作成したコードの変型版。 ides.hatenablog.com コード # ライブラリの読み込み library(dplyr) # ダミーデータの作成 set.seed(42) dummy_data <- data.frame(matrix(sample(0:2, 1000, replace = TRUE), ncol = 10)) colnames(dummy_data) <- paste0("…

無条件平均値代入法 Unconditional Mean Imputation [stata]

欠測値の補足方法の一つ。やっていることは変数の平均値を出し、欠損値の中に入れる、というだけである。 利点については以下のようなものが挙げられている。 簡単で直感的: 平均値代入法は非常に簡単で直感的な手法であるため、理解しやすく、実装も容易で…

Little's Missing Completely at Random (MCAR) 検定

naniarパッケージを用いた方法 library("naniar") Little (1988)の検定統計量を用いて、データが完全にランダムに欠落しているかどうか(MCAR)を評価する。この検定の帰無仮説は、データがMCARであるというもので、検定統計量はカイ二乗値である。 mcar_test(…

全ての組み合わせでCramerのVを計算する[R]

今回はCramerのVの計算。 CramerのVは名目尺度以上のものに適応できる。 今回は2値の名義尺度と3値の順序尺度を例にしている。 検定はカイ二乗検定を用いるため、やや複雑でAIにすべて書かせるのは無理だった。 Phindが書いたのはCramerのVのところだけだが…

Phindでリコードのコードを書く[R]

統計の分野の人がリコードと呼ぶ作業をPhindで実験してみた。リコードという呼び方は方言(ジャーゴン)だそうで、プログラミングの分野ではnormalizeかcanonicalizeと呼ぶらしい。統計でnormalizeというと正規分布を用いて0から1までの数字にすることなどを指…

全ての組み合わせでクロス集計表分析を行う[R]

Phind(https://www.phind.com/)を利用してデータに含まれる変数の全組み合わせのクロス集計表分析を実行するコードを書いてもらった。 まず、ダミーデータを作成。 set.seed(123) df <- data.frame(matrix(sample(0:2, 100, replace = TRUE), nrow = 10)) co…

コレスポンデンス分析 その1[R]

www.sthda.com コレスポンデンス分析(CA)は、主成分分析の拡張版で、質的変数(またはカテゴリデータ)間の関係を探索するのに適している。主成分分析と同様に、データセットを2次元プロットで要約し、可視化するためのソリューションを提供する。 ここでは…

Rでのデータ読み込み・書き出しはrioパッケージを使うべし[R]

rioパッケージの解説翻訳をした。 cran.r-project.org データファイルのインポート、エクスポート、コンバート rio の背景にある考えは、R へのデータのインポートと R からのデータのエクスポートのプロセスを簡素化することだ。このプロセスは、おそらく不…

固定効果SEM・ランダム効果SEM[Stata]

SEMモデル内に観測されない異質性を組み入れることができる。これを行うために、我々は、観測されない潜在変数を使用する。 このモデルでは、潜在的なUは独立変数と相関し、従属変数に一定の効果を持つ。 . sem (U -> dg02i1, ) (U -> dg02i2, ) (U -> dg02i…