井出草平の研究ノート

R

ロジットモデルのForward StabilityとModel Path Selection

データの読み込み こちら(https://ides.hatenablog.com/entry/2024/06/21/235127)で使った心臓病のデータを使用する。 library(dplyr) url <- "https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data" column_…

Forward StabilityとModel Path Selection

Lassoの技法のひとつである安定性選択とランダム化された安定性選択があるが、これらの方法は結果がスパースになるという問題がある。 要は、選ばれる変数が少なく、とてもスリムにモデルになってしまうという問題である。 github.com link.springer.com ar5…

ロジスティックLasso回帰の安定性選択(Stability Selection)[R]

安定性選択(Stability Selection)について。 ides.hatenablog.com データは説明はこちら。 ides.hatenablog.com データの作成と前処理 library(dplyr) url <- "https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.clevelan…

k-foldクロスバリデーションを用いたロジスティックLasso回帰[R]

従属変数が連続変数のLasso回帰を今まで紹介してきたが、今回は従属変数が2値、つまりロジットモデルのLasso回帰の例を示す。 使用するのは心臓病のデータである。 データの作成 # データの読み込み(heart disease datasetを使用) url <- "https://archive…

kーfoldクロスバリデーションを用いたLassoにおける変数選択の安定性[R]

kーfold CVのやり方はこちら。 ides.hatenablog.com また、結果にどのくらいの安定性があるか、計算のたびに異なる乱数を与え、kーfold CVのLassoの計算を100回反復した。1) 独立変数側で選ばれた変数の回数、2)選ばれた時の推定値の平均とその標準偏差を計算…

LOOCVを用いたLassoにおける変数選択の安定性[R]

一つ抜き交差検証(Leave-One-Out Cross-Validation, LOOCV)は、各データポイントを一度だけ検証データとして使用し、残りのデータを訓練データとして使用する交差検証である。具体的には、まずデータセットから1つのデータポイント(1ケース分のデータ)を…

モンテカルロ交差検証を用いたLasso[R]

モンテカルロ交差検証(Monte Carlo cross-validation, MCCV)、もしくは反復ランダムサブサンプリング検証(Repeated random sub-sampling validation)と呼ばれる方法は、訓練データと検証データをランダムに分割し、ホールドアウト法と同じく訓練データに基づ…

ランダム化された安定性選択(Randomized Stability Selection)[R]

安定性選択の方法の一つ。 ides.hatenablog.com ランダム化された安定性選択は、変数選択プロセスにランダム性を導入する方法であり、変数選択の安定性を向上させることを目的としている。この方法では、データを繰り返しサブサンプリングし、Lasso回帰を適…

ShahとSamworthによる安定性選択 Stability Selection for Lasso[R]

www.rdocumentation.org データの準備 library(haven) library(tidyr) auto_data <- haven::read_dta("http://www.stata-press.com/data/r9/auto.dta") auto_data <- auto_data %>% drop_na() # 全カラムに対してNAがない行を抽出 auto_data$foreign <- as.i…

入れ子交差検証/Nested Cross-Validation[R]

入れ子交差検証(Nested Cross-Validation)は、モデルの性能評価とλの選定におけるバイアスを排除するための検証手法である。この方法は、外側と内側という比喩を用いて説明される。外側のクロスバリデーションと内側のクロスバリデーションの二重構造から…

Lasso ホールドアウト法と変数選択と推定の安定性のシミュレーション[R]

クロスバリデーションの基本的な方法ホールドアウト法やり方と変数選択と推定の安定性のシミュレーションを行った。 n-fold クロスバリデーションがよくつかわれているため、ホールドアウト法はあまり使われないので実践向きではない。 今回は訓練データを70…

高次元スパース線形モデルにおけるパラメータの信頼区間を構築するためのブートストラップLasso+部分リッジ法[R]

stat.paperswithcode.com HDCI(High-Dimensional Confidence Intervals)はは、Lasso回帰とRidge回帰の欠点を補うという点にある。 Lasso回帰は、変数選択を行う際に多くの変数の係数をゼロにするため、少ししか関連性のない変数が推計から排除される可能性…

LOOCVを用いたLassoにおける変数選択の安定性[R]

通常のクロスバリデーションでは乱数によって結果がかなり違うため、そこで今回は一つ抜き交差検証(Leave-One-Out Cross-Validation, LOOCV)の安定性のシミュレーションを行うことにした。 LOOCVの計算の方法はこちら。 ides.hatenablog.com また、結果に…

サポートベクターマシンkernlabパッケージのtypeとclass[R]

www.rdocumentation.org サポートベクターマシンは、分類、新奇性検出、回帰のための優れたツールである。ksvmは、ネイティブのマルチクラス分類の定式化や境界制約SVMの定式化とともに、よく知られたC-svc、ν-svc、(分類)one-class-svc(新奇性)eps-svr…

サポートベクターマシンでの分類[R]

どこにでもあるようなコードだが、走らせてみたのでメモっておこう。 サポートベクターマシンでirisデータを分類し主成分分析で次元削減をした2次元プロットをする data("iris") str(iris) 'data.frame': 150 obs. of 5 variables: $ Sepal.Length: num 5.1 …

robustbaseパッケージでロバスト推定を行う[R]

robustbaseパッケージではMM推定、S推定、Koller & Stahel (2017)、Koller (2012)による補正設定を用いたMM推定が可能である。 www.rdocumentation.org MM推定 MM推定はYohai(1987)によって提案された方法である。MM推定はM推定で得られた残差標準偏差を最小…

MASSパッケージでロバスト推定のM推定、MM推定、P値を計算する[R]

以前に書いたロバスト推定の方法。こちらにP値の出し方を書いていなかったので、補足。 ides.hatenablog.com 通常の重回帰分析 mod <- lm(wage ~ gender + age + education, data = CPS1985) summary(mod) 結果: Coefficients: Estimate Std. Error t value…

重回帰分析[ベイズ]

CPS1985データを使い、wageを従属変数、genderとageと独立変数とした重回帰分析を行う。 RStudioでの実行。R.4.3.3+Stools4.3を使用。 data { int<lower=0> N; // サンプルサイズ int<lower=0, upper=1> X_1[N]; // 独立変数(性別、0: 男性、1: 女性) vector[N] X_2; // 独立変数: 年</lower=0,></lower=0>…

カテゴリカル変数が独立変数に入った単回帰分析[ベイズ]

RStudioでの実行。R.4.3.3+Stools4.3を使用。 Stanコード ``{stan output.var="stan_model"} // stanファイルを読み込まない方にするには"```{stan output.var="stan_model"} "と書く data { int<lower=0> N; // サンプルサイズ int<lower=0, upper=1> X[N]; // 独立変数(性別、0: 男性</lower=0,></lower=0>…

単回帰分析[ベイズ]

通常の頻度統計で行う。 library(AER) # CPS1985 データを含むパッケージ data("CPS1985", package = "AER") fit.freq <- lm(wage ~ age, data = CPS1985) print(fit.freq) 結果。 Call: lm(formula = wage ~ age, data = CPS1985) Coefficients: (Intercept…

ICCのサンプルサイズの推定[R]

ICC, 級内相関のサンプルサイズの推定。 cran.r-project.org p、帰無仮説 p0、評価数 (k)、検出力、アルファが与えられた場合の標本サイズを計算する。また、p、p0、またはpとp0の0~1の組み合わせの異なる値の標本サイズを生成することもできる。 基になっ…

ICCのサンプルサイズの推定[R]

ICC, 級内相関のサンプルサイズの推定。 cran.r-project.org p、帰無仮説 p0、評価数 (k)、検出力、アルファが与えられた場合の標本サイズを計算する。また、p、p0、またはpとp0の0~1の組み合わせの異なる値の標本サイズを生成することもできる。 基になっ…

lavaanの結果をcsvで書きだす[R][lavaan]

psychパッケージのbfiデータを読み込む library("psych") data(bfi) lavaanパッケージでbfiデータを用い、因子分析と回帰分析を含む分析を行う library("lavaan") model = ' Neuroticism =~ N1 + N2 + N3 + N4 + N5 Extraversion =~ E1 + E2 + E3 + E4 + E5 …

ロジスティック回帰におけるモデル適合度の測定

こちらの論文で挙げられている方法を検討した。 www.ncbi.nlm.nih.gov Weiss, B.A. and Dardick, W. (2016) ‘An Entropy-Based Measure for Assessing Fuzziness in Logistic Regression’, Educational and Psychological Measurement, 76(6), pp. 986–1004.…

順序ロジスティック回帰分析をStata、Mplus、Rで行う-更新[Stata][Mplus][R]

順序ロジスティック回帰分析をStata、Mplus、Rで行う 以前のエントリの更新。 ides.hatenablog.com brant検定が通らない例を使っている。 Stata brant検定が走らない場合はfindit spost13_adoからspost13_adoをインストールする必要がある。 use https://www…

最小二乗法を用いた重回帰分析の前提条件と確認方法

重回帰の前提は下記のものである。 線形性 Linearity...予測変数と従属変数の残差間に線形関係が存在する。 正規性 Normality ...残差が正規分布する。 分散均一性 homoscedasticity ...残差は一定の分散を持つと仮定する 独立性 Independence...観測変数が…

ノンパラメトリックANCOVA

rdrr.io sm.ancova関数の形式は以下。 sm.ancova(x, y, group, h, model = "none", h.alpha = NA, weights=NA, covar = diag(1/weights), ...) 引数modelは"none", "equal", "parallel"のいずれかのオプションが選べる。 "none":各グループが完全に独立した…

lasso, adaptive lasso, group lasso[R]

https://www.math.mcgill.ca/yyang/comp/notes/note4code.R library(glmnet) このパッケージで使用されるデフォルトのモデルは、Guassian線形モデルまたは最小二乗法である。説明のためにあらかじめ作成したデータセットをロードする。ユーザは自分のデータ…

summarytoolsの紹介[R]

cran.r-project.org cran.r-project.org www.rdocumentation.org 1. 概要 summarytoolsはデータ探索と簡単な報告を中心とした一貫した機能セットを提供する。その中核には以下の4つの関数が存在する: 関数説明 freq() 回数、比率、累積統計量、および欠損デ…

Lasssoのパッケージglmnet入門[R]

https://glmnet.stanford.edu/articles/glmnet.html はじめに Glmnetは一般化線形モデルおよび類似モデルをペナルティ付き最尤法でフィッティングするパッケージである。正則化パラメータλの値のグリッド(対数スケール)において、正則化パスがlassoまたはe…