井出草平の研究ノート

Lassoの方法の解説

Lasso (Least Absolute Shrinkage and Selection Operator)は、線形回帰モデルに対してペナルティを課すことで、変数選択と回帰係数の推定を同時に行う手法。

特徴

変数選択: 重要でない変数の係数をゼロにすることができるため、変数選択機能を持っている。 収縮: ペナルティにより、回帰係数が収縮され、モデルの複雑さを抑える。 クロスバリデーション: 最適なペナルティパラメータλを選択するためにクロスバリデーションを用いることがある。

L1正則化

L1正則化は、回帰分析におけるペナルティ項の一種であり、モデルの複雑さを制御するために使われる。具体的には、回帰係数の絶対値の和にペナルティを課すことで、係数を小さくし、不要な変数を排除する効果がある。

目的関数

Lasso回帰では、通常の線形回帰の目的関数にL1正則化項を追加する。標準的な線形回帰の目的関数は次のようになる:

ここで、 y_iは目的変数、 x_ijは説明変数、 𝛽_jは回帰係数、𝑛はサンプル数、𝑝は変数の数。

Lasso回帰では、この目的関数にL1正則化項を追加する。

具体的には、目的関数にL1正則化項(係数の絶対値の和にペナルティを与える)を追加する。

正則化項の役割

ペナルティの効果: L1正則化 \sum_{j=1}^{p} |\beta_j|は、回帰係数 \beta_jの絶対値の和に比例してペナルティを課す。このペナルティが大きくなるほど、回帰係数が小さくなる傾向がある。
変数選択: L1正則化の特徴の一つは、ある程度大きなペナルティパラメータ$𝜆$を設定すると、多くの回帰係数がゼロになる。これにより、重要な変数のみがモデルに残り、不要な変数が除外されるため、変数選択が自動的に行われる。

Adaptive Lasso

Adaptive Lassoは、Lassoの改良版で、異なるペナルティを各係数に適用する。これにより、標準的なLassoの欠点を克服し、より正確な変数選択を行う。
ここで、λは正則化パラメータで、モデルの複雑さに対するペナルティの強さを調整する。

  • 重み付きペナルティ: 係数に依存したペナルティを適用することで、Lassoよりも柔軟な変数選択が可能。
  • ラクル性質: 適切な条件下では、真のモデルを正確に識別する能力(オラクル性質)を持っている。
  • クロスバリデーション: 重みを決定するための初期モデルを構築し、ペナルティパラメータλを最適化するためにクロスバリデーションを使用する。

Plugin Lasso

Plugin Lassoは、Lassoのペナルティパラメータをデータから推定する手法で、データ駆動型のペナルティ設定を行う。通常、ノイズレベルや変数の相関構造に基づいてパラメータを設定する。

  • データ駆動型ペナルティ: ペナルティパラメータをデータから推定するため、手動でのチューニングが不要になる。
  • 効率的な推定: データ特性に応じたペナルティを適用することで、より効率的な推定が可能になる。
  • クロスバリデーションの必要性軽減: ペナルティパラメータの自動推定により、クロスバリデーションの必要性が軽減される場合があるが、完全に不要になるわけではない。

ラクル性質

ラクル性質(Oracle Property)とは、統計的推定やモデル選択における理論的な特性の一つで、以下のような特性を指す。オラクル性質を持つ推定手法は、次の2つの条件を満たす:

変数選択の一致性(Selection Consistency):

真のモデルに含まれる重要な変数を正しく選択し、真のモデルに含まれない不要な変数を除外する能力。大標本サイズにおいて、真のモデルの構造を完全に識別できること。

推定の漸近的効率性(Asymptotic Efficiency):

変数選択後の推定において、真のモデルが既知である場合の最良の推定量と同等の漸近的な推定精度を持つこと。具体的には、選択された変数の係数推定が、真のモデルのもとでの最適な推定量(例えば、最尤推定量)と同じ漸近分布を持つこと。

ラクル性質の意味

ラクル性質を持つ推定手法は、理想的な「オラクル」があたかも真のモデルを知っているかのように振る舞う。つまり、次のようなことが期待できる: - モデル選択において、余計な変数を取り除き、必要な変数だけを正確に選び出す。 - 選ばれた変数の係数推定値は、理想的な場合と同じ精度を持つ。