正則化

「正則化」のその他の用法については「正則化 (曖昧さ回避)」をご覧ください。

数学・統計学・計算機科学において、特に機械学習と逆問題において、正則化（せいそくか、英: regularization）とは、不良設定問題を解いたり過学習を防いだりするために、情報を追加する手法である。モデルの複雑さに罰則を科すために導入され、なめらかでないことに罰則をかけたり、パラメータのノルムの大きさに罰則をかけたりする。

正則化の理論的正当化はオッカムの剃刀にある。ベイジアンの観点では、多くの正則化の手法は、モデルのパラメータの事前情報にあたる。

統計および機械学習における正則化

統計および機械学習において、正則化はモデルのパラメータの学習に使われ、特に過学習を防ぎ、汎化能力を高めるために使われる。

機械学習において最も一般的なのは L1 正則化 (p=1) と L2 正則化 (p=2) である。損失関数 $E({\boldsymbol {w}})$ の代わりに、

E({\boldsymbol {w}})+\lambda {\frac {1}{p}}\|{\boldsymbol {w}}\|_{p}^{p}=E({\boldsymbol {w}})+\lambda {\frac {1}{p}}\sum _{i}|w_{i}|^{p}

を使用する。 ${\boldsymbol {w}}$ はパラメータのベクトルで、 $\|\cdot \|_{p}$ は L1 ノルム (p=1) や L2 ノルム (p=2) などである。 $\lambda$ はハイパーパラメータで、正の定数で、大きくするほど正則化の効果が強くなるが、交差確認などで決める。

損失関数をパラメータで偏微分すると、

L2 正則化の場合: ${\frac {\partial E({\boldsymbol {w}})}{\partial w_{i}}}+\lambda w_{i}$
L1 正則化の場合: ${\frac {\partial E({\boldsymbol {w}})}{\partial w_{i}}}+\lambda \operatorname {sgn}(w_{i})$

となり、これは、最急降下法や確率的勾配降下法を使用する場合は、L2 正則化はパラメータの大きさに比例した分だけ、L1 正則化は $\lambda$ だけ 0 に近づけることを意味する。

この手法は様々なモデルで利用できる。線形回帰モデルに利用した場合は、L1 の場合はラッソ回帰^[1]、L2 の場合はリッジ回帰^[2]と呼ぶ。ロジスティック回帰、ニューラルネットワーク、サポートベクターマシン、条件付き確率場などでも使われる。ニューラルネットワークの世界では、L2 正則化は荷重減衰（英: weight decay）とも呼ばれる。

L1 正則化

L1 正則化を使用すると、いくつかのパラメータを 0 にすることができる。つまり、特徴選択を行っていることになり、スパースモデルになる。0 が多いと疎行列で表現でき、高速に計算できる。しかし、L1 ノルムは評価関数に絶対値を含むため、非連続で微分不可能な点が存在する。勾配法を利用した最適化問題のアルゴリズムによっては変更が必要な場合がある^[3]^[4]。

損失関数が二乗和誤差の場合、L1 正則化は、パラメータの絶対値が λ 以下なら 0にし、そうで無いなら λ だけ 0 に近づけるのと等価である。損失関数をパラメータで偏微分することで確認できる。よって、小さな値のパラメータが 0 になる。

機械学習の手法において、データが平均0分散1に正規化されていないと上手く動作しないものが多いが、L1 正則化において全てのパラメータで同じように λ ずつ減らすということは、同じようなスケーリングでなければならず、平均0分散1に正規化されていないと上手く働かない。

L0 正則化

L0 正則化とは 0 では無いパラメータの数で正則化する方法のこと。ただし、組み合わせ最適化問題になるため、計算コストが非常に高いという問題がある。パラメータ数が多い場合は貪欲法を利用し、近似解を得る。線形モデルであれば残すパラメータを決めるのに一般化交差確認が利用できる。

情報量規準

事前確率を使用するベイジアン学習法では、複雑なモデルにより小さな確率を割り振ることができる。よく使われるモデル選択手法としては、赤池情報量規準（AIC）、最小記述長（MDL）、ベイズ情報量規準（BIC）などがある。

線形モデルでの手法

下記は一般化線形モデルで使用される正則化の手法の一覧である。

モデル	適合尺度	エントロピー尺度^[5]^[6]
赤池情報量規準/ベイズ情報量規準	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{0}$
リッジ回帰^[2]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{2}$
ラッソ回帰^[1]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{1}$
エラスティックネット^[7]	$\\|Y-X\beta \\|_{2}$	$\lambda _{1}\\|\beta \\|_{1}+\lambda _{2}\\|\beta \\|_{2}$
基底追跡ノイズ除去	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\beta \\|_{1}$
Rudin-Osher-Fatemi モデル (TV)	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\nabla \beta \\|_{1}$
Potts モデル	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\nabla \beta \\|_{0}$
RLAD^[8]	$\\|Y-X\beta \\|_{1}$	$\\|\beta \\|_{1}$
Dantzig 選択器^[9]	$\\|X^{\top }(Y-X\beta )\\|_{\infty }$	$\\|\beta \\|_{1}$
SLOPE^[10]	$\\|Y-X\beta \\|_{2}$	$\sum _{i=1}^{p}\lambda _{i}\|\beta \|_{(i)}$

逆問題における正則化

「逆問題」も参照

1943年に Andrey Nikolayevich Tikhonov が、L2 正則化をより一般化した Tikhonov 正則化を逆問題に対する手法として発表した^[11]。詳細は逆問題を参照。

参照

^ ^a ^b Tibshirani, Robert (1996). “Regression Shrinkage and Selection via the Lasso”. Journal of the Royal Statistical Society, Series B 58 (1): 267–288. doi:10.1111/j.2517-6161.1996.tb02080.x. ISSN 1369-7412. JSTOR 2346178. MR1379242. http://statweb.stanford.edu/~tibs/lasso/lasso.pdf.
^ ^a ^b Arthur E. Hoerl; Robert W. Kennard (1970). “Ridge regression: Biased estimation for nonorthogonal problems”. Technometrics 12 (1): 55-67.
^ Galen Andrew; Jianfeng Gao (2007). “Scalable training of L₁-regularized log-linear models”. Proceedings of the 24th International Conference on Machine Learning. doi:10.1145/1273496.1273501. ISBN 9781595937933.
^ Tsuruoka, Y.; Tsujii, J.; Ananiadou, S. (2009). Stochastic gradient descent training for l1-regularized log-linear models with cumulative penalty (PDF). Proceedings of the AFNLP/ACL.
^ Bishop, Christopher M. (2007). Pattern recognition and machine learning (Corr. printing. ed.). New York: Springer. ISBN 978-0387310732
^ Duda, Richard O. (2004). Pattern classification + computer manual : hardcover set (2. ed.). New York [u.a.]: Wiley. ISBN 978-0471703501
^ by Hui Zou; Trevor Hastie (2005). “Regularization and variable selection via the Elastic Net”. Journal of the Royal Statistical Society, Series B. https://web.stanford.edu/~hastie/Papers/B67.2%20(2005)%20301-320%20Zou%20&%20Hastie.pdf.
^ Li Wang, Michael D. Gordon & Ji Zhu (2006). "Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning". Sixth International Conference on Data Mining. pp. 690–700. doi:10.1109/ICDM.2006.134。
^ Candes, Emmanuel; Tao, Terence (2007). “The Dantzig selector: Statistical estimation when p is much larger than n”. Annals of Statistics 35 (6): 2313–2351. arXiv:math/0506081. doi:10.1214/009053606000001523. MR2382644.
^ Małgorzata Bogdan, Ewout van den Berg, Weijie Su & Emmanuel J. Candes (2013). “Statistical estimation and testing via the ordered L1 norm”. arXiv preprint arXiv:1310.1969. arXiv:1310.1969v2.
^ Tikhonov, Andrey Nikolayevich (1943). “Об устойчивости обратных задач [On the stability of inverse problems]”. Doklady Akademii Nauk SSSR 39 (5): 195–198.

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像

統計図表

生存分析

歴史

統計学の創始者
確率論と統計学の歩み

応用

出版物

統計学に関する学術誌一覧
重要な出版物

全般

その他

カテゴリ

モデル	適合尺度	エントロピー尺度^[5]^[6]
赤池情報量規準/ベイズ情報量規準	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{0}$
リッジ回帰^[2]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{2}$
ラッソ回帰^[1]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{1}$
エラスティックネット^[7]	$\\|Y-X\beta \\|_{2}$	$\lambda _{1}\\|\beta \\|_{1}+\lambda _{2}\\|\beta \\|_{2}$
基底追跡ノイズ除去	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\beta \\|_{1}$
Rudin-Osher-Fatemi モデル (TV)	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\nabla \beta \\|_{1}$
Potts モデル	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\nabla \beta \\|_{0}$
RLAD^[8]	$\\|Y-X\beta \\|_{1}$	$\\|\beta \\|_{1}$
Dantzig 選択器^[9]	$\\|X^{\top }(Y-X\beta )\\|_{\infty }$	$\\|\beta \\|_{1}$
SLOPE^[10]	$\\|Y-X\beta \\|_{2}$	$\sum _{i=1}^{p}\lambda _{i}\|\beta \|_{(i)}$

正則化

統計および機械学習における正則化

L1 正則化

L0 正則化

情報量規準

線形モデルでの手法

逆問題における正則化

関連項目

参照

ToC

Trending

山﨑福也

方広寺鐘銘事件

薬屋のひとりごと

水樹奈々

淀殿

千姫

King Gnu

今川氏真

八木沼純子

愛甲千笑美

ビートたけし

豊臣秀頼

Recent Change