機械学習エンジニアのための確率統計入門【ベイズ定理・正規分布・最尤推定】

確率統計は機械学習の言語そのもの

機械学習を本格的に勉強し始めると、必ず確率統計の知識が要求されます。論文を読んでも、書籍を読んでも、確率分布や最尤推定の話が前提として出てきて、ここで多くの人が壁にぶつかります。

この記事では、MLエンジニアとして実務で本当に使う確率統計の知識を、ベイズ定理・正規分布・最尤推定の3つに絞って解説します。これを理解できれば、機械学習の論文や書籍がぐっと読みやすくなります。

「確率統計は、機械学習の言語そのもの。これを習得することは、機械学習の世界でコミュニケーションするための語彙を身につけるようなものです。」

確率の基本は、ある事象が起きる可能性を0から1の数値で表すことです。コインを投げて表が出る確率は0.5、サイコロで6が出る確率は約0.167、といったシンプルな話です。

機械学習で大事なのは、条件付き確率という考え方です。「ある条件のもとで、別の事象が起きる確率」を表します。記号では P(A|B) と書き、「Bが起きたという条件のもとで、Aが起きる確率」を意味します。

例えば、迷惑メール判定では「特定の単語が含まれている、という条件のもとで、迷惑メールである確率」を計算します。条件付き確率は、機械学習の予測モデルの根本的な考え方です。

ベイズ定理は、事前情報を使って確率を更新する公式です。式は「P(A|B) = P(B|A) × P(A) / P(B)」で、これだけだと意味が分かりませんが、具体例で考えると分かりやすいです。

病気の検査を例にします。ある病気の有病率が1%（事前確率）で、検査の精度が99%だとします。検査陽性だった人が本当に病気である確率は？直感では99%と思いますが、ベイズ定理で計算すると約50%という意外な結果になります。

💡 実践的なポイントベイズ定理は『事前確率（先に持っている情報）』が結果に大きく影響することを教えてくれます。希少な事象ほど、検査結果を慎重に解釈する必要があります。

正規分布（ガウス分布）は、確率統計で最も重要な分布です。釣鐘型の左右対称な形をしていて、平均と標準偏差の2つのパラメータで完全に決まります。

身長・体重・テストの点数など、自然界の多くの現象が正規分布に近い形になります。機械学習でも、ノイズを正規分布で仮定したり、特徴量を正規分布に従うように標準化したりと、頻繁に登場します。

正規分布の性質で重要なのが、「平均±1σの範囲に約68%、±2σで約95%、±3σで約99.7%のデータが収まる」というルールです。これは品質管理や異常検知の基本ルールになっています。

最尤推定は、観測データから「そのデータが得られる確率を最大化する」モデルパラメータを求める方法です。機械学習の学習プロセスは、ほぼすべてこの最尤推定の枠組みで説明できます。

具体的には、損失関数を最小化することと、尤度関数を最大化することは数学的に等価です。深層学習で交差エントロピー損失を使うのも、平均二乗誤差を使うのも、どちらも最尤推定の特殊ケースです。

最尤推定の考え方を理解すると、機械学習モデルが「なぜこの損失関数を使っているのか」が見えてきます。背景にある統計的な意味が分かると、モデル選定の判断が論理的にできるようになります。

確率統計は、座学だけだと頭に入りません。実際のデータで手を動かして計算することで、初めて「使える知識」になります。

僕がおすすめするのは、Pythonで実際に分布を可視化する練習です。NumPyとMatplotlibを使って、正規分布のサンプルを生成して、平均・分散を計算して、ヒストグラムを描く。これを繰り返すうちに、数式と図のイメージが結びついてきます。

「確率統計は『習うより慣れよ』。ベイズ定理の式を100回見るより、迷惑メール判定の例で1回計算するほうが、ずっと身につきます。」— 僕の実感より

機械学習エンジニアに必要な確率統計の基礎は、ベイズ定理・正規分布・最尤推定の3つです。これらを理解できれば、機械学習の論文や書籍の理解度が一気に上がります。

確率統計の学習は、実装と並行して進めるのがおすすめです。Pythonで動かしながら学べば、理論と実践がリンクして、身につくスピードが何倍も速くなります。

📌 プログラミング・AI学習のおすすめスクール

※本記事にはアフィリエイトリンクが含まれます。