統計学の基礎は、機械学習の前提知識として最重要
機械学習を学ぼうとして、最初に挫折するポイントの一つが統計学です。「平均」「分散」「検定」といった用語が、いきなりE資格や論文に出てきて、何を言っているのか分からなくなる。
でも、実は統計学の基礎は、難しく考えなければシンプルです。MLエンジニアとして実務で使っている知識を、できるだけ具体的に整理します。
「統計学は『データから何が言えるか』を判断するための道具。MLエンジニアは数式の証明より、それぞれの概念を『どう使うか』を理解することが大事です。」
平均と中央値:使い分けで結論が変わる
統計学の基本中の基本が、平均と中央値です。データの「代表値」を出すときに使いますが、用途によって使い分けないと結論を間違えます。
例えば、社員の年収データで「平均500万円」と聞くと普通の会社に思えますが、実は社長1人が年収1億円で、他は全員年収300万円という分布だったら、中央値は300万円です。代表値として使うなら、中央値のほうが現実を表しています。
平均は外れ値の影響を受けやすく、中央値は受けにくい。データが正規分布に近いなら平均、偏った分布なら中央値、というのが基本的な使い分けです。
分散と標準偏差:データのばらつきを定量化する
分散と標準偏差は、データのばらつきの大きさを表す指標です。標準偏差は分散の平方根で、データの単位と一致するため、解釈しやすいです。
例えば、製造業の品質管理で「製品の重量が平均100g、標準偏差2g」と言えば、ほとんどの製品が96〜104gの範囲に収まることが分かります。標準偏差が10gなら、80〜120gと幅広く、品質が不安定だと判断できます。
仮説検定:「効果あり」を定量的に判断する
仮説検定は、「ある施策に効果があったかどうか」を統計的に判断する方法です。例えば、ある製造ラインで改善策を入れて、不良品率が前より下がったと感じたとします。
でも、データのばらつきから生じた偶然なのか、本当に改善効果があるのか。これを判断するのが仮説検定です。p値が0.05以下なら「偶然ではない」と判断する、というのが基本ルール(有意水準5%)です。
機械学習では、A/Bテストの判定で頻繁に使います。Webサイトの新デザインが古いデザインより効果があるかを、検定で確認するイメージです。
相関と因果:相関≠因果を肝に銘じる
相関係数は、2つの変数が一緒に動く度合いを表す指標です。-1から+1の値を取り、+1に近いほど強い正の相関、-1に近いほど強い負の相関、0なら相関なしと判断します。
注意すべきは、相関が高くても因果関係があるとは限らないという点です。「アイスの売上」と「水の事故件数」は強い正の相関がありますが、これは両方とも「夏の暑さ」が原因の見せかけの相関です。
機械学習でも、特徴量とターゲットの相関を見て学習に使いますが、最終的に「なぜそうなるのか」の因果を考えるのは人間の役割です。
統計学の基礎は、機械学習の解釈力を育てる
機械学習モデルは、極端に言えば「データから自動的にパターンを見つける道具」です。でも、その出力結果を正しく解釈できるかどうかは、統計学の基礎が分かっているかで決まります。
モデルの精度が90%と聞いても、データの分布が偏っていれば実用には足りないかもしれません。p値が0.04だから有意と判断しても、サンプル数が少なければ判断を保留すべきです。こういう「データを見る目」は、統計学の素養があってこそ身につきます。
まとめ:実務で使う場面を想像しながら学ぶ
📝 まとめ
統計学の基礎は、平均・分散・検定・相関・因果の5つを理解できれば、ほぼ実務で困らないレベルになります。それぞれの概念を、業務で使う具体的な場面と紐づけて学ぶと定着が早いです。
MLエンジニアを目指す方には、機械学習の最新技術を学ぶ前に、統計学の基礎を一巡することをおすすめします。土台ができていると、その後の学習速度が圧倒的に変わります。
📌 プログラミング・AI学習のおすすめスクール
- 資格と仕事に強い個人レッスン → 【Winスクール】プログラミング・AI講座



コメント