統計学の基礎を機械学習エンジニアが解説【平均・分散・検定の使い方】

統計学の基礎は、機械学習の前提知識として最重要

機械学習を学ぼうとして、最初に挫折するポイントの一つが統計学です。「平均」「分散」「検定」といった用語が、いきなりE資格や論文に出てきて、何を言っているのか分からなくなる。

でも、実は統計学の基礎は、難しく考えなければシンプルです。MLエンジニアとして実務で使っている知識を、できるだけ具体的に整理します。

「統計学は『データから何が言えるか』を判断するための道具。MLエンジニアは数式の証明より、それぞれの概念を『どう使うか』を理解することが大事です。」

統計学の基本中の基本が、平均と中央値です。データの「代表値」を出すときに使いますが、用途によって使い分けないと結論を間違えます。

例えば、社員の年収データで「平均500万円」と聞くと普通の会社に思えますが、実は社長1人が年収1億円で、他は全員年収300万円という分布だったら、中央値は300万円です。代表値として使うなら、中央値のほうが現実を表しています。

平均は外れ値の影響を受けやすく、中央値は受けにくい。データが正規分布に近いなら平均、偏った分布なら中央値、というのが基本的な使い分けです。

分散と標準偏差は、データのばらつきの大きさを表す指標です。標準偏差は分散の平方根で、データの単位と一致するため、解釈しやすいです。

例えば、製造業の品質管理で「製品の重量が平均100g、標準偏差2g」と言えば、ほとんどの製品が96〜104gの範囲に収まることが分かります。標準偏差が10gなら、80〜120gと幅広く、品質が不安定だと判断できます。

💡 実践的なポイント標準偏差が小さい＝データが揃っている、大きい＝バラバラ。これを直感的に理解できると、データ分析の「現場感」が一気に身につきます。

仮説検定は、「ある施策に効果があったかどうか」を統計的に判断する方法です。例えば、ある製造ラインで改善策を入れて、不良品率が前より下がったと感じたとします。

でも、データのばらつきから生じた偶然なのか、本当に改善効果があるのか。これを判断するのが仮説検定です。p値が0.05以下なら「偶然ではない」と判断する、というのが基本ルール（有意水準5%）です。

機械学習では、A/Bテストの判定で頻繁に使います。Webサイトの新デザインが古いデザインより効果があるかを、検定で確認するイメージです。

相関係数は、2つの変数が一緒に動く度合いを表す指標です。-1から+1の値を取り、+1に近いほど強い正の相関、-1に近いほど強い負の相関、0なら相関なしと判断します。

注意すべきは、相関が高くても因果関係があるとは限らないという点です。「アイスの売上」と「水の事故件数」は強い正の相関がありますが、これは両方とも「夏の暑さ」が原因の見せかけの相関です。

機械学習でも、特徴量とターゲットの相関を見て学習に使いますが、最終的に「なぜそうなるのか」の因果を考えるのは人間の役割です。

機械学習モデルは、極端に言えば「データから自動的にパターンを見つける道具」です。でも、その出力結果を正しく解釈できるかどうかは、統計学の基礎が分かっているかで決まります。

モデルの精度が90%と聞いても、データの分布が偏っていれば実用には足りないかもしれません。p値が0.04だから有意と判断しても、サンプル数が少なければ判断を保留すべきです。こういう「データを見る目」は、統計学の素養があってこそ身につきます。

「機械学習エンジニアとして10年20年生き残るには、最新のディープラーニング技術より、古典的な統計学の基礎のほうが大事。流行は変わっても、統計学は変わりません。」— 僕の実感より

統計学の基礎は、平均・分散・検定・相関・因果の5つを理解できれば、ほぼ実務で困らないレベルになります。それぞれの概念を、業務で使う具体的な場面と紐づけて学ぶと定着が早いです。

MLエンジニアを目指す方には、機械学習の最新技術を学ぶ前に、統計学の基礎を一巡することをおすすめします。土台ができていると、その後の学習速度が圧倒的に変わります。

📌 プログラミング・AI学習のおすすめスクール

※本記事にはアフィリエイトリンクが含まれます。