機械学習プロジェクトの進め方【要件定義からデプロイまでの全工程】

はじめに
機械学習プロジェクトの全体像
ステップ1：問題定義・目標設定
ステップ2：データの収集・理解
ステップ3：データの前処理
ステップ4：モデル構築・評価
ステップ5：改善・チューニング
ステップ6：デプロイ・運用
失敗を防ぐための3つのポイント
まとめ

はじめに

機械学習を「コードを書いてモデルを作ること」だと思っていると、実際のプロジェクトで苦労します。モデルを作る作業はプロジェクト全体の一部に過ぎません。

僕が製造業でAI・機械学習のプロジェクトに携わる中で、「ゴールの設定」と「データの準備」で躓くケースを何度も経験しました。この記事では、機械学習プロジェクトを成功させるための全工程を解説します。

機械学習プロジェクトの全体像

大きな流れは以下の6ステップです。

問題定義・目標設定
データの収集・理解
データの前処理
モデル構築・評価
改善・チューニング
デプロイ・運用

ステップ1：問題定義・目標設定

最も重要で、最もおろそかにされがちなステップです。「AIを使いたい」から始まるプロジェクトは失敗しやすいです。まず「解決したい課題」を明確にしましょう。

確認すべき点は以下です。

何を予測・分類・検出したいのか
精度の目標値は何か（例：不良品の検出率90%以上）
モデルの出力をどう使うのか
成功・失敗の判断基準は何か

この段階で現場担当者・管理職・IT部門の合意を取ることが重要です。

ステップ2：データの収集・理解

「良いデータなくして良いモデルなし」というのは機械学習の鉄則です。このステップで時間をかけることが後の工程を楽にします。

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv')

# 基本確認
print(df.shape)
print(df.isnull().sum())
print(df.dtypes)

# 分布の確認
df.hist(figsize=(15, 10))
plt.tight_layout()
plt.show()

# 目的変数との相関
print(df.corr()['target'].sort_values(ascending=False))

ステップ3：データの前処理

欠損値処理・外れ値処理・スケーリング・エンコーディングを行います。前処理のコードはパイプライン化しておくと、本番環境への適用が楽になります。

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer

# 前処理パイプライン
preprocessor = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

X_train_processed = preprocessor.fit_transform(X_train)
X_test_processed = preprocessor.transform(X_test)  # transformのみ

ステップ4：モデル構築・評価

最初からDNNなどの複雑なモデルを試す必要はありません。シンプルなモデルでベースラインを作り、徐々に改善します。

from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score

# 複数モデルを比較
models = {
    'LogisticRegression': LogisticRegression(),
    'RandomForest': RandomForestClassifier(n_estimators=100),
    'GradientBoosting': GradientBoostingClassifier()
}

for name, model in models.items():
    scores = cross_val_score(model, X_train, y_train, cv=5, scoring='f1')
    print(f"{name}: {scores.mean():.3f} ± {scores.std():.3f}")

ステップ5：改善・チューニング

ベースラインより良い結果を目指します。以下を試します。

特徴量エンジニアリング（新しい特徴量を追加）
ハイパーパラメータチューニング（Optuna）
アンサンブル学習（複数モデルを組み合わせる）

ステップ6：デプロイ・運用

モデルを本番環境で動かす段階です。精度の高いモデルを作るだけでなく、「使える状態にする」ことが重要です。

import joblib

# モデルと前処理パイプラインを保存
joblib.dump(model, 'model.pkl')
joblib.dump(preprocessor, 'preprocessor.pkl')

# 読み込んで予測
model_loaded = joblib.load('model.pkl')
preprocessor_loaded = joblib.load('preprocessor.pkl')

new_data_processed = preprocessor_loaded.transform(new_data)
prediction = model_loaded.predict(new_data_processed)

本番運用では、モデルの予測精度を定期的にモニタリングし、精度が下がったら再学習（リトレーニング）するサイクルを設けることが大切です。