Update 2023.11.30

機械学習 ベストプラクティス Breast Cancer SVMサポートベクタマシン
二値分類 機械学習 シャローラーニングの教科書
ConfusionMatrix(混同行列),ROC曲線,スケーリング,クロスバリデーション,グリッドサーチ,パイプライン

Breast Cancer data setを使い,SVMサポートベクタマシンで二値分類します。Confusion Matrixの解釈,ROCの解釈,スケーリング,クロスバリデーション,グリッドサーチ,パイプラインのベストプラクティスです。

SVMは優秀な分類器ではあるが,特徴量やハイパーパラメータなどの取り扱いに注意が必要です。汎化性能を上げるためには,最高のベストプラクティスを利用すべきである。

Confusion Matrixの座標の取り方やTN, FP, FN, TP の解釈,第1種の誤り(α-error),第2種の誤り(β-error),検出力(1 - β),Recall,Precisionの定義と解釈と演算方法を詳細に紹介します。

ROC AUC(ROC曲線下面積)の描画方法もコードを示します。

パイプラインを使った5x2(5time 2fold)クロスバリデーションのコードも示します。

DataFrame, Series, NumPy ndarray(numpy.array, np.array), Listなどの構造や変換を知りたければ次を参照してください。

https://yamakatsusan.web.fc2.com/NumpyPandasArrayData_inhtml.html
『機械学習 ベストプラクティス NumPy,Pandas』

https://yamakatsusan.web.fc2.com/NumpyMatrix_in.html
機械学習 ベストプラクティス 線形代数:Numpyの行列演算の教科書』


(2023-11-30 Python3.10.9(CPUマシン)で動作確認済み)



実際に動作するJupyter Notebookのhtmlを下に添付します。Jupyter Notebookと下のhtmlを左上隅からダウンロードできます。



トップページに戻る
inserted by FC2 system