機械学習 ベストプラクティス Boston Housing 重回帰 ランダムフォレスト回帰
多変量解析 機械学習 シャローラーニングの教科書
DataFrame, Series, NumPy ndarray(numpy.array, np.array), List
◆◆NumPyのndarray多次元配列。list,matrix,縦ベクトル,横ベクトル◆◆
Boston Housingデータセットを使って単回帰と多項式回帰をやります。
コードは定型的なので難しくないのですが,引数となるデータの型(type)と次元(shape)を理解していないと混乱します。
タイトルに掲げた4つのデータ型にはすべて1次元の型もあります。これらを区別する,または自在に変換することが必要になります。
1次元のNumPy ndarray(numpy.array, np.array)には,縦ベクトルと横ベクトルがあり,使い分けられます。Listに似ていますので注意が必要です。
縦ベクトル(列ベクトル)はNx1 matrixであり(N行1列),物理のN次元ベクトルです。次元の意味が違ってきます。2次元ならば平面,3次元ならば立体の中のベクトルということです。
横ベクトル(行ベクトル)は1xN matrixであり(1行N列),物理のN次元1形式(one-form)です。次元の意味は上と同じです。2次元ならば平面,3次元ならば立体の中の1形式ということです。
機械学習ではまとめて1次元配列というのでもう混乱しています。
機械学習ではtensorはただの多次元配列のことですが,物理のtensorでは添字そえじの数が階数,添字に入る変数の数が次元,添字の位置が反変と共変を表すことは忘れてもらってけっこうです。
DataFrame, Series, NumPy ndarray(numpy.array, np.array), Listなどの構造や変換を知りたければ次を参照してください。
https://yamakatsusan.web.fc2.com/NumpyPandasArrayData_inhtml.html
『機械学習 ベストプラクティス NumPy,Pandas』
https://yamakatsusan.web.fc2.com/NumpyMatrix_in.html
機械学習 ベストプラクティス 線形代数:Numpyの行列演算の教科書』
(2023-11-29 Python3.10.9(CPUマシン)で動作確認済み)
「Boston Housing」データセットは「scikit-learn」からダウンロードできなくなりました。「Kaggle」にデータファイルがありましたので,inputフォルダに入れてあります。
実際に動作するJupyter Notebookのhtmlを下に添付します。Jupyter Notebookと下のhtmlを左上隅からダウンロードできます。ファイルinputのディレクトリを正しくしてください。.ipynbファイルがあるフォルダと同列です。「../input/」がフォルダの位置を示しています。