Update 2023.11.29 2020.01.13

機械学習 ベストプラクティス NumPy,Pandas
配列構造・配列演算,リスト・縦ベクトル・横ベクトルの教科書
Boston Housingの単回帰のDataFrameの加工

◆◆NumPyのndarray多次元配列。list,matrix,縦ベクトル,横ベクトル◆◆

NumPyのndarray(numpy.array, np.array)多次元配列は角カッコ [] に囲まれています。1重 [] は1次元配列, 2重 [[]] は2次元配列,N重カッコはN次元配列です(詳細は下に添付の巻末を参照)。

1次元配列はlistとも呼ばれ,2次元配列はmatrix行列とも呼ばれます。

縦ベクトル(列ベクトル)はNx1 matrixであり,本当のN次元ベクトルです。次元の意味が違ってきます。2次元ならば平面,3次元ならば立体の中のベクトルということです。

横ベクトル(行ベクトル)は1xN matrixであり,本当のN次元1形式(one-form)です。次元の意味は上と同じです。2次元ならば平面,3次元ならば立体の中の1形式ということです。

tensor用語では上の2次元配列のベクトル,1形式は1階といい,添字が1つということです。添字が取り得る変数の数をtensor用語では次元といいます。

配列というワードを使ったときは [] の重なりが次元ということで,混乱のないようにしましょう。

配列の構造の把握,配列の演算の規則を,Jupyter Notebookにまとめ,html化して下に添付しました。


(2023-11-29 Python3.10.9(CPUマシン)で動作確認済み)

「Boston Housing」データセットは「scikit-learn」からダウンロードできなくなりました。「Kaggle」にデータファイルがありましたので,inputフォルダに入れてあります。


◆◆機械学習の有名テーマBoston Housingの単回帰のDataFrameをマスターしよう◆◆

DataFrameから1列を取り出したら,DataFrame,Series,縦ベクトル,リストにできる。

これらのタイプをしっかり選ばないと,あとのプログラムで支障がでかねない。

機械学習では,EDAや特徴量エンジニアリングがモデリングよりもはるかに重要になる。

本Webサイトの別記事ではKaggleのTitanicを取り上げているが,ここでは,別の有名テーマBoston Housingのデータセットの加工を紹介したい。


実際に動作するJupyter Notebookのhtmlを下に添付します。Jupyter Notebookと下のhtmlを左上隅からダウンロードできます。ファイルinputのディレクトリを正しくしてください。.ipynbファイルがあるフォルダと同列です。「../input/」がフォルダの位置を示しています。



トップページに戻る
inserted by FC2 system