ITエンジニア ノイのブログ

ITエンジニアのノイです。 YouTubeで ITエンジニアのお勉強という学習用の動画を公開しています。チャンネル登録お願いします!https://m.youtube.com/channel/UCBKfJIMVWXd3ReG_FDh31Aw/playlists

pd.DataFrame

pd.DataFrameは、Pythonのパッケージであるpandas(通常はimport pandas as pdとしてインポートされます)の中で提供されているデータ構造です。pd.DataFrameは、テーブル形式のデータを扱うための非常に便利なオブジェクトです。

pd.DataFrameは、行と列からなる2次元のデータを表現します。行は通常、個々のデータポイント(例:観測値やサンプル)を表し、列はそれぞれのデータポイントに関連する特徴や変数を表します。各列は異なるデータ型(数値、文字列、ブール値など)を持つこともできます。

pd.DataFrameを作成する方法

pd.DataFrameを作成するには、さまざまな方法がありますので、いくつかの一般的な方法を示します。

辞書から作成する方法

   import pandas as pd

   data = {'Name': ['John', 'Emma', 'Alex'],
           'Age': [25, 28, 32],
           'City': ['New York', 'Paris', 'Tokyo']}

   df = pd.DataFrame(data)

リストから作成する方法

   import pandas as pd

   data = [['John', 25, 'New York'],
           ['Emma', 28, 'Paris'],
           ['Alex', 32, 'Tokyo']]

   df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])

CSVファイルから読み込む方法

   import pandas as pd

   df = pd.read_csv('data.csv')

pd.DataFrameを作成すると、以下のような操作を行うことができます:

  • データの表示: df.head()(最初のいくつかの行を表示)やdf.tail()(最後のいくつかの行を表示)などを使用します。
  • 特定の列の選択: df['ColumnName']df[['Column1', 'Column2']]のような形式で特定の列を選択します。
  • 行の選択: df.loc[index]df.iloc[index]を使用して特定の行を選択します。
  • データのフィルタリング: 条件を指定してデータをフィルタリングすることができます。
  • データの集約や統計量の計算: df.groupby()df.mean()などを使用してデータの集約や統計量の計算を行うことができます。

基本的な機能ですが、データの整理、変換、分析に役立ちます。

DataFrameの引数(よく使うもの)

pd.DataFrame()に指定できる主な引数の一覧を以下に示します。

  • data: データフレームを作成するためのデータを指定します。
  • index: 行のインデックスを指定します。
  • columns: 列のラベルを指定します。
  • dtype: 列ごとに指定するデータ型を指定します。
  • copy: データをコピーして作成するか、ビューを作成するかを指定します。
  • その他の引数: 他の引数として、columnsおよびindexの引数を使用して、より具体的な形式でラベルやインデックスを指定することができます。

DataFrameの引数(詳細)

  • columns: 列のラベルを指定します。列の数がdataの配列またはデータフレームと一致しない場合に使用します。
  • index: 行のインデックスを指定します。行の数がdataの配列またはデータフレームと一致しない場合に使用します。
  • dtype: 列ごとに指定するデータ型を指定します。デフォルトでは、データ型は自動的に推論されます。
  • copy: データをコピーして作成するか、ビューを作成するかを指定します。デフォルトでは、データはコピーされます。
  • data: データを指定します。データとしては、リスト、配列、辞書、シリーズ、他のデータフレームなどを使用できます。
  • index_col: 列をインデックスとして使用する場合、その列の番号または列の名前を指定します。
  • header: データのヘッダーが存在する場合、その行番号または行のリストを指定します。
  • names: 列の名前のリストを指定します。ヘッダーが存在しない場合に使用します。
  • prefix: 列のラベルに接頭辞を追加します。
  • suffix: 列のラベルに接尾辞を追加します。
  • ignore_index: インデックスを再設定し、連続した整数値を割り当てます。
  • verify_integrity: インデックスの一意性をチェックします。

pandasのpd.DataFrame()はさまざまな引数をサポートしていますので、詳細な情報については、pandasの公式ドキュメントも合わせて参照ください。

YouTube

youtu.be