ITエンジニア ノイのブログ

ITエンジニアのノイです。 YouTubeで ITエンジニアのお勉強という学習用の動画を公開しています。チャンネル登録お願いします!https://m.youtube.com/channel/UCBKfJIMVWXd3ReG_FDh31Aw/playlists

2023-05-01から1ヶ月間の記事一覧

ミニバッチ学習のループ

復元抽出と非復元抽出 ミニバッチの学習には復元抽出と非復元抽出の2種類があります。 復元抽出(with replacement)と非復元抽出(without replacement)は、統計学や機械学習においてデータをサンプリングする方法の違いを表しています。 復元抽出(with …

np.random.choiceの使い方

np.random.choiceとは np.random.choiceは、NumPyライブラリの一部であり、指定された配列やリストからランダムに要素を選択するために使用される関数です。 np.random.choiceの使用例 ランダムなサンプリング 与えられた配列からランダムに要素を選択する場…

np.reshapeによる行列の変形

np.reshape reshape()は、NumPyや他のいくつかのプログラミングライブラリで提供されている関数の一つです。この関数は、配列や行列の形状(サイズ)を変更するために使用されます。 reshape()関数の基本的な構文 numpy.reshape(array, new_shape, order='C'…

クロスエントロピー誤差関数 (deltaを用いる理由)

クロスエントロピー誤差関数は、主に分類問題において使用されます。この関数は、予測値(y)と正解ラベル(t)の間の差異を測るために使用されます。 クロスエントロピー誤差関数 数学的には、クロスエントロピー誤差関数は以下のように表されます。 E = -Σ…

ChatGPTの利用規約

ChatGPT Plus ChatGPT Plusは料金は月額20ドルで、有料版ではGPT-4が使用可能であり、そのため回答の品質が高くなります。また、開発業務に必要なAPIも従量課金で利用することができます。 重要な利用規約をまとめました。 利用規約 生成物の権利 ユーザーは…

べき乗の書き方

べき乗 Pythonのべき乗の計算の書き方をまとめます。いろいろな言語で書いているとごっちゃになってしまいますよね。。。 べき乗演算子 「**」 # 2の3乗を計算する result = 2 ** 3 print(result) # 出力: 8 # 10の2乗を計算する result = 10 ** 2 print(res…

predictのバッチ化

バッチ処理とは バッチ処理は、複数のタスクやデータを一括で処理する手法です。一つのまとまり(バッチ)に含まれるタスクやデータは、同様の処理を受けることが多いです。意味合いとしては一個ずつ処理をすると大変だから、まとめて処理をしよう!という意…

学習済みの重みの読み込み

やりたいこと sample_weight.pklの事前学習の重みを読み込みたい。 sample_weight.pklの例としてオライリーさんのGitHubにあるものを使います。 github.com ファイルから読み込む def init_network(): with open("sample_weight.pkl", "rb") as f: network =…

LabelBinarizer()でラベル変換

LabelBinarizer()は、scikit-learnライブラリの一部であり、カテゴリカルな目的変数をバイナリベクトルに変換するために使用される変換器です。具体的には、多クラス分類問題において、クラスラベルをバイナリ表現に変換するために使用されます。 クラスラベ…

オプティマイザー

機械学習のオプティマイザーは、モデルのパラメータを最適化するためのアルゴリズムです。モデルのパラメータを最適化することは、訓練データに適合するようにモデルを調整することを意味します。 代表的なオプティマイザー 確率的勾配降下法(Stochastic Gr…

plt.hist

plt.histは、Matplotlibライブラリの一部であり、ヒストグラムを描画するために使用されます。ヒストグラムは、データの分布を視覚化するための有用な方法です。以下に、plt.histの基本的な使い方を説明します。 Matplotlibをインポート import matplotlib.p…

pythonの@classmethod

@classmethodは、Pythonのデコレータ(Decorator)の一つであり、クラスメソッド(classmethod)を定義するために使用されます。 クラスメソッドは、クラス自体に関連付けられているメソッドであり、通常のインスタンスメソッドとは異なる特徴を持ちます。ク…

NotebookApp.iopub_data_rate_limit

NotebookApp.iopub_data_rate_limitエラー "NotebookApp.iopub_data_rate_limit" および "NotebookApp.rate_limit_window" は、Jupyter Notebookの設定に関連しています。これらの設定は、Jupyter Notebookの入出力パフォーマンスに関係するものです。 この…

AttributeError: 'DataFrame' object has no attribute 'as_matrix'

as_matrixエラー AttributeError: 'DataFrame' object has no attribute 'as_matrix' エラーは、pandasのバージョンの変更によって、DataFrameオブジェクトのas_matrix()メソッドが非推奨となったために発生します。 以前のバージョン pandasでは、DataFrame…

pd.plotting.scatter_matrix

pd.plotting.scatter_matrixとは pd.plotting.scatter_matrixは、pandasのプロット機能を使用して、データフレーム内の数値列の間で散布図行列(scatter matrix)を作成するための関数です。 基本的な構文 pd.plotting.scatter_matrix(frame, alpha=0.5, fig…

df.corr

df.corr()は、pandasのDataFrameオブジェクトに対して呼び出されるメソッドであり、相関行列(correlation matrix)を計算します。相関行列は、データフレームの数値列間の相関係数を表す行列です。 使い方 基本的な構文 df.corr(method='pearson', min_peri…

pd.concat

pd.concatとは pd.concat()は、pandasの関数であり、複数のデータフレームを結合(連結)するために使用されます。データフレームを縦方向または横方向に結合することができます。 使い方 構文 基本的な構文は以下の通りです。 pd.concat(objs, axis=0, join…

pd.DataFrame

pd.DataFrameは、Pythonのパッケージであるpandas(通常はimport pandas as pdとしてインポートされます)の中で提供されているデータ構造です。pd.DataFrameは、テーブル形式のデータを扱うための非常に便利なオブジェクトです。 pd.DataFrameは、行と列か…

google colaboでscikit-learnのbostonが使えないとき

機械学習のチュートリアルを行っているとscikit-learnのbostonが使われていることがよくあります。 そのチュートリアルを脳死で実行するとエラーが起こります。 scikit-learnのbostonとは scikit-learnのbostonは、機械学習の分野でよく使用されるデータセッ…

NumPyでの転置とaxisの理解

NumPyはPythonで科学計算を行うための優れたライブラリであり、行列の操作や数値計算に便利です。特に、転置とaxisの理解は、データ解析や機械学習の実装において重要な概念です。 転置(Transpose)とは何か 転置とは、行列の行と列を入れ替える操作のこと…

Pythonのround関数

roundの基本的な考え方 Pythonの.round()関数は、数値を指定された桁数に丸めるために使用されます。 .round()関数は以下のように使用します。 rounded_number = round(number, ndigits) ここで、numberは丸める対象の数値であり、ndigitsは丸める桁数を指定…

Some weights of the model checkpoint at bert-base-cased were not usedエラー

Some weights of the model checkpoint at bert-base-cased were not usedエラーが出る時 エラーの現象 「Some weights of the model checkpoint at bert-base-cased were not used」というエラーメッセージは、Bertモデルのチェックポイントの一部の重みが…

L1正則化とL2正則化

L1正則化とL2正則化 正則化手法 L1正則化とL2正則化は、機械学習や統計モデリングにおいて使用される正則化手法です。これらの手法は、モデルの過剰適合を防ぎ、汎化性能を向上させるために使用されます。 L1正則化 L1正則化は、コスト関数に対してL1ノルム…

ホールドアウト法と交差検証法の違い

ホールドアウト法と交差検証法 ホールドアウト法も交差検証法も機械学習におけるデータのテスト方法です。 ホールドアウト法 ホールドアウト法とは、機械学習モデルの性能を評価するための方法の一つで、データセットをトレーニングデータとテストデータに分…

NumPyのdot関数

こんにちは!ノイです。 Pythonで行列計算を行う際にNumPyを使うことがよくあります。 for文を使って頑張って書けば同じことはできますが、NumPyは行列計算を高速で行う仕組みがあり、NumPyを使えば頑張らなくても高速で演算ができるので、みんなが使ってい…

モジュールのインポート

モジュールのインポート Pythonではimport文を使って標準ライブラリやpipでインストールしたパッケージや自作のパッケージなどをインポートできます。 importの基本的な使い方 import math print(math.radians(180)) # 3.141592653589793 仕様ではimport文の…

部分時系列化 時系列データをスライディングウィンドウを使って特徴量に変換

部分時系列化 部分時系列化とは 部分時系列化は、長期的な時系列データをより短い時系列に分割する手法であり、時系列予測や異常検知などのタスクに応用されます。スライディングウィンドウを使って部分時系列化を行う場合、以下の手順で特徴量に変換するこ…

Pythonの #type ignore

Pythonの #type ignoreとは Pythonの # type ignore は、Pythonの型ヒントを無視するようにコンパイラに指示するための特別なコメントです。 型ヒントは、Pythonにおいて、変数や引数、戻り値などのオブジェクトに対して、その型情報を明示的に指定するため…

不均等データの取り扱い

こんにちは!ノイです! データ分析において、均等なデータを扱うことはよくありますが、実際には不均等なデータも多く存在します。不均等データとは、異なるクラスやグループに属するデータの数が大きく異なる場合を指します。このようなデータを扱う場合、…

TFIDF(Term Frequency-Inverse Document Frequency)モデルのVectorizer

TfidfVectorizerの役割 TfidfVectorizerとは TfidfVectorizerとは、与えられた複数の文書から、それぞれの文書をTF-IDFの値に基づいたベクトルに変換するためのツールです。TF-IDFは、文書の中での単語の出現頻度と逆文書頻度を組み合わせて、単語の重要性を…