im2colの実装 - ITエンジニアノイのブログ

1. im2colの基本

「im2col」は、畳み込み演算を効率的に行うための手法です。具体的には、4次元配列（ミニバッチサイズ、チャンネル数、縦幅、横幅）を行列に変換し、畳み込み演算を行列積の計算として実行します。この変換により、畳み込み演算の処理速度が劇的に向上します。

2. im2colの動作

入力: 4次元の入力データ（例: ミニバッチサイズ、チャンネル数、縦幅、横幅）
出力: 2次元の行列

im2colは、入力データから局所的な領域を抜き出し、それを1列のデータとして展開します。この操作を入力データ全体に対して行うことで、2次元の行列が得られます。

3. im2colのコードの解説

以下は、im2colの一般的な実装です。

def im2col(input_data, filter_h, filter_w, stride_h=1, stride_w=1, pad_h=0, pad_w=0):
    N, C, H, W = input_data.shape
    out_h = (H + 2*pad_h - filter_h)//stride_h + 1
    out_w = (W + 2*pad_w - filter_w)//stride_w + 1

    img = np.pad(input_data, [(0,0), (0,0), (pad_h, pad_h), (pad_w, pad_w)], 'constant')
    col = np.zeros((N, C, filter_h, filter_w, out_h, out_w))

    for y in range(filter_h):
        y_max = y + stride_h*out_h
        for x in range(filter_w):
            x_max = x + stride_w*out_w
            col[:, :, y, x, :, :] = img[:, :, y:y_max:stride_h, x:x_max:stride_w]

    col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N*out_h*out_w, -1)
    return col, out_h, out_w

入力データの形状取得: N, C, H, W = input_data.shape で入力データの形状を取得します。
出力サイズの計算: out_h と out_w は、畳み込み後の出力サイズを計算します。
パディング: np.pad を使用して、入力データにパディングを追加します。
局所的な領域の抜き出し: 2重のforループを使用して、入力データから局所的な領域を抜き出し、col に保存します。
データの整形: 最後に、col の形状を変更して、2次元の行列に変換します。