6-02 パディングと畳み込み
この書籍の242ページにある畳み込みニューラルネットワークの例では最初にConv(畳み込み)層があります。本章ではそこで行われる畳み込みについて説明します。
●畳み込みの前処理としてのパディング
元の画像は図6-02の内側の枠に示す画素 X'0, 0 〜 X'27, 27(28×28)からなります。
ここで画像の枠を上下左右に1画素ぶん広げます。その結果、画像サイズはX0, 0 〜 X29, 29(30×30画素)になります。
同図にあるように外枠(灰色の部分)は0で埋めます。この操作を「パディング」といいます。 |
図6-02 パディングで画像サイズを拡げる
●1個のフィルタに付き784個の積和結果
30×30画素と拡げた画像を図6-03のように左から右に1画素づつずらしながら積和をとります。
右端まで行ったら左端に戻りますがその際、1画素ぶん下にずらします。そして再び右にずらしながら積和をとっていきます。
その所作を右下まで続けると結果的にMac0〜Mac783という784個の結果が得られます。 |
図6-03 一画面を左右上下に走査しながら積和をとる
●フィルタは16個あるので16チャネルぶんの結果が得られる
図6-03では1個のフィルタ(要素数は3×3)を用いて積和演算しましたが、この書籍の242ページの一層目の畳み込み層においては16個のフィルタを用います。つまりこの畳み込み層の出力は784×16個となり、画像16枚(16チャネル)ぶんになります(図6-04)。 |
図6-04 要素数3×3のフィルタが16個ある
目次へ戻る
|