6-02 パディングと畳み込み

 この書籍の242ページにある畳み込みニューラルネットワークの例では最初にConv(畳み込み)層があります。本章ではそこで行われる畳み込みについて説明します。


●畳み込みの前処理としてのパディング

 元の画像は図6-02の内側の枠に示す画素 X'0, 0 〜 X'27, 27(28×28)からなります。
 ここで画像の枠を
上下左右に1画素ぶん広げます。その結果、画像サイズはX0, 0 〜 X29, 29(30×30画素)になります。
 同図にあるように外枠(灰色の部分)は
で埋めます。この操作を「パディング」といいます。

  図6-02 パディングで画像サイズを拡げる


●1個のフィルタに付き784個の積和結果

 30×30画素と拡げた画像を図6-03のように左から右に
1画素づつずらしながら積和をとります。
 右端まで行ったら左端に戻りますがその際、1画素ぶん下にずらします。そして再び右にずらしながら積和をとっていきます。
 その所作を右下まで続けると結果的にMac0〜Mac783という
784個の結果が得られます。


  図6-03 一画面を左右上下に走査しながら積和をとる


●フィルタは16個あるので16チャネルぶんの結果が得られる

 図6-03では1個のフィルタ(要素数は3×3)を用いて積和演算しましたが、この書籍の242ページの一層目の畳み込み層においては
16個のフィルタを用います。つまりこの畳み込み層の出力は784×16個となり、画像16枚(16チャネル)ぶんになります(図6-04)。


  図6-04 要素数3×3のフィルタが16個ある


目次へ戻る