ディープ・ラーニング－ハードウエア化への道

6-02　パディングと畳み込み

　この書籍の242ページにある畳み込みニューラルネットワークの例では最初にConv（畳み込み）層があります。本章ではそこで行われる畳み込みについて説明します。

●畳み込みの前処理としてのパディング

　元の画像は図6-02の内側の枠に示す画素 X'0, 0 ～ X'27, 27（28×28）からなります。
　ここで画像の枠を上下左右に1画素ぶん広げます。その結果、画像サイズはX0, 0 ～ X29, 29（30×30画素）になります。
　同図にあるように外枠（灰色の部分）は０で埋めます。この操作を「パディング」といいます。

　　図6-02　パディングで画像サイズを拡げる

●1個のフィルタに付き784個の積和結果

　30×30画素と拡げた画像を図6-03のように左から右に１画素づつずらしながら積和をとります。
　右端まで行ったら左端に戻りますがその際、1画素ぶん下にずらします。そして再び右にずらしながら積和をとっていきます。
　その所作を右下まで続けると結果的にMac0～Mac783という784個の結果が得られます。

　　図6-03　一画面を左右上下に走査しながら積和をとる

●フィルタは16個あるので16チャネルぶんの結果が得られる

　図6-03では1個のフィルタ（要素数は3×3）を用いて積和演算しましたが、この書籍の242ページの一層目の畳み込み層においては16個のフィルタを用います。つまりこの畳み込み層の出力は784×16個となり、画像16枚（16チャネル）ぶんになります(図6-04）。

　　図6-04　要素数3×3のフィルタが16個ある

目次へ戻る