●CNN1ブロックは320us毎に送られてくる
5層目の出力は128個あるので逐次的に全部計算すると20.48us x 128 = 2621.44usとなり、スループット(320us)を超えてしまいます。そこで図5‐37の3段目以降のように128個の出力を8個づつ、16並列で計算させます。係数ROM(図5‐36)が16個に分かれているのはそのためです。
●5層目は16並列で間に合わせる
並列化により、全出力計算にかかる時間は20.48us x 8 = 163.84usとなり、320us - 163.84us = 156.16usの余裕をもって終了することになります。乗算器は16個、それぞれビットシフト型です。 |