SSDはこのように画像の「どこ」に「何」が存在するかを認識するアルゴリズムです。
「何」に該当する種族は当該書籍のSSDでは以下の20種族になります。(*1)
voc_classes = ['aeroplane', 'bicycle', 'bird', 'boat', 'bottle', 'bus',
'car', 'cat', 'chair', 'cow', 'diningtable', 'dog', 'horse', 'motorbike',
'person', 'pottedplant', 'sheep', 'sofa', 'train', 'tvmonitor']
例えば「自動運転」に関するものでしたら2番目の自転車、6番目のバス、7番目の自動車、14番目のバイク、15番目の人、19番目の電車といったところでしょう。
(*1)これらに加えて「背景」という種族があり、実際は21種族になる。 |