1-02 ニホンザル画像セット作成のロードマップ
●山道、雪道、住宅街など、背景は「生成AI」で!
図1‐03に生成AIによる学習用画像作成のロードマップを示します。このようにStable
Diffusion(*1)で山道、雪道、住宅街などいろいろな画像を生成します。これらに「サルの画像」を合成すればよいわけです。
(*1)Stable Diffusion: 画像生成AIモデルの一つ。入力されたテキストをもとに画像を生成する |

図1‐03 学習用画像作成のロードマップ
●サルの画像にも生成AIを使ってみる
さて後は「サルの写真」を撮って背景と合成・・・野生のサルは難しいのでとりあえず動物園に・・・となるでしょう。しかし暑い日や寒い日、動物園のおサルさんたちはあまり表に出てきません。出てきても檻や柵が邪魔になったり、ガラスに反射してうまく写真が撮れなかったりします。そこで今回はサルの画像もAIで生成することにします。 |
●とりあえず1枚だけサル画像生成→加工して水増し
ロードマップ(図1‐03)の右側ではサルの画像を1枚生成し、背景を切り取り、反転/拡大(縮小)/回転など、画像加工して枚数を増やしています。 |
●学習用画像はたくさんある方が良い
同図では背景画像が3枚、サル画像が1枚生成され、さらにサル画像は加工によって3枚に水増しされています。それらを合成したものが「学習用画像」となりますが、同図では3×1×3=9枚になっています。すなわち背景画像生成数(A)、サル画像生成数(B)、サル画像加工数(C)とすると、学習用画像の枚数はA×B×Cとなり、A,
B, Cを増やしていけば乗算結果は飛躍的に増えます。 |
●画像生成、切り取り、加工、合成をサポートするツールたち
同図に示すように、生成AIにはStable Diffusion(*1)、画像加工にはalbumentations(*2)を使用します。また同図のように前処理(背景切り取り)にはrembg(*3)、後処理(画像合成)にはOpenCV(*4)を使用します。
(*2)albumentations: 機械学習用データ拡張用オープンソースのPythonライブラリ。画像の反転・拡大(縮小)・回転・変形・加工などがあり、画像のバリエーションを増やすことができる。
(*3)rembg: 画像から背景を削除するPythonライブラリ。
(*4)OpenCV: インテルが開発・公開したオープンソースのコンピュータビジョン向けライブラリ。 |
次のページへ
目次へ戻る |