1-02 ニホンザル画像セット作成のロードマップ

●山道、雪道、住宅街など、背景は「生成AI」で!

 図1‐03に生成AIによる学習用画像作成のロードマップを示します。このようにStable Diffusion(*1)で山道、雪道、住宅街などいろいろな画像を生成します。これらに「サルの画像」を合成すればよいわけです。

(*1)Stable Diffusion: 画像生成AIモデルの一つ。入力されたテキストをもとに画像を生成する

図1‐03 学習用画像作成のロードマップ

●サルの画像にも生成AIを使ってみる

 さて後は「サルの写真」を撮って背景と合成・・・野生のサルは難しいのでとりあえず動物園に・・・となるでしょう。しかし暑い日や寒い日、動物園のおサルさんたちはあまり表に出てきません。出てきても檻や柵が邪魔になったり、ガラスに反射してうまく写真が撮れなかったりします。そこで今回はサルの画像もAIで生成することにします。

●とりあえず1枚だけサル画像生成→加工して水増し

 ロードマップ(図1‐03)の右側ではサルの画像を1枚生成し、背景を切り取り、反転/拡大(縮小)/回転など、画像加工して枚数を増やしています。

●学習用画像はたくさんある方が良い

 同図では背景画像が3枚、サル画像が1枚生成され、さらにサル画像は加工によって3枚に水増しされています。それらを合成したものが「学習用画像」となりますが、同図では3×1×3=9枚になっています。すなわち背景画像生成数(A)、サル画像生成数(B)、サル画像加工数(C)とすると、学習用画像の枚数はA×B×Cとなり、A, B, Cを増やしていけば乗算結果は飛躍的に増えます。

●画像生成、切り取り、加工、合成をサポートするツールたち

同図に示すように、生成AIにはStable Diffusion(*1)、画像加工にはalbumentations(*2)を使用します。また同図のように前処理(背景切り取り)にはrembg(*3)、後処理(画像合成)にはOpenCV(*4)を使用します。

(*2)albumentations: 機械学習用データ拡張用オープンソースのPythonライブラリ。画像の反転・拡大(縮小)・回転・変形・加工などがあり、画像のバリエーションを増やすことができる。

(*3)rembg: 画像から背景を削除するPythonライブラリ。

(*4)OpenCV: インテルが開発・公開したオープンソースのコンピュータビジョン向けライブラリ。

次のページへ

目次へ戻る