最も適切な選択肢は:
② 物体検出とセグメンテーションを同時に行うモデルである。
解説:
Mask R-CNNとは:
・Mask R-CNN(Mask Region-based Convolutional Neural Network)は、物体検出(Bounding Boxの抽出)と、ピクセル単位のセグメンテーションを 同時に行うディープラーニングモデルです。
・Faster R-CNNをベースに、物体の境界(Bounding Box)だけでなく、マスク(ピクセル単位の領域情報)を予測する機能を追加しています。
・主な処理の流れ:
1.物体検出(Bounding Box) → どこに何があるかを検出
2.クラス分類 → 各検出領域のカテゴリを分類
3.セグメンテーション → ピクセル単位の領域予測
各選択肢の評価:
① 画像全体を対象とするセマンティックセグメンテーションに分類される。
・誤り:
Mask R-CNNはインスタンスセグメンテーションに分類され、画像全体ではなく、個々の物体を識別・分離します。
一方、セマンティックセグメンテーション(例:DeepLab)は、すべてのピクセルをクラスごとに分類する手法です。
② 物体検出とセグメンテーションを同時に行うモデルである。
・正しい:
Mask R-CNNの特徴は、物体検出(Bounding Box)とセグメンテーション(Mask)を同時に行うことです。したがって、この選択肢が正しいです。
③ 入力画像の物体クラスのみを出力する物体認識タスクである。
・誤り:
Mask R-CNNは物体クラスの認識に加えて、位置(Bounding Box)とマスク(セグメンテーション)も出力します。単なるクラス分類にはとどまりません。
④ 画像をマスク化して高速化を狙った物体検出モデルである。
・誤り:
Mask R-CNNの主目的は高速化ではなく、精度の高いセグメンテーションを行うことです。
高速化を目的とした物体検出モデルとしては、YOLO(You Only Look Once)やSSD(Single Shot MultiBox Detector)が挙げられます。

