G検定模擬問題（4） 問143 解答

最も適切な選択肢は：
② 物体検出とセグメンテーションを同時に行うモデルである。

解説：
Mask R-CNNとは：
・Mask R-CNN（Mask Region-based Convolutional Neural Network）は、物体検出（Bounding Boxの抽出）と、ピクセル単位のセグメンテーションを同時に行うディープラーニングモデルです。
・Faster R-CNNをベースに、物体の境界（Bounding Box）だけでなく、マスク（ピクセル単位の領域情報）を予測する機能を追加しています。
・主な処理の流れ：
1.物体検出（Bounding Box） → どこに何があるかを検出
2.クラス分類 → 各検出領域のカテゴリを分類
3.セグメンテーション → ピクセル単位の領域予測

各選択肢の評価：
① 画像全体を対象とするセマンティックセグメンテーションに分類される。
・誤り：
Mask R-CNNはインスタンスセグメンテーションに分類され、画像全体ではなく、個々の物体を識別・分離します。
一方、セマンティックセグメンテーション（例：DeepLab）は、すべてのピクセルをクラスごとに分類する手法です。
② 物体検出とセグメンテーションを同時に行うモデルである。
・正しい：
Mask R-CNNの特徴は、物体検出（Bounding Box）とセグメンテーション（Mask）を同時に行うことです。したがって、この選択肢が正しいです。
③ 入力画像の物体クラスのみを出力する物体認識タスクである。
・誤り：
Mask R-CNNは物体クラスの認識に加えて、位置（Bounding Box）とマスク（セグメンテーション）も出力します。単なるクラス分類にはとどまりません。
④ 画像をマスク化して高速化を狙った物体検出モデルである。
・誤り：
Mask R-CNNの主目的は高速化ではなく、精度の高いセグメンテーションを行うことです。
高速化を目的とした物体検出モデルとしては、YOLO（You Only Look Once）やSSD（Single Shot MultiBox Detector）が挙げられます。

問題