入力画像に対してその画像に写る代表的な物体クラスの名称を出力するタスク。識別対象としている物体クラスすべてに対する確信度を出力する。
画像分類(Image Classification)、物体識別などと呼ばれるタスクは画像に写っているクラスを予測するものです。ILSVRCでは1000個のクラスがあり、どのクラスが写っているのか確率(確信度)で表します。
簡単な例で、猫、犬、ウサギの3つクラスだけの場合を考えると、モデルが予測として確率値をベクトルとして返します。例えば、[0.1,0.7,0.2][0.1,0.7,0.2]などと予測したとすると、猫10%、犬70%、ウサギ20%となります。
物体識別のモデルは畳み込みなどで得た特徴量から判断し、最後の活性化関数にはよくSoftmax関数が使われます。代表的なものに、AlexNet、GoogLeNet(Inceptionモジュール)、VGG、ResNet(Skip connection)などがあります。

