427  AdaGrad

勾配降下法のアルゴリズムの一つ。各パラメータの勾配を調整し、各パラメータに独立した学習率を設定する。

ちなみにAdaGradは、adaptive gradient algorithmの略です。直訳すると、「適応性のある勾配アルゴリズム」となります。

パラメータが最適値までまだまだ遠い時(学習初期)は大きくパラメータを更新したいが、パラメータが最適値に近づいた時(学習終盤)は最適値を通り過ぎないようにパラメータの更新量を小さくしたい。という考えで学習が進むほど学習率を小さくしていくテクニックがあります。