223 データ拡張

手元にある画像から疑似的に別の画像を生成するアプローチ。データ拡張は深層学習のモデルを構築したい、しかし、十分なトレーニングデータがないというような際に、有用なテクニックです。複雑なモデルをトレーニングするには、通常沢山の量のデータを必要とします。しかしながら、データが少ない場合においても、データの量を増やしていくテクニックを使うことで十分問題なくモデルを訓練させることができるケースがあります。

画像処理分野でのデータ拡張
・水平・垂直に画像をシフトする
・水平方向・垂直方向に画像を反転させる
・回転させる (回転角度はランダムのケースもある)
・明度を変える
・ズームインする・ズームアウトする
・画像の一部をくり抜く、削除する
・背景色を変える

自然言語処理分野でのデータ拡張
・同義語、類義語で置き換える
・類似度を計算して置き換える
・反意語で置き換える
・文章内の語と語を入れ替える
・ランダムに削除する
・Back Translation を用いて文章を水増しする

数値を取り扱うケースでのデータ拡張
・0や1 等、決めた値を代入する
・その項目の平均値、最頻値、中央値、移動平均値を代入する(クラスタリングをした上で統計量を入れるケースもある)
・欠損項目を目的変数とした回帰モデルを作り、他の項目を参考にして推定値を代入する(ロジスティック回帰、重回帰、ベイズロジスティック回帰)
・次元圧縮からの復元をして値を入れる