膨大なデータから学習を行う機械学習にとって不可欠で、構築したいAIに合わせてオープンデータを選択し、活用することが必要。
・Kaggle:予測モデル・分析を競い合うプラットフォームで、さまざまなデータセットをダウンロードできる。
・MNIST:機械学習初心者が最初に使うとも言われる手書き数字画像のデータセット。
・ImageNet:1,400万枚以上のデータセットがあり、文字列検索をすると検索単語に合ったクラスが出てくるのでデータ取得しやすくなっている。
・Kinetics:Deep Mindが公開している、約65万もの動画に楽器の演奏などの人間とオブジェクトの相互作用、握手など行動にラベルが付与されている動画データセットである。
・AudioSet:Googleが公開する、10秒程度の音に人間の声や動物の鳴き声、そして楽器などのラベルが付与されてる。
・Wikipedia Links data:Wikipediaの全文をデータセットとして公開している。
・Quandl:さまざまな各種金融・経済データセットを取得することがきます。Pythonでのデータ取得記事も多い。
338 オープンデータセット

