google-site-verification: googlec11dd3c59de6bdc4.html
人工知能はどこまで人間に迫るのか
How close will artificial intelligence get to humans?
深層学習

5)前処理

場合によっては複数年にわたって収集したデータを深層学習にかけるには前処理が必要です。例えばデータの統一、統合、欠損値の処理、外れ値をどうするかなどがあります。データの標準化、基準化も大切です。

オーギュメンテーション処理の前のこれから処理は徹底的に行う必要があります。このほかに予測モデルの性能を向上させる特徴量エンジニアリングも必要となってくることもあります。

入力となる特徴量をアルゴリズムに適合させることが必要な訳です。初歩的なところでは対数変換、最小ー最大スケーリング、分散スケーリングなどがあります。これらにかかる処理はマイナーなイメージを持たれるかもしれませんが大変大切です。この後にオーギュメンテーションをそれぞれのデータ群に行う訳ですが、

オーギュメンテーションは確率をどう発生させるかにより学習結果に大きな影響を与えます。

前処理×オーギュメンテーションの組み合わせでも何通り、何十通りもあり、それぞれ処理を行うまではどれがベターなのかはなかなか解りません。CNNとやるのかMLPをやるのかによっても答えは変わってきます。

今回の検証ではMLPではまったく前処理を必要としませんでしたが、CNN2dでは学習が収束しないことがあり、そのため本研究ではデータの値を0.0~1.0にする正規化を行った。

この他、データの平均や標準偏差を利用してデータの平均を0に標準偏差を1にすることがある。あるいは入力データから平均値を各ピクセルから引くなどの手法も用いられる。

一般的CNN2dではノイズ除去のための平滑化、正規化などの前処理は必要とされている。

これらのことから判るように学習する段階になっても後戻りが必要でなかなか体力勝負なテーマです。ちょっと記事は古いのですが下記が参考になります。

https://qiita.com/tomov3/items/039d4271ed30490edf7b

 

トップページへ