画像処理コンペのILSVRC2012のImageNetデータセットは各クラス1500しかないが、それくらいあれば十分と考えられる。この研究でも1鉱物あたり1,500個のオーギュメンテーションデータを作成した。
サンプル変質鉱物に対してサンプルと光源の距離、光源のばらつき、分光計の各チャンネルのばらつき、分光計の波長方向のばらつきを考慮してオーギュメンテーション処理を行った。この処理は1鉱物あたり50回とした。
もともと1変質鉱物あたり30回の測定を条件を変えておこなっているので30×50で1鉱物あたり1,500個のオーギュメンテーションデータが作成されたことになる。もともと24種類の変質鉱物を収集していたので36,000個のミニビッグデータとなったわけである。
オーギュメンテーションは多様な乱数を発生させて、オリジナルデータから作成していくが上記の分光学の特性に合わせた乱数を発生させていく。例えばサンプルと光源の距離は全体の感度変化ということで
a: 最小値 0.95 最大値 1.05 平均値 1.0 標準偏差 0.05
b: 最小値 -0.05 最大値 0.05 平均値 0.0 標準偏差 0.05
Val’ = a * Val + b
とシミュレーションデータを作成していく。
また波長方向のばらつきとしては
C0: 最小値 -3.0 最大値 2.0 平均値 0.0 標準偏差 3.0
C1: 最小値 1.0 – 1.e-3 最大値 1.0 + 1.e-3 平均値 1.0 標準偏差 1.e-2
C2: 最小値 -1.e-5 最大値 1.e-5 平均値 0.0 標準偏差 1.e-6
C3: 最小値 -1.e-8 最大値 1.e-8 平均値 0.0 標準偏差 -1.e-9
WL’= C0 + C1*WL + C2*WL*WL + C3*WL*WL*WL
とシミュレーションデータを作成していく。