google-site-verification: googlec11dd3c59de6bdc4.html
人工知能はどこまで人間に迫るのか
How close will artificial intelligence get to humans?
深層学習

8) 深層学習の技術要素 畳み込み

畳み込みはCNNの代表的な手法で核心をなすものである。カーネル(フィルタ)と呼ばれる格子状の数値データをカーネルと同サイズの部分画像に対して要素ごとの積の和を計算して変換する処理である。

この変換処理をずらして新しい画像に変換するものである。例えば32×32のピクセルを5×5のカーネルを3ピクセルずつずらしながら畳み込みを行うと10×10のピクセルに縮小される。これは下記のようになる。

入力の高さをH、幅をW、出力の高さをOutH、幅をOutWとしフィルタのサイズの高さをFiH、幅をFiWとして、パディングをP、ストライドをSとすると

OutH=(H+2P-FiH)/S+1=(32+2*0-5)/3+1=10

OutW=(W+2p-FiW)/S+1=(32+2*0-5)/3+1=10

となる。

畳み込みでは入力値にフィルタを畳み込む計算を行う。これは一般的なフィルタ処理と変わらない。

出力はぼかした画像、エッジの効いた画像などが出力として出てくる。こうして画像の特徴量を抽出していく。畳み込みは有用な特徴量を画像の位置によって大きく変化させない効果がある。