技術紹介

SSIMとブロブ検出を用いた教師なし欠陥領域セグメンテーション(GTC2019)

我々は欠陥領域のセグメンテーションに対する新たな手法を提案します。この手法により従来の最高水準を超える精度を実現しました。
一般に教師なし学習による画像の異常検知を行う際には畳み込みオートエンコーダがよく使われます。教師なし学習を行うのは以下の理由によるためです。
(1)現実世界のデータセットはラベルづけコストが高く、また異常サンプルは正常サンプルに対して非常に少ない。
(2)教師なし学習は未知の異常を識別するのにも有効である。
畳み込みオートエンコーダにStructural Similarity (SSIM) を加えた手法は、欠陥領域のセグメンテーションにおいて最高の性能を実現しています。
我々はこの手法に動的相互作用を利用したブロブ検出(塊検出)を加えることで欠陥と無関係な領域のノイズを減らし、セグメンテーション能力を強化することに成功しました。

イントロダクション

製造業において外観検査は製品の品質向上や予知保全を行う上で非常に重要です。
外観検査を機械学習で実現する際には教師あり学習が広く使われていますが、教師あり学習は手作業によるデータの正確なラベルづけが大きな負担となるだけでなく、
産業環境における異常は想像以上に少ないため教師データを収集することが困難になります。
そのため現実世界の画像データを使って欠陥領域セグメンテーションを行う場合には教師なし学習の方が好まれます。

通常畳み込みオートエンコーダではL1またはL2損失を使ってモデルの学習を行い、学習後のオートエンコーダが入力画像をうまく再現できている領域は正常領域、そうでない領域は欠陥領域だと推定されます。
L1、L2損失を使ったピクセル単位の再構築エラーを使った分類は、入力データの品質を完全に制御できる状況では有効ですがデータにノイズが加わるとすぐに精度が悪くなります。
さらに、物体境界付近では入力画像と出力画像の差分(残差と呼んでいます)が大きいため、画像の歪みに対して頑健ではありません[1; 4]。

こういった問題を軽減するため、Structural Similarity (SSIM) が提案されています。SSIMは学習時の損失関数としても、推論時の残差の計算にも使われます[3]。SSIMは2枚の画像の類似度を表す指標で、それぞれの画像を細かいパッチに分けて同じ位置にある2枚のパッチを使って算出します。SSIMの計算式は輝度、コントラストとパッチの構造を考慮したものとなっています。
SSIMを使った欠陥領域のセグメンテーションはL2損失を使用したものよりもずっと高い精度を実現しています[1; 4]。

欠陥セグメンテーションの処理手順。
入力画像をオートエンコーダに入力すると(左上)
再構築画像を出力する(右上)。
入力画像と出力画像の残差はSSIMを使って計算する(左下)。
動的ブロブ検出を使うことで検出されたブロブは欠陥としてセグメントされる(右下)。
提案手法のテストデータに対するROC曲線

精度向上と実験結果

SSIMを使ったセグメンテーションであってもところどころ正常な領域を異常とみなす箇所が存在します。
こういった領域は1つ1つの面積は小さいですが数が多く誤検出につながります。

我々はSSIMから得られた残差マップをより明瞭にするためにInteractive Activation Model [2] から得た着想を用いて新たなアルゴリズムを開発しました。
Interactive Activation Modelでは、複数のユニットが互いを促進または抑制する結合をしており、これらの結合を通して相互作用することによって視覚的特徴を動的に検出します。

我々の手法では、残差マップの各ピクセルは隣接するピクセルとの相互作用により強め合ったり弱めあったりします。
このプロセスを各ピクセルの状態が落ち着くまで繰り返すと欠陥領域はブロブとして残ります。
そして異常と判定した領域のうち細かいものはブロブとして残らないため消すことができます。

我々の新しいモデルをNanoTWICEデータセット [1] で検証しました。
NanoTWICEデータセットはナノファイバの電子顕微鏡画像を集めたデータセットで欠陥領域のセグメンテーションの学習・検証に使われます。
NanoTWICEデータセットにおけるこれまでの最高水準はAUC 0.935 でしたが我々のモデルはそれを上回るAUC 0.988を達成しました。
このモデルはTnesorFlowを使って実装し、NVIDIA製GPU(TITANX)を使うことでモデルの学習も推論も高速に動作しています。

欠陥領域セグメンテーションの例(入力画像に重ね合わせて表示)
(a) ブロブ検出なし
(b) ブロブ検出あり

参考文献

[1] Bergmann, P., Löwe, S., Fauser, M., Sattlegger, D., & Steger, C. (2018). Improving Unsupervised Defect Segmentation by Applying Structural Similarity to Autoencoders. arXiv preprint. arXiv:1807.02011v2

[2] McClelland, J.L., & Rumelhart, D.E. (1981). An interactive activation model of context effects in letter perception: part 1. An account of basic findings. Psychology Review, 88, 5, 375–407.

[3] Wang, Z., Bovik, A.C., Sheikh, H.R., & Simoncelli, E.P. (2004). Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing. 13 (4), 600–612. doi:10.1109/TIP.2003.819861

[4] Wang, Z., & Bovik, A.C. (2009). Mean squared error: Love it or leave it? A new look at signal fidelity measures. IEEE Signal Processing Magazine, 26, 1, 98–117. doi:10.1109/msp.2008.930649

著者:参納大樹[1], アントワーヌ・パスクアリ[2]

LEAVE A RESPONSE

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です