論文紹介

PointNetの紹介

この記事をご覧の皆様、初めまして。
クロスコンパス・インターン生の李亜超です。
今回、CVPR2017には発表された、
「PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation」
という題名の論文について解説していきたいと思います。

Introduction

enter image description here


PointNetは、2016年にスウェーデン大学によって提出された点群分類/セグメント深層学習フレームワークです。みんながよく知っている様に、点群は、分類または分割の際に不規則な空間的関係を持つという特徴があるため、既存の画像分類および分割フレームワークを点群に直接適用することはできません。したがって、点群の分野では、点群ボクセル化(グリッド)に基づく多くのディープラーニングフレームワークが作成されており、これは良い結果をもたらしています。
ただし、点群をボクセル化すると、点群データの元の特性が必然的に変化するため、不要なデータ損失と追加の作業負荷が発生します。PointNetは、点群の空間特性を最大化するために独自の点群入力方式を使用し、最終テストで良好な結果を達成しました。

点群データには注目すべき機能がいくつかあります—-データの無秩序とデータの可変数。
無秩序とは、ネットワークがデータポイントの順序を変更しても同じ結果を出力できなければならないことを意味します。可変数は、ネットワークが異なるサンプリング点の3Dモデルを処理できなければならないことを意味します。

Pointnetは、主に分類とセグメンテーションという2つの問題で使用されています。

対称デザイン

enter image description here

この論文は、ネットワークがMaxPoolingを対称関数設計として使用することによって点群モデルの無秩序を処理することを述べている。つまり、入力の順序に関係なく、maxpoolingは同じ結果を出力します。対称関数は自然数の加算に似た演算であり、入力シーケンスは変わっても出力は変更されません。

構造

enter image description here

ネットワーク入力はn×3データで、nはサンプリング点の数、3は三次元座標です。mlp(多層パーセプトロン)のいくつかのステップの後に、n * 1024次元のサンプリング点特徴を得て、次に対称操作にMaxpoolを使用して、1024次元の全体的な特性を取得します。分類モデル(Classification)では、次元削減出力のいくつかの層を直接通過し、softmax分類確率を出力します。
セグメンテーションモデルでは、マルチレイヤネットワーク出力の前に、全体的なフィーチャがサンプリングポイントフィーチャに接続されます。

モデルの回転不変処理のために、ネットワークの中央に2つのTネットネットワークがあります。

結果

T-net の効果

enter image description here


TとQは同時に最良の効果があります。同時に、正則化によっても精度が0.5%向上します。

モデル分類の評価

enter image description here

モデルセグメンテーション評価

enter image description here