Auto Arborist Dataset:都市部に存在する樹木の分布を調査(2/2)

データセット

1.Auto Arborist Dataset:都市部に存在する樹木の分布を調査(2/2)まとめ

・森林モニタリングでは都市によって樹木分布が異なる分布シフトに対処が必要
・属の分布は地理的にも都市の規模でも異なりロングテールになる事が困難
・より多くの学習データ、視点、データクレンジングで有効なデータになった

2.Auto Arborist Datasetの内容

以下、ai.googleblog.comより「Mapping Urban Trees Across North America with the Auto Arborist Dataset」の意訳です。元記事は2022年6月22日、Sara BeeryさんとJonathan Huangさんによる投稿です。

アイキャッチ画像はlatent diffusionによる生成でドクターが樹木を診察している画像

都市の森林モニタリングの最も重要な課題の一つは、トレーニングセットに含まれていない都市でうまく機能させることです。視覚モデルは、トレーニングに使った都市の樹木分布とトレーニングに使っていない新しいテスト都市の樹木分布が異なる事、つまり、分布シフトと戦わなければなりません。

属の分布は地理的に異なり(例えば、カリフォルニア州よりもカナダ西部の方がアメリカ松(Douglas fir)が多い)、都市の規模によっても異なります(ロサンゼルスはサンタモニカよりもはるかに大きく、多くの属が含まれています)。もう一つの課題は、樹木の属がロングテールで細かいため、人間の専門家でも曖昧さを解消するのが難しく、多くの属が非常に稀であることです。


Auto Arboristカテゴリ全体のロングテール分布。大部分のサンプルは、頻出する少数のカテゴリーに属しており、その他の多くのカテゴリーははるかに少ないサンプルしかありません。私達は、学習サンプルの数に基づいて、各属を頻出、普通、または希少と特徴付けます。テストデータは、各都市の学習データから空間的に分割されているため、すべての希少属がテストセットに含まれるわけではないことに注意してください。

最後に、樹木の画像にノイズが発生する可能性がいくつかあります。例えば、落葉樹には時間的な変動があります。(例えば、航空写真には葉が写っているのに、街路樹の画像は葉が落ちて裸のままである場合など)。さらに、公的な樹木のセンサスは必ずしも最新のものではありません。したがって、樹木センサスが行われてから時間が経つと、樹木が枯れてしまっている(見えなくなっている)ことがあります。さらに、航空データの品質が低い場合もあります(雲などで欠落していたり、不明瞭であったり)。

私たちの収集プロセスでは、これらの問題を最小限にするため、

(1) セマンティックセグメンテーションモデルによって決定された、十分な樹木ピクセルを持つ画像のみを残す
(2) それなりに最近の画像のみを残す
(3) 樹木の位置がストリートビューカメラの十分近くにある画像のみを残す

ようにしました。

春と夏に見られる樹木についても最適化することを検討しましたが、季節変動が有用な手がかりになると判断し、各画像の日付も公開し、季節変動の影響を調べることができるようにしました。

ベンチマークと評価

このデータセットを評価するために、ドメイン汎化および分布のロングテールにおける性能を測定するベンチマークを設計しました。

私達は3つのレベルで学習とテストの分割を行いました。まず、各都市を(緯度または経度に基づいて)分割し、都市がそれ自体に対してどの程度汎化されるかを確認しました。

次に、都市レベルの学習セットを西、中央、東の3つの地域に集約し、それぞれの地域から1都市を除外しました。最後に,3つの地域の学習セットを統合しました。これらの分割のそれぞれについて、頻度の高い種、一般的な種、希少な種の精度とクラス平均の再現率を、対応する学習時に使われなかったテストセットで報告します。

これらの指標を用い、標準的な最新の畳み込みモデル(ResNet)を用いた性能のベースラインを確立しました。私達の結果は、Auto Arboristのような大規模で地理的に分散したデータセットの利点を実証しています。まず、より多くの学習データが有効であることがわかります。データセット全体に対する学習は、地域に対する学習よりも有効であり、1つの都市に対する学習よりも有効です。


各都市のテストセットで、都市自身、地域、全トレーニングデータセットで学習した場合の性能

次に、似たような都市でトレーニングすることが有効です。(つまり、都市のカバー率が高いことが有効です)。例えば、シアトルにフォーカスするのであれば、ピッツバーグよりもバンクーバーの木でトレーニングした方がよいでしょう。


各都市のトレーニングセットとテストセットの組み合わせで見たクロスセット性能
ブロック対角構造に注目してください。データセットの地域構造を強調しています。

第三に、より多くの種類のデータと視点が有効です。最も優れたモデルは、複数のストリートビューのアングルや俯瞰図からのインプットを組み合わせています。しかし、まだまだ改善の余地があり、この点については、より多くの研究者のコミュニティが貢献できると考えています。

参加する

Auto Arborist Datasetを公開することで、コンピュータビジョンのコミュニティが初めて大規模な都市森林モニタリングに取り組めるようになり、手頃な都市森林モニタリングの目標に一歩近づきました。将来的には、北米の多くの都市(特に米国南部とメキシコ)、さらには世界中にカバレッジを拡大したいと考えています。さらに、このデータセットをより細かい樹種レベルにまで広げ、樹木の健康状態や成長を長期的にモニタリングしたり、環境要因が都市部の森林に与える影響を研究するなど、より微妙なモニタリングについて研究していきたいと思っています。

詳細については、CVPR 2022の論文をご覧ください。このデータセットは、Environmental Insights Explorer Tree Canopy Labを通じて、都市の森林に関するデータを都市に提供するGoogleの幅広い取り組みの一部であり、私たちのGitHubリポジトリで公開されています。このデータセットへの参加に関心のある都市の代表者は、auto-arborist+managersのgooglegroupsまで電子メールをお送りください。

謝辞

共著者のGuanhang Wu, Trevor Edwards, Filip Pavetic, Bo Majewski, Shreyasee Mukherjee, Stanley Chan, John Morgan, Vivek Rathod, そして Chris Bauer に感謝します。

また、Google AI for Nature and Society の Ruth Alcantara、Tanya Birch、Dan Morris、Google Geo の John Quintero、Stafford Marquardt、Xiaoqi Yin、Puneet Lall、Matt Manolides、Google Research (Perception team) の Karan Gill、Tom Duerig、Ahibijit Kundu、David Ross、Vighnesh Birodkar、Pietro Perona には感謝します。この研究は、Resnick Sustainability Instituteの一部支援を受け、Sara BeeryがGoogleのStudent Researcherであったときに行われたものです。

3.Auto Arborist Dataset:都市部に存在する樹木の分布を調査(2/2)関連リンク

1)ai.googleblog.com
Mapping Urban Trees Across North America with the Auto Arborist Dataset

2)openaccess.thecvf.com
The Auto Arborist Dataset: A Large-Scale Benchmark for Multiview Urban Forest Monitoring Under Domain Shift

3)google.github.io
The Auto Arborist Dataset

タイトルとURLをコピーしました