ロボット工学におけるA/Bテストの重要性の検証(1/2)

１．ロボット工学におけるA/Bテストの重要性の検証(1/2)まとめ

・自然科学、社会科学、医学などは変化する現実世界の中で結果を評価および比較している
・機械学習研究の大部分は固定した世界で仮定に依存する手法を使用して比較をしている
・制御された研究室の環境でも現実世界から影響を受けるので一貫性を維持する事は困難

２．実験時に全く同一な環境を維持する事の難しさ

以下、ai.googleblog.comより「The Importance of A/B Testing in Robotics」の意訳です。元記事は2021年6月10日、Arnab BoseさんとYuheng Kuangさんによる投稿です。

ABテストは「デザインＡとデザインＢ、どちらが顧客のクリック率が高いか？」を知るためにWebページなどでもやる事があります。

望ましいのは顧客がアクセスしてきた際にランダムでデザインA、またはデザインBを表示させてその結果を比較する事です。しかし、これをやるためにはWebサイト側にランダムで振り分けるための作り込みが多少必要になるので、開発チームに余力がない場合は次善の策として、テスト期間前半はデザインAを使い、テスト期間後半はデザインBを使って比較しましょう、なんて案が出る場合があります。

しかし、テスト期間前半とテスト期間後半で訪問してくる顧客の属性が一緒である保証はなく、むしろ複数の他案件や広告キャンペーンが同時並行してリリースされるような状況だと全く違うはずなので、時間的に分割してデザインAとデザインBを比較するのはあまり意味がないのです。

そして、実はロボットを使った実験でも単純に時間的に分割すると間違う可能性がありますよ、と言うのが今回のお話です。これ、ロボットだけでなくML領域全般での要考慮事項な気もします。

アイキャッチ画像のクレジットはPhoto by Vladislav Babienko on Unsplash

自然科学、社会科学、医学の分野はすべて、絶えず変化する現実世界の中で結果を評価および比較する方法に取り組む必要があります。対照的に、機械学習(ML:Machine Learning)の研究の大部分は、固定した世界で仮定に依存する手法を使用しています。

固定したデータセットを使って比較対象とするモデルのパフォーマンスを測定し、それを改善する事を目的とした新しいモデルを構築し、そのパフォーマンスを(同じ固定データを使って)比較することで評価を行います。

ロボットシステムとその現実世界での応用に関する研究では、このような実験計画を再考する必要があります。制御されたロボット研究環境でも、現実世界が変化する事により比較対象モデルのパフォーマンスが時間の経過とともに一貫しなくなる可能性があり、新しいモデルのパフォーマンスが比較対象モデルと比較して改善されたのか、意図しないランダムな変更の結果でたまたま改善されたのかが不明確になります。

ロボット工学の研究がより複雑で挑戦的な現実世界のシナリオに進むにつれて、
・比較対象モデルに対する絶え間なく変化する現実世界の影響を理解すること
・有益で明確な結果を生成するための体系的な方法を開発すること
の両方に対する必要性が高まっています。

本投稿では、研究室の比較的制御された環境でさえ、ロボット工学の研究が環境の変化によってどのように有意に影響を受けるかを示します。更に、ランダム割り当て手法(Random assignment)とA/Bテスト手法(A/B testing)を使用してこの基本的な課題に対処する方法について話し合います。

これらの手法は古典的な研究方法ですが、ロボット工学の研究では一般的にデフォルトとして採用される事はありません。それでも、現実世界のシナリオでロボット工学で意味のある測定可能な科学的結果を生み出すために重要です。更に、これらの手法を使用する場合のコスト、メリット、およびその他の考慮事項についても説明します。

絶え間なく変化する現実世界とロボット工学

実験条件ではないすべての違いを最小限に抑えるように設計されたロボット研究環境でも、完全に再現可能な実験を設定することは非常に難しいことで有名です。

ロボットは何かにぶつかるかもしれません。そして摩耗します。照明の変化は知覚に影響し、バッテリーの充電率はモーターの回転力に影響します。これらは全て大小様々ですが結果に影響を与える可能性があります。

これを現実世界のロボットデータで説明するために、最も単純なセットアップの1つで成功率のデータを収集しました。このタスクでは同じサイコロを1つの容器から別の容器に移動します。この実験では、同じソフトウェアとMLモデルを使用して2台のロボットで約33,000のタスクトライアルを5か月以上実行し、過去2週間の全体的な成功率を比較対象基準としました。次に、この「非常によく制御された」環境で、時間の経過に伴う過去のパフォーマンスを測定しました。