TFT：解釈可能な時系列予測用ディープラーニング(2/2)

１．TFT：解釈可能な時系列予測用ディープラーニング(2/2)まとめ

・静的変数の最大の重みは店舗と商品、将来変数の最大の重みは広告期間と国民の祝日
・TFTはハードコーディングなしに持続的な時間的パターンを学習する事が出来ていた
・TFTは不安定度合に応じてattentionの対象を変更する事ができていた

以下、ai.googleblog.comより「Interpretable Deep Learning for Time Series Forecasting」の意訳です。元記事は2021年12月13日、O. ArikさんとTomas Pfisterさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Jon Tyson on Unsplash

TFTを、反復手法(DeepAR、DeepSSM、ConvTransなど)や直接手法(LSTM Seq2Seq、MQRNNなど)を使用したさまざまな深層学習モデルや、伝統的なARIMA、ETS、TRMFと比較しました。

以下は、比較したモデルの一部です。

TFTと比較モデルのP50分位損失(低い方が良い)

上の表に示したように、TFTは、さまざまなデータセットで全ての比較対象モデルを上回っています。これは、ポイント予測と不確実性見積もりの両方に当てはまり、TFTは、２位のモデルと比較して、それぞれ平均7％低いP50と9％低いP90損失をもたらします。

TFTの設計により、3つの使用例で解釈可能性を高めるために、個々のコンポーネントの分析がどのように可能になるかを示します。

モデルの重みを観察することで、さまざまな変数が小売業の売上高にどのように影響するかを観察できます。たとえば、静的変数の最大の重みは特定の店舗と商品でしたが、将来変数の最大の重みはプロモーション期間と国民の祝日でした(以下を参照)。

小売業データセットにおける変数の重要度。変数選択の重みの10%、50%、90%が示されており、0.1より大きい値は太い紫色で表示されています。

持続的な時間的パターンを可視化することは、与えられたデータセットに存在する時間依存の関係を理解するのに役立ちます。

私たちは、様々な時間軸で、過去の予測において一定のズレ(lags)で特徴の寄与度を測定することにより、同様の持続的なパターンを特定した。以下に示すように、attentionの重みは、TFTがその決定の基礎とする最も重要な過去の時間ステップを明らかにします。

トラフィック・データセット(𝛕は予測時点を表す)の10%、50%、90%分位レベルの持続的な時間的パターン。ピークの間隔が24時間程度であることから、明確な周期性が観察されます。すなわち、モデルは過去数日間の同じ時間帯の時間ステップに最も注意を払い、これは予想される毎日の交通パターンに一致します。

これは、TFTがハードコーディングなしに持続的な時間的パターンを学習していることを示しています。

このような能力は、モデルの出力が、人間が予想する既知のパターンとして納得できるため、ユーザーとのモデルの間に信頼関係を築くのに役立つます。また、モデル開発者は、特定の特徴エンジニアリングやデータ収集などによるモデルの改良にも利用できます。

重要なイベントによって一時的にトレンドが転換することがあるため、急激な変化を識別することは有用です。TFTでは、各ポイントのattentionパターンと平均パターンとの距離から、重要な乖離を特定することができます。

下図は、TFTがイベントごとにattentionを変えることができることを示しています。不安定度合(volatility)が低いときには過去のインプットに均等に注目し、不安定度合が高いときには急激なトレンドの変化により注意を払います。

2002年から2014年までのS&P500株価指数の実際の不安定度合とイベント識別

上図では不安定度合が高い時期には、注意パターンの大きなずれが観察され、これは注意パターンとの距離であるdist(t)のピークに対応します。(赤線)。紫色区間を重要なイベントを示すための閾値の目印に使用しています。

2008年の金融危機の前後に注目すると、下図は、上図の通常のイベント(低不安定度合の期間では注意が等しい)と比較して、重要なイベント(急激なトレンド変化に対応して注意が明らかに高まる)の中盤にズームインしています。

S&P500の実際の変動とイベント識別、2004年と2005年の期間の拡大

S&P500の実際の変動とイベント識別、2008年と2009年の期間の拡大(訳注：2008年9月がリーマンショック)

TFTは、小売企業や物流企業の需要予測に活用され、予測精度の向上と解釈のしやすさを両立させています。

さらに、TFTは気候関連の課題にも応用できる可能性があります。例えば、電力供給と需要のリアルタイムバランスを取ることで温室効果ガス排出を削減したり、降雨予測結果の精度と解釈可能性を向上させることができます。

私たちは、高性能なマルチホライズン予測のための新しいattentionベースモデルを発表しました。TFTは、様々なデータセットにおける性能の向上に加え、固有の解釈可能性のための特別なコンポーネント、すなわち変数選択ネットワークと解釈可能なマルチヘッドattentionを含んでいます。

また、3つの解釈可能な使用例を用いて、これらのコンポーネントが特徴の重要性と時間的変遷に関する洞察を抽出するためにどのように使用できるかを示しました。

Bryan Lim, Nicolas Loeff, Minho Jin, Yaguang Li, Andrew Mooreの貢献に感謝します。