1.市場データとニュースを並べて時系列分析(2/2)まとめ
・時系列データをトレンドと季節性で補正した後、大きく外れたポイントを異常値とした
・市場全体と銘柄の相関を示すベータとR2乗を元に市場と証券の相関関係を分析
・ニュース記事もカテゴリに分ける事でニュースと市場の動きがより明確になる
2.異常検知と相関分析
以下、www.kdnuggets.comより「Market Data and News: A Time Series Analysis」の意訳です。元記事は2022年6月24日、Parsa Ghaffariさんによる投稿です。
アイキャッチ画像のクレジットはPhoto by Oren Elbaz on Unsplash
4. 異常検知
異常検知はあらゆる時系列データにおいて重要な側面です。
Appleのような大企業に関するニュース記事数は通常は比較的安定的です。基礎となる配信数が大きく変動すると、それは、決算発表や新製品のリリースといった現実の世界の重要な変化を反映している可能性があります。
私たちは、時系列データをトレンドと季節性で補正した後、四分位範囲外のポイントを検出することで、時系列データの異常を特定するシンプルで強力なアルゴリズムを実装しました。このアルゴリズムからの出力は、関心のある1つまたは複数の興味深い情報ソースです。
同様のアルゴリズムは、現在、Aylien社の顧客の一部で、その時間枠のニュースヘッドラインに関連すると思われる市場の興味深い動きについてトレーダーに通知することに関心を持つ人々によって使用されています。
例7. Apple Inc (AAPL)のニュース量、ニュースセンチメント、株価、取引量に適用した異常検知の例
各異常の重要度は、青(弱い)から赤(強い)までの色で表示されます。センチメントアノマリーについては、ポジティブなアノマリーを示すために緑色を、ネガティブなアノマリーを示すために赤色を使用しています。ニュース量とセンチメントの異常値の間には、いくつかの重複が見受けられます。さらに、時系列におけるポジティブなセンチメントの異常のいくつかは、取引量の異常が起こる前に起こっているようです。
5. 相関関係(ベータ、R2乗)
株価や取引量の動きを見るとき、それらの動きが独立して起こったのか、それとも市場と相関して起こったのかを理解することが重要です。
直感的には、ある証券が株式市場から独立して動くとき、あるいは株式市場の動きにあまり依存していないときに、ニュースとの相関がより顕著になると予想されるかもしれません。
この仮説を検討するために、よく知られた2つの財務指標を活用することができます。ベータとR2乗です。
ベータは、市場全体またはベンチマーク銘柄/インデックスに対する銘柄の分散またはボラティリティを測定する統計量です。理論的には、ベータ値の高い銘柄は、市場が上昇したときに卓越したパフォーマンスを発揮し、市場が下落したときに卓越したアンダーパフォーマンスを発揮します。
ある銘柄のベータを計算するには、その銘柄の変化とベンチマーク銘柄/インデックス(例:S&P500)の変化をプロットし、データに最もフィットする線形回帰線を見つけます。その直線の傾きがベータを表します。
R2乗は、ある証券のパフォーマンスが、選択したベンチマーク指数のパフォーマンスにどの程度帰することができるかを測定するものです。言い換えれば、R2乗は、資産の動きのうち、市場の動きによってどの程度説明できるかを判断することを目的としています。
例 8. Apple Inc (AAPL)のニュースボリューム/センチメント、S&PインデックスとテクノロジーセクターETF (XLK)に対するベータ値とR2乗の比較。
6. ニュースイベント
Aylien社のNews APIの強力な機能は、テーマ、イベント、業界に基づいて記事を分類する機能です。(この機能はSmart Taggerと呼ばれています)。Aylienは、特定のビジネスイベント(例:M&Aやアナリストのコメント)や産業(例:テクノロジーや製薬)に関連する言語的断片を特定する、非常に粒度の細かい分類法とNLPモデルを使用しています。
この機能を活用することで、例えば、ニュース量の時系列を主要なビジネスイベントの個別の時系列に分解することができます。
・新製品 – 新製品リリースに関するニュース
・大規模解雇 – 大規模解雇に関するニュース
・アナリストコメント – アナリストによる銘柄へのコメント、決算発表など
・株式 – 株式市場に関連する記事
・企業収益 – 企業の収益に関する発表
・M&A – M&Aイベントに関するニュース
・新規出店 – 消費者向けビジネスの新規出店情報
例9. Apple Inc (AAPL)のイベントタイプ別に分類されたニュース記事時系列
アップルの決算発表に関するニュース記事の量と頻度(四半期ごと)の一貫性、そしてアップルが新製品を発表した際に「新製品」とラベル付けされた記事が急増することに注目するとよいでしょう。
これまでのグラフをすべて合わせると、かなり豊富で包括的な時系列データを得ることができ、さらなる分析に役立てることができます。
まとめ
この記事では、市場データとニュースデータの関係を調べるための基本的な概念と高度な概念について検討し、より詳細な分析を行うために使用できるいくつかの構成要素を紹介しました。
市場データとニュースデータをどのように取得し、関心のある銘柄やETFについて整列させることができるかを示しました。時系列データおよび分析のためのいくつかの前処理を紹介しました。様々な時系列データ間の異常値を特定し、整合させるためのいくつかのテクニックについて説明しました。
ニュース時系列データをセンチメントやカテゴリーといったニュース記事のセマンティック特性によってどのように分解できるかを検討しました。
今後の課題
本研究の後に探求すべき興味深い方向性を以下に列挙します。
・多変量解析による異常値の検出
複数の時系列にまたがる異常値を検出し、複数の時系列にまたがって持続する小さな異常値を、ニュースと市場データの間で識別すること。
・時系列間の類似性検索
パターン認識を用いて、様々な時系列間の類似性を識別すること。
・時系列間の因果関係探索
ある時系列に含まれるシグナルが別の時系列の良い予測因子となり得るかどうかを特定するため、グレンジャー因果関係などの因果関係モデルを探索する事
・この作業を他の種類の証券(暗号資産やコモディティ商品など)や市場シグナル(マクロ経済指標など)にも拡大する。
3.市場データとニュースを並べて時系列分析(2/2)関連リンク
1)www.kdnuggets.com
Market Data and News: A Time Series Analysis
2)colab.research.google.com
Exploring relationships between news and market data using time series analysis
3)github.com
facebookresearch/Kats