STEP 1:データ収集とクリーニング

クオンツ構築

― 最初に行う最も重要な下準備 ―

クオンツ戦略を構築する際、最も基本でありながら戦略の“根幹”を支えるのがこのSTEP 1、「データの収集とクリーニング」です。

華やかなバックテストや機械学習モデルの影に隠れがちですが、どれだけロジックが優れていても、データが歪んでいれば戦略は破綻します。
逆に言えば、正しく整ったデータを扱えることこそが、クオンツ運用の信頼性と実行力の土台となるのです。


1. 収集すべきデータの種類と用途

仮説の種類に応じて、以下のようなデータが必要となります:

データカテゴリ目的
価格データ(先物・現物)日経225先物、TOPIX、個別株、FX基礎的なリターン・スプレッドの算出
テクニカル指標移動平均、RSI、MACDなど市場の勢いや過熱感の測定
ファンダメンタルPER、PBR、ROE、業績情報企業の評価水準・成長性を反映
相対指標指数間スプレッド、セクター比率相対パフォーマンスの判断材料
外部環境米株指数、ドル円、金利、VIX、GDP外部ショックや国際的な影響評価
時間情報曜日、月末、SQ日、祝日、仲値時間時間的歪み(時間帯アノマリー)検出

2. 実務で使われるデータ量(期間・粒度別)

実際のクオンツ分析で使用されるデータ量は、モデルタイプやターゲット時間軸に応じて次のように決まっています。

日次モデル(1日リターン、週間リターンなど)

要素内容
推奨データ期間3〜5年約750〜1250営業日
必要な本数750本(最小)〜1500本(推奨)
理由季節性・イベントサイクル(決算、年度)を含む複数サイクルを検証可能にするため

5分足モデル(寄付き〜前場引け戦略、短期デイトレなど)

要素内容
推奨データ期間1〜2年分以上約50,000〜100,000本
内訳1営業日あたり 75本(5分足) × 約250営業日 ≒ 約18,750本/年
最低ライン2万本以上が実務目安(短期戦略でも統計的信頼性を確保)

1分足モデル(超短期アルゴ、HFT寄り)

要素内容
推奨データ期間6か月〜1年10万本〜30万本以上
注意点処理負荷・外れ値・ノイズの多さによりクレンジングの重要性が跳ね上がる

3. データソースと実務での注意点

用途実務的なデータソース
株価・先物Bloomberg、QUICK、楽天RSS、JPX CSV、TradingView API
FX・海外指数OANDA、Investing.com、Refinitiv、FRED、Yahoo Finance
経済イベントBloomberg、Investing.com、日本取引所、時事通信

重要:異なるソースを混ぜる場合、時間軸(時差・整合性)の確認が必須です。


4. クリーニングでやるべきこと

必須処理

  • 欠損補完、0除外、スケーリングの統一(変化率など)
  • 市場休場・祝日・半日取引の削除
  • 株式分割や先物ロールオーバーの補正

時系列モデル固有の処理

  • 時間の「ずれ」補正(NY時間→JST、夏時間調整)
  • 異常値検出:異常変動の±5σ超などを事前フラグ
  • ターゲットと特徴量のラグ処理(未来データ混入防止)

まとめ

プロの世界では、「データが8割、ロジックは2割」と言われるほど、データ構築の精度が戦略の土台を決定します。
特に短期足や高頻度モデルでは、本数が足りないだけで再現性・信頼性が致命的に落ちるため、必要本数を満たしたうえでクリーニングのロジックまでコード化されていることが前提です。

次のSTEPでは、このデータをもとに「どのような特徴量を設計するべきか?」を見ていきましょう。

実例:練習仮説に基づいたデータ収集と整備

ここで、STEP0で立てた練習仮説「日本市場は朝イチに外国人投資家の影響を強く受ける」に基づいて、実際にどのようなデータを整備したのかをご紹介します。

仮説概要(おさらい)

  • 外国人投資家の売買行動は米国株(ダウ・ナスダック・S&P500)や為替(ドル円)に強く影響を受ける
  • それらは翌日の日本市場(特に朝の寄付き〜9:45)に反映されやすい
  • 仲値決定(9:55)前までは“海外主導”の価格形成が起こりやすい

この仮説をもとに、必要な変数と時間整合性を意識しながらデータを集めていきました。


実際に整備したデータ

データ分類内容
日本市場ミニ日経225先物(夜間終値)
ミニ日経225先物(8:45〜9:45の1時間足)
米国株指数ダウ、ナスダック、S&P500(前営業日終値)
外部環境VIX、WTI原油、金価格、USDJPY(為替)
債券利回り米10年・5年・2年金利
合成指標ダウ×ドル円、ナスダック×ドル円、S&P500×ドル円(海外影響の強弱を見るため)

データ整備で注意した点

  • 米国市場のデータは「1営業日遅れ」で整合(米国終値 → 翌日の日本市場へ影響)
  • すべてのデータで欠損値ゼロ、空白ゼロを確認済み(NaN処理不要)
  • タイムスタンプは全データを日本時間で統一し、営業日ベースで揃えて構築
  • 計算のしやすさを考慮し、終値・始値・変化率を分離して保持

ポイント

このように「仮説→必要な要因→正しい取得と整形」までを一貫して行うことで、
後の特徴量設計・モデル構築の質が一気に高まります。

仮説を裏付けるデータを正しく準備することが、すべての分析の出発点であることを実感できる工程です。


次は、いよいよこのデータをもとに「どの変数を“効きそうなファクター”に加工するか?」というSTEP2:特徴量の設計に進んでいきます。お楽しみに!

タイトルとURLをコピーしました