[競馬投資工学ラボ] AI予想モデルの真価を問う:期待値を追う「買い目特定」プロセス
競馬は、ロマンだけでなく、データとロジックで戦う「投資」の側面も持ち合わせています。当ラボでは、Pythonを用いた機械学習モデルを駆使し、長期的にプラス収支を達成するための「期待値」に基づいた投資戦略を研究しています。
今回は、私たちが現在運用している予想モデルの評価方法と、そこから具体的な「買い目」(投資対象馬)をどのように特定していくか、そのプロセスを詳細に公開します。AIは単に「当てる」だけでなく、「勝つ」ための強力なツールであることを実感していただけるはずです。
1. 予想モデルの構築と評価プロセス
当ラボでは、モデルの精度を維持・向上させるため、厳格な学習・検証・評価のサイクルを回しています。そのプロセスは以下の通りです。
- 学習データ: 2005年から2021年までの過去データを学習に使用。
- 検証データ: 2022年から2023年を検証データとし、モデルのハイパーパラメータ調整や過学習のチェックを行います。
- モデル評価: その後、2024年以降のデータを使用して、モデルの真の実力を評価します。
- 再学習と運用: 評価結果に問題がなければ、最終的に直近15年間のデータで学習し直し、実際の予想に利用します。

2. モデルの多角的な分析方法
モデルの性能を評価するために、私たちは以下の3つの軸を組み合わせて分析を行います。
- AI予想スコア: AIが予測した、その馬の勝率や好走確率を数値化したもの。
- オッズ帯: 実際の市場での人気(単勝オッズ)。
- 予想配当期待値: AI予想スコアとオッズから計算される、投資に対する見返りの期待値。
単勝50倍以下にフォーカスした分析結果(2024年以降)
例えば、極端な大穴を除くために「単勝オッズ50倍以下」の馬だけにフィルタをかけ、2024年以降のデータでモデル評価を行った結果が下記になります。
① AIスコアとオッズ帯別の頭数分布

このヒートマップを見ると、オッズが低い(人気がある)ほどAIスコアが高い馬が多く、オッズが高い(人気がない)ほどその逆であることがわかります。これは、競馬ファンの総意である「人気」と、AIの予測がある程度リンクしていることを証明しており、モデルが常識からかけ離れていないことがわかります。
② AIスコアと予想配当期待値別の頭数分布

当然のことですが、期待値が高くなるほど該当する頭数は減ります。また、AIスコアが高い馬は人気になりやすく、期待値は低くなりがちです。高スコアでかつ高期待値の馬は、非常に稀少であることがわかります。
③ 単勝勝率の分布

AI予想スコアが高いほど、基本的には勝率が高くなっていることがわかります。期待値を追うとしても、最低限の勝率は必要です。ただし、頭数が極端に少ないエリア(ヒートマップの端など)の数字は、母数が少ないため信用しないほうが賢明です。
④ 単勝回収率の分布



ヒートマップと折れ線グラフを併せて見ると、予想期待値が高いほど、基本的には回収率が上がっていることがわかります。特に折れ線グラフで、高い期待値(例えば1.3や1.5)を設定した場合に、赤い破線(回収率100%)を安定して超えていることが確認できます。これを見ても、私たちのモデルがそれなりに正しい期待値を算出できていることがわかります。
3. 「買い目特定」のシミュレーションと信頼性評価
ここからが競馬投資工学ラボの真骨頂です。上記のデータ分析に基づき、どのAIスコア、オッズ帯、期待値の組み合わせを「買うべき買い目」として特定していくかを分析します。
シナリオA:高スコア・高期待値の罠
例えば、単勝50倍以下の馬であれば、以下のような条件を設定してみます。
- 条件: 単勝50倍以下、AIスコア >= 0.8、予想期待値 >= 1.2(120%)
- 結果: 回収率は 118.8%
一見、魅力的な数字に見えますが、データを詳細に見ると問題点が浮き彫りになります。
- 該当馬: 108頭
- 勝率: 8.8%
該当馬が非常に少ないことがわかります。ここから計算すると、大体9頭が勝っていることになります。しかし、もしこの条件で、たまたま50倍近くの大穴馬を2回当てると、回収率はほぼ100%に近くなってしまいます。つまり、データの母数が少なすぎて、この結果がAIの精度によるものか、単なる運によるものか区別がつきません。したがって、この条件は投資対象としては信頼性が低いと判断します。
シナリオB:中スコア・中期待値の信頼性
では、条件を少し変えてみましょう。
- 条件: 単勝50倍以下、AIスコア >= 0.25、予想期待値 >= 1.5(150%)
- 結果: 回収率は 124.4%
シナリオAよりも回収率は向上しています。データの信頼性はどうでしょうか。
- 該当馬: 300頭
- 勝率: 6.7%
先ほどよりも該当馬が大幅に増えました。計算すると大体20頭が勝っていることになります。シナリオAと比較して母数が多いため、この結果は運に左右されにくく、データ的には信頼できそうと判断できます。
読者への問いかけ:あなたならどうする?
では、以下の条件ではどうでしょうか?
- 条件: 単勝50倍以下、AIスコア >= 0.35、予想期待値 >= 1.3(130%)
ヒートマップを見て、該当頭数、勝率、回収率を確認してみてください。データの母数は十分か? 期待値と勝率のバランスは取れているか? ぜひ、皆さんも自分なりの基準でデータを分析し、信頼できる「買い目」を見つけてみてください。これが競馬投資の醍醐味です。
4. 自動投票システムへの実装と資金管理
こうして分析を繰り返し、信頼できると判断したオッズ帯、AIスコア、期待値の組み合わせを複数特定します。そして、特定した条件を自動投票システムに組み込みます。
システムは、直前オッズに基づいてリアルタイムに期待値を再計算し、設定した条件に完全に一致する馬に対してのみ自動的に投票を行います。さらに、一致した条件の期待値や信頼度に応じて、投票金額を多少変動させるなど、資金管理(マネーマネジメント)も同時に行っています。
5. 結論と競馬投資の現実
競馬投資工学ラボが目指すのは、期待値を追うことによる、長期的かつ安定的なプラス収支です。期待値を追うと、基本的には「穴狙い」の戦略になるため、必然的に勝率は下がります(シナリオBの勝率は6.7%です)。
「当てる」ことの楽しさ(高い勝率)を追い求めると、期待値を犠牲にすることになり、長期的にはマイナス収支になりがちです。一方で、「勝つ」こと(高い期待値)を追い求めると、的中率の低さに耐えなければなりません。
私たちは、この現実を受け入れ、データとロジックを信じ、長期的な視点で投資を続けていきます。AIは魔法の杖ではありませんが、感情を排除し、データに基づいて客観的な判断を下すための最良のパートナーです。






ディスカッション
コメント一覧
まだ、コメントがありません