前回までで私が分析対象とするデータについて説明ができましたので、今回から実際にデータを見ていきたいと思います。
前回の投稿で少し触れましたが、しばらくの間「性別」について見ていきたいと思います。
まずは単勝人気を絞らずに全馬を対象にした場合、牡馬(ぼば)、牝馬(ひんば)、騸馬(せんば)ごとの成績は以下の通りになります。
なお、いずれも対象は2015年2月~2020年1月の障害を除く全レースです。
①性別成績(全馬を対象)
このように全馬を対象に集計すると、単勝も複勝も牝馬の回収率が著しく悪い結果になります。
データ数もそれぞれ10万件レベルですから疑う余地はなさそうです。
私も競馬を始めた頃から聞いていましたが、牡馬は牝馬よりも成績が良いというのが実証されたように見えます。
しかし、これを単勝2~8番人気に絞ったらどうなるでしょうか?
(なぜこの人気順で絞っているかをご存じないのであれば、ぜひ一度この記事をご覧ください)
結果は以下の通りです。
②性別成績(単勝2~8番人気に限定)
ご覧の通り、確かに牡馬の方が成績は良いですが、牝馬もそこそこ巻き返しており、差は大きく縮まっています。
全馬の時に牝馬の成績が著しく悪かったのは、前回述べた通りやはり下位人気の馬が大きく影響を与えてしまったものと思います。
よって、このように人気上位に絞ると期待値である80%と比べて大きな差がなくなりますので、「牡馬は牝馬より強い」という判断をしてしまうのは危険です。
分岐対象データを2番人気~8番人気に絞っている効果がおわかりいただけたでしょうか。
なお、私が高評価を与えるデータは「回収率が85%以上」の条件であり、逆に評価を下げるのが「回収率75%未満」ですので、この基準で見てもこの集計結果だけでは評価を与えることはできません。
では、性別で使えるデータはどんなデータなのか。
次回はそれを追究してみたいと思います。
【次の記事】