クラスター分析であって、クラスター感染ではありませんのでご安心下さい。

チームスタイル指標を使ってもう少し遊んでみようかと思います。

Football LABさんのデータの中には下表の通りチームスタイル指標ごとの指数が掲載されています。指数一覧という項目で、ここに(https://www.football-lab.jp/summary/team_style/j1/?year=2020)、掲載されています。指数とは偏差値のことで、実数ではありません。攻撃回数を指数(偏差値)化していますので、同じ指数でも同じ回数攻撃しているわけではありません。平均からどれだけ離れているかという指標になります。よってこのまま分析するのもどうかとは思いますが、筆者は実数データを持っているわけではないため、指数のまま分析してみます。

上記数値をクラスター分析します。クラスター分析に関してはググって下さい。なお計算はソフトが自動でやってくれるため簡単です。

結果を樹形図にすると下記の通りになります。札幌と大分は3回戦からのスーパーシードというわけではありません。

4つのクラスターに分類すると上図赤線でクラスが分かれます。上図で見ると、一番左の山の高さと一番右の山の高さに差があるように見えますが、素人的には、まあ、この4クラスターでいいでしょう。下記の表の通り、18チームが4~5チームに分けられました。

この4つのクラスターに分けて、攻撃の種類ごとにクラスターの重心を計算すると下表の通りになります。

オレンジ色のセルが60以上、黄色のセルが55~60です。クラスター1はロングカウンター、自陣ポゼッション以外全て数値が高いです。オレンジ色、黄色が連発です。特に攻撃セットプレー、左サイド攻撃、敵陣ポゼッションの数値が高いです。攻撃が上手くいっているのでしょう。チーム構成は川崎F、鹿島、横浜FM、広島、神戸です。たしかに攻撃力が高いです。ロングカウンターのイメージもありません。

クラスター3は自陣ポゼッションの数値が高いのが特徴です。チーム構成はC大阪、大分、横浜FC、鳥栖です。自陣ポゼッション攻撃というか、ボールを敵陣まで上手く運べないから自陣ポゼッションになってしまっているような気がします。他の攻撃の数値も低いです。

クラスター4はロングカウンターの数値が高いのが特徴的です。中央攻撃とショートカウンターの数値も比較的高いです。チーム構成はFC東京、浦和、柏、札幌です。何か思い当たる節があります。

クラスター2には高い数値はありません。唯一50を超えているのは右サイド攻撃のみです。チーム構成はG大阪、名古屋、湘南、清水、仙台です。やはり攻撃回数が少ないチームのような気がします。

攻撃ごとに分散分析をすると上表の通りになります。全て1%水準、5%水準で有意差が認められました。クラスターによって攻撃の数値に差があることが分かります。得手不得手が存在することが分かります。

次はクラスターごとに平均勝点を計算しました。結果は下表の通りです。

平均勝点が最も高いのはクラスター1です。攻撃力が最も高いクラスターです。わかりやすい結果です。次はクラスター4で、ロングカウンターが特徴のクラスターです。3番目はクラスター3で、自陣ポゼッションが特徴のクラスターです。4最下位はクラスター2でした。

差があるのかないのか。このまま見れば差はあります。でも一応分散分析もやってみましょう。結果は下記の通りです。

P値は0.26でした。有意差なしということになりました。データの個数が少ないことが原因だと思います。例えばクラスター1から川崎Fを抜くと平均勝点がクラスター4とほぼ同じになります。1つのデータが結果に寄与する割合が多いことから、この程度の勝点差では有意差が出ないのでしょう。攻撃種類ごとには明確な差が出るのに、勝点のところまで行くと有意差が出ないということは、非常に興味深いことでもあります。サッカーは攻撃だけではなく守備もありますから、守備も計算対象に入れないと最終結果との整合性が上手く取れないのでしょう。攻撃指標の一面だけでは勝点を推し量るのは難しいということです。現在のデータ分析だけでは表すことが出来ないサッカーの奥深さを感じます。


いつものことながらFootball LAB(https://www.football-lab.jp/)さんからデータを拝借しました。チームスタイル指標(https://www.football-lab.jp/pages/team_style/)はURLから確認して下さい。



・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・


追記です。

上段でクラスターごとの平均勝点で分散分析をしました。しかしチームスタイル指標は攻撃の指標のため、クラスターごとの平均得点で分散分析をすることにしました。クラスターごとの平均得点は下表の通りです。

これを分散分析した結果が下記の通りです。

黄色のセル、P値が0.005となり1%水準で有意差が出ました。クラスターごとに得点数が有意に違うということになります。平均得点が少ないクラスター2,3は樹形図の通り最初に分岐されます。分散分析の結果を見ると、クラスターを4つに分けるよりも3つに分けた方が適切だったのかもしれません。分散がかなり小さくなっていますね。分散の小ささが大きく影響しています。

上記のチームスタイル指標は得点との因果関係が強いと思われます。