人工智能

哈登vs字母哥,看AI怎樣預測今年NBA最有價值球員!

廣告
廣告

想必籃球愛好者們都非常關注今年的NBA季后賽,MVP的獎項投票結果尚未出爐,但估計各家球迷們心中各有定論了。所以我們來用機器學習預測一下今年MVP獎項的結果。

哈登vs字母哥,看AI怎樣預測今年NBA最有價值球員!

哈登(James Harden)和字母哥(Giannis Antetokounmpo)

收集數據

我找到了1968-69賽季每個賽季的籃球參考數據,但是我只使用了1980-81賽季的數據,這是第一個媒體投票的賽季,在此之前是由球員投票的。下面是2015-16賽季數據的一個例子。

這是第一個也是迄今為止唯一一個被一致投票選為MVP的球員案例(每個投票者都給了他第一名投票)。

除了上表中的數據外,我還搜索了一些不可用的數據的配置文件。例如BPM、PER、TS%在后面的部分中的更多信息。

但我建議您不要再次抓取它,因為數據已經被檢索,可以在我的 Basketball_Analytics/mvp_votings.csv at master · danchyy/Basketball_Analytics · GitHubNBA MVP votings through history | Kaggle中找到。

定義問題

有了這些數據,需要定義將要解決的問題。由于這是一項排名任務,所以沒有任何現成的算法可以解決這個問題。我將試著通過回歸問題來簡化這個問題。

我們任務的目標值將是上表中的Share列。這個數字總是在0到1之間,代表每個參與者在投票中贏得的點數。

由于數據結構的方式,我們基本上試圖模擬媒體如何投票給本賽季的球員。 當然,回歸對于解決這樣的問題非常有用,但這里的問題在于極不平衡的數據。在獎勵份額值的直方圖上,您可以看到超過一半的示例介于0.0和0.2之間,這可能會導致模型出現問題。

哈登vs字母哥,看AI怎樣預測今年NBA最有價值球員!

功能和特征選擇

在開始訓練和驗證模型之前,來解釋一下這些簡單的功能選擇過程。

pts_per_g、ast_per_g、trb_per_g、stl_per_g、blk_per_g是簡單的統計數據。每場比賽得分、助攻、籃板、搶斷和蓋帽。mp_per_g代表每場比賽的分鐘數,win_pct代表球隊的勝率(一個賽季有82場比賽,所以這個值代表games_won除以games_total)。

Fga、fg3a、fta是投球數,嘗試投中三分球和罰球,fg_pct、fg3_pct、ft_pct代表投籃命中率、三分球命中率和罰球命中率。

現在我們來看一些高級統計數據。

PER代表玩家效率等級,基本上是所有正面和負面簡單統計數據的計算。

BPM代表Box Plus Minus,是評估球員質量和對球隊貢獻的高級統計數據。與PER相比,它需要更多基于團隊的統計數據。

TS_PCT是True Shooting Percentage,代表投籃命中率。計算方法相當簡單(實際上包含在上面的統計數據中)。這是公式:

PTS /(2 *(FGA + 0.44 * FTA))* 100

USG_PCT是使用百分比的縮寫,是球員在球場上使用的球隊比賽的估計值。以下是計算。

最后,WS和WS_per_48代表貢獻率和每48分鐘的貢獻率。該統計數據試圖將團隊成功劃分給團隊成員。

特征選擇

目前我們所談到的統計數據看起來非常相似,,因此我們繼續進行幾個特征選擇過程,以避免出現問題。

第一個是使用互信息找出變量之間的關系,這是通過使用sklearn的特征選擇包完成的。

ws:0.2884 
per:0.2811 
ws_per_48:0.2592 
bpm:0.2013 
pts_per_g:0.1482 
usg_pct:0.1053 
win_pct:0.0973 fta 
:0.0948 
ts_pct:
0.0872 fga:0.0871 
trb_per_g:0.0695 
mp_per_g:0.0668 
fg3a:0.0355 
ft_pct:0.0311 
ast_per_g:
0.0279 stl_per_g:0.0139 
fg_pct: 0.0089 
blk_per_g:0.0066 
fg3_pct:0.0000

然后使用隨機森林分類器,對隨機森林實例進行擬合,找出模型最重要的特征。

ws:0.3911 
win_pct:0.1326 
per:0.0938 
bpm:0.0537 
ws_per_48:0.0428 
fga:0.0368 
usg_pct:0.0310 
ft_pct:0.0263 
ast_per_g:
0.0253 mp_per_g:
0.0251 fg_pct:0.0231 
fta:0.0213 
pts_per_g:
0.0183 fg3_pct:0.0159 
ts_pct:0.0155 
trb_per_g:
0.0153 blk_per_g: 0.0118 
stl_per_g:0.0103 
fg3a:0.0101

最后,我們看得到了特征之間的相關性矩陣。這幫助非常大,因為能夠可視化那些功能非常相似,從而帶來重復的信息。在某些情況下這些信息對模型沒有幫助。

哈登vs字母哥,看AI怎樣預測今年NBA最有價值球員!

在上一個圖像,您可以查看數據集中所有要素之間的相關性。之后,刪除那些高度相關的或基本上代表同一事物的特征,或者可以通過一些標量乘法來表示。

通過上面描述的幾個描述的程序和統計定義,將這些特征減少到以下最終特征:

ts_pct 
bpm 
mp_per_g 
pts_per_g 
trb_per_g 
ast_per_g 
stl_per_g 
blk_per_g 
ws 
win_pct

雖然它們之間仍然存在一些相關性,但我們還是使用這些功能,因為它們可能是最合適的。我試著用所有的特性來運行實驗,結果導致速度非常慢,結果也更糟,這意味著特性選擇是有意義的。

訓練和驗證

通過使用所有賽季的數據來實現交叉驗證,以這種方式訓練每個模型并平均每個賽季的結果。

我們使用的指標是回歸的均值誤差,以得到媒體投票的準確表述。同時我們也對結果進行了排序并測量了排名的準確性,將其用作輔助指標。

對于回歸,我使用了以下模型:

  • 線性回歸
  • 嶺回歸
  • 梯度增加回歸量
  • 隨機森林回歸量
  • SVR

我用上面描述的方法用正則和多項式特征(多項式2次和3次)進行實驗。在訓練過程中,我對0和1之間的數據進行了實驗,沒有縮放數據,結果并沒有太大的差異。

通過梯度增強回歸器得到了最佳的結果,該模型保持了前6位(有些模型具有不同的參數或不同程度的多項式)。

完整的結果可以在我的GitHub存儲庫中看到,它們被放在三個名為reg_results_mse_ordered的文件中。txt, reg_results_sorted_top_1。txt和reg_results_sorted_top_5.txt。

預測2018-2019賽季

最后,這是本賽季的預測。首先展示幾個回歸模型的結果,這些模型在所有驗證分割中具有最佳的均方誤差。

梯度增加回歸量

該模型具有50個估計量和0.1個學習率,具有二次多項式特征。

哈登vs字母哥,看AI怎樣預測今年NBA最有價值球員!

梯度增強回歸變量的其他變化也有類似的結果,其中以哈登為首位。此外,markdown pdf轉換器非常笨拙,而且會將字母分隔開來(我用markdown創建了一個表,并將其轉換為pdf)。

隨機森林回歸量

該模型具有50個估計量,僅具有交互的第三度多項式特征。

哈登vs字母哥,看AI怎樣預測今年NBA最有價值球員!

但是對于一些不同的參數,如100個估計量和只有交互作用的多項式特征的二階,結果會有所不同。

哈登vs字母哥,看AI怎樣預測今年NBA最有價值球員!

Ridge

Ridge是一個正則化的線性回歸。值為10且多項式特征為2次的最佳結果。

哈登vs字母哥,看AI怎樣預測今年NBA最有價值球員!

線性回歸

現在們也使用了正態線性回歸,MSE對這個模型非常有用,結果也卻相當有趣。

哈登vs字母哥,看AI怎樣預測今年NBA最有價值球員!

由于沒有正則化,模型可能對一些特征進行了過度擬合,得到了這些結果。這是鮑威爾和喬丹唯一一次進入前五名,所以他們被排除在了下一節的圖表之外。

支持向量回歸

這是支持向量機的變體,用于回歸。 以下是C = 100和γ= 0.001的模型結果。

哈登vs字母哥,看AI怎樣預測今年NBA最有價值球員!

此外,由于所有模型都是回歸模型,它們當然可以超過值,并超過最大值1.0。即使這并不理想,但由于我們最重要知道的是排名,所以就暫且忽略這一點吧。

2018-19賽季預測

在下圖中,您可以根據按MSE指標排序的前50個模型查看前10名球員中每個人的平均得分。

哈登vs字母哥,看AI怎樣預測今年NBA最有價值球員!

哈登和字母哥非常接近,但哈登略占優勢。約基奇保持第三的位置。其他人的分數都相對類似,實際上會比這要小得多。

結論

通過本文,我們預測出NBA 2018-2019賽季MVP得主是哈登!但是字母哥也有令人驚艷的表現,媒體很有可能會更偏向于他。

我還沒有學會寫個人說明!

為什么說BAT也容不下甲骨文員工?

上一篇

滴滴 NewSQL 演進之 Fusion 實踐

下一篇

你也可能喜歡

哈登vs字母哥,看AI怎樣預測今年NBA最有價值球員!

長按儲存圖像,分享給朋友

ITPUB 每周精要將以郵件的形式發放至您的郵箱


微信掃一掃

微信掃一掃
双色球常规走势图 哪里有成人日本黄色片 考mba要多少钱 3d开机号 吉利汽车股票代码 福建十一选五 微信网配资 股票配资论坛找象泰配资首推GO 巧牛配资 蜂窝配资 上海时时彩 海通证券股票行情 吉林快3