![]() |
astvald utforskar statistiska modeller (NHL)
Jag har funderat av och till ett tag på att skriva ett datorprogram för att göra statistisk modellering av speldata, givetvis med förhoppning att kunna använda modeller för prediktion. De senaste dagarna gjorde jag slag i saken och har en betaversion för NHL (ishockey ger lagom många mål för att lämpa sig att modellera med Poissonprocesser och gamla data är lätt tillgängliga för NHL).
Jag har byggt en databas med matchdata för årets säsong och som en första enkel modell ser jag antalet mål hemma/borta för respektive lag som varsin Poissonprocess vars parameter jag skattar med data från redan spelade matcher. Det är välkänt att sådana modeller normalt underskattar antalet oavgjorda matcher, och det är också tydligt i mina första testkörningar. För tillfället kommer jag därför bara att visa uppskattade ML-odds. Planen är att så småningom utvidga modellen, antingen till att använda bivariata Poissonfördelningar eller med någon annan variant av korrelation. Här var mina ML-beräkningar för gårdagens matcher (2012-01-21). NJ-PHI 2.28/1.78 BOS-NYR 1.63/2.58 ANH-OTT 2.08/1.92 VAN-SJ 1.92/2.09 DET-CLS 1.22/5.53 NYI-CAR 1.80/2.25 TOR-MON 1.76/2.31 WPG-FLA 1.77/2.29 NSH-CHI 1.88/2.14 PHO-TB 1.50/3.02 STL-BUF 1.30/4.29 MIN-DAL 1.75/2.33 EDM-CGY 1.59/2.70 LA-COL 1.76/2.32 Observera att dessa är beräknade som "rättvisa" odds, i den meningen att de motsvarar en teoretisk återbetalning på 100%. För de flesta matcherna överensstämde mina beräkningar förvånansvärt väl med spelbolagens odds. Ett par stycken stack dock ut och jag testade att spela VAN-SJ @ 2.20 (beräknat 2.09) STL-BUF @1.42 (beräknat 1.30) EDM-CGY @2.05 (beräknat 1.59) LA-COL @2.45 (beräknat 2.32) Det enda matchen som verkligen stack ut var EDM-CAL, där jag hade Edmonton som klar favorit, medan den allmänna uppfattningen var CGY som liten favorit. (Resultat: STL och COL gick in, SJ och EDM gjorde inte det, för -0.13u) |
2012-01-22
Beräkningar för dagens matcher (2012-01-22) ger
PIT-WAS 1.58/2.73 PHI-BOS 1.64/2.55 ANH-COL 1.77/2.31 Den enda matchen som sticker ut är PHI-BOS, där mitt program har PHI som ganska klar favorit, medan bolagen håller BOS som knapp favorit. Jag följer givetvis mitt program, och sätter en slant på [email protected] (nordic bet).
|
Hur ska man utläsa vilken match som är värd att rygga? Nu ser man bara oddsen för bägge lagen men inte vem man ska lira såvida du inte har skrivit det som i t.ex. Philadelfia...markera gärna med fet stil vilket lag man bör rygga! :cheers:
|
Oddsen jag listade är mina simulerade odds. Om beräkningarna vore perfekta (vilket de naturligtvis inte är i närheten av att vara) så finns det värde i alla spel som ger bättre odds än de beräknade. Jag kommer själv inte att rygga programmet om jag inte hittar odds som är åtminstone 0.10 bättre än de beräknade. (Egentligen borde man nog sätta gränsen på 0.15 eller 0.20 tills alla parametrar är finjusterade.)
För PHI-BOS är det en klar rygg hursomhelst. Min modell ger ett odds på [email protected], men NB erbjuder 2.00, så vi har ett teoretiskt värde på +0.36u. |
Citat:
|
Intressant läsning! Ska bli spännande att följa.
|
Citat:
|
Citat:
|
Lite teori
Teorin bakom min (och många andra) statistiska modeller är att modellera t.ex. gjorda och insläppta mål som Poissonfördelade slumpvariabler. Poissonfördelningen passar bra för att beskriva händelser som är förhållandevis ovanliga, och som sker oberoende av varandra. Gjorda mål i många sporter (tex ishockey) uppfyller dessa antaganden åtminstone någorlunda väl. Däremot lämpar sig inte Poissonfördelningen så bra för att modellera (t.ex.) poäng i baseball -- det är mer sannolikt att få en andra poäng i en inning när man väl fått sin första.
Jag har knappt 700 matcher från årets NHL-spel i en databas. Vi roar oss med att låta X beteckna antalet gjorda mål för hemmalaget och Y antalet gjorda mål för bortalaget och antar vidare att X och Y är oberoende (se nedan!) Poissonfördelade slumpvariabler. Om vi anpassar X och Y till de 700 matcherna och bestämer parametrarna för X och Y med Maximum Likelihood-uppskattningar, finner vi att X är ungefär Poi(2.80) och Y är ungefär Poi(2.48). Dessa uppskattningar i sin tur skulle medföra att antalet gjorda mål för hemmalaget skulle fördela sig enligt: Kod:
Mål Modell Verkliga dataKod:
Mål Modell Verkliga dataKod:
H A: 0 1 2 3 4 5Sammanfattningsvis uppskattar den (oberoende) Poissonmodellen slutresultat enligt Kod:
1 322.6 [311]Alla ovanstående beräkningar är gjorda kollektivt för alla lag tillsammans, men kan kan förstås göra dem lag för lag också. Då blir osäkerheten förstås lite större, eftersom datamaterialet är mindre, men i det stora hela för man motsvarande överensstämmelse. |
Direkt kommer Alice Cooper in i huvudet! Intressant projekt, kommer följas!
|
Mycket intressant, gillar alltid när folk tar sig an statistik!
|
2012-01-23
Stolpe ut i går, då Philadelphia förlorade på straffar.
Dagens beräkningar ser ut så här: CAR-WPG 1.74/2.36 TOR-NYI 1.66/2.52 DET-STL 1.38/3.60 NSH-CLS 1.49/3.04 EDM-SJ 2.17/1.86 LA-OTT 2.17/1.86 och jag har hittat ett par matcher som jag ger ett försök
Modellen har Detroit som större favorit än vad som syns i spelbolagens odds, Edmonton som mindre dog och Ottawa som favorit i stället för dog. |
I natt blev det stolpe in i stället med EDM som vinnare på straffar. Dagens beräknade odds är
NYR-WPG 1.50/3.02 NYI-TOR 2.06/1.95 NJ-BUF 1.54/2.87 FLA-PHI 2.40/1.72 TB-CLS 1.57/2.77 STL-PIT 1.80/2.25 DAL-ANH 1.90/2.11 CGY-SJ 2.06/1.94 PHO-OTT 1.89/2.12 COL-MIN 1.84/2.19 VAN-EDM 1.48/3.07 WAS-BOS 2.44/1.69 CHI-NSH 1.67/2.49 Märkligt nog hittar jag inga ML-linor på WAS-BOS eller CHI-NSH. Jag har ingen aning varför (varken Pinnacle eller Unibet listar matcherna, Betson har trevägslinor, men inte ML). I dag överensstämmer mina beräkningar väldigt bra med Pinnacle. De enda som modellen ser lite värde i är
Min modell tycker uppenbarligen orimligt bra om Edmonton. Även om det verkar lite suspekt, så följer jag mina beräkningar. 3.79 ser trots allt ut som ett överodds, även om jag inte har så stora förhoppningar att den går in. [email protected] och [email protected] känns lite bättre. |
Uppenbarligen väntade Pinnacle på att jag skulle posta mina beräkningar för WAS-BOS och CHI-NSH :whistling: I alla fall stämmer de nästan på pricken med mina uppskattningar.
|
Dina beräkningar verkar funka bra. Du räddade nattens NHL-spel från ett totalt fiasko!
|
Kul att det hjälpte dig lite, Persa! Ruskigt nära att Edmonton skrällde också. Vancouver behövde fem straffar för att avgöra. De andra två gick i alla fall in om än Phillies behövde mer än 60 minuter. Bara en match i kväll och sedan några dagars uppehåll. Modellen har
MON-DET 1.80/2.26 vilket är i linje med Pinnacle. (Det går att få [email protected], men jag avstår denna.) Kul nog har jag hittat relativt lätttilgängliga historiska ML-odds som går flera år tillbaka i tiden. Planen är att plocka hem dessa och utvärdera min modell mot en hel säsong. Det tar nog ett par dagar, men jag räknar med att resultatet ska bli intressant. |
riktigt kul tråd, väntar med spänning på fortsättningen :)
|
Åter efter All Stars upphållet. Modellen ger
NJ-NYR 2.48/1.67 PHI-WPG 1.56/2.78 PIT-TOR 1.85/2.17 CAR-NYI 1.65/2.54 BOS-OTT 1.56/2.78 MON-BUF 1.41/3.45 TB-WAS 1.71/2.40 MIN-NSH 1.93/2.08 PHO-ANH 1.74/2.35 CGY-DET 1.70/2.43 EDM-COL 1.83/2.21 VAN-CHI 1.64/2.55 SJ-CLS 1.43/3.31 vilket indikerar värde för ovanligt många matcher, vilket oroar mig lite. Jag återkommer senare med resultaten av mina simuleringar mot data från förra säsongen.
Förutom dessa är [email protected] på håret att platsa också. Jag misstänker att modellen underskattar DET efter den stora förlusten senast, men låt gå. |
Uruselt utfall i natt. Toronto hade kunnat rädda den totala katastrofen men torskade på straffar. Nu blev det i stället -3.98u. Nattens matcher ser ut så här:
BUF-NYR 2.05/1.95 TOR-PIT 2.12/1.89 FLA-WAS 1.76/2.31 LA-CLS 1.42/3.37 DAL-ANH 1.67/2.50 I dag stämmer beräkningarna nästan på pricken med Pinnacles odds. Lite värde i [email protected], som får kvällens enda spel.
|
Intressant, kommer följas noggrant!
|
Ännu ett straffavgörande som gick fel väg...
Nattens matcher ser ut så här: NJ-MON 2.05/1.95 PHI-NSH 2.03/1.97 BOS-CAR 1.42/3.39 TB-WPG 1.59/2.71 COL-MIN 1.91/2.10 EDM-CHI 1.79/2.27 VAN-DET 1.61/2.64 SJ-DAL 1.65/2.53 Ganska stora skillnader mot pinncle. Min modell har MON och NSH som (pyttesmå) favoriter, pinncacle tvärtom. Modellen håller TB som större favorit och COL som mindre favorit än bookiesarna men jag tycker inte att skillnaden är tillräckligt stor för att testa MIN. Min modell älskar EDM, och i natt är inget undantag. Litet överodds även på VAN enligt beräkningarna. Jag har svårt att tro att linorna är så fel ute -- det är snarare min modell som är ute och cyklar -- men i vetenskapens namn testar jag ändå
(Dessutom är alltså [email protected] och [email protected] borderline.) |
Och återigen ett straffavgörande som går åt fel håll. En liten tröst att EDM faktiskt gick in, och det med mycket god mariginal. Men totalt sett ännu en minusnatt.
Kvällens matcher ser ut så här: OTT-NYI 1.82/2.22 FLA-WPG 1.63/2.60 STL-LA 1.62/2.63 CGY-CHI 1.79/2.27 ANH-CLS 1.78/2.29 Pinnacle bjuder på ett litet överodds på [email protected] och håller inte alls med om värderingen på CGY-CHI där min modell av någon anledning håller CGY som favorit. Pinnacle ger [email protected]. Även i ANH-CLS har vi stora skillnader där Pinnacle sätter [email protected]. Jag testar således
|
Äntligen lite medflyt. Alla tre matcherna i natt satt, två efter förlängning. Särskilt skönt att få in [email protected]! Totalt +4.50u och nästan tillbaka på plus/minus 0 sedan experimentets början. Det verkar dock helt klart att min modell inte är överens med bookiesarna när det gäller ojämna matcher. Min modell ger klart jämnare resultat i sådana matcher vilket resulterar i överodds för dogsen. (Nästan inga av de spel modellen funnit värde i ligger på favoriten.) Detta talar för att modellen behöver finjusteras, vilket jag i och för sig har varit fullt medveten om. Den sedan länge utlovade utvärderingen mot historiska data är på gång.
Nattens matcher: BOS-PIT 1.73/2.37 PHI-NJ 1.70/2.44 MON-WAS 1.62/2.62 COL-VAN 2.54/1.65 TB-FLA 1.83/2.21 OTT-TOR 2.10/1.91 NYI-BUF 1.67/2.50 CAR-LA 2.04/1.96 DAL-MIN 1.83/2.20 PHO-SJ 2.23/1.81 NSH-STL 1.71/2.41 EDM-DET 1.67/2.49 Enda matchen som verkligen sticker ut är EDM-DET (Ingen överraskning, eftersom modellen älskar Edmonton. Jag måste kolla så att det inte finns några fel i databasen. Det känns orimligt att ett lag ständigt sticker ut så mycket.) Dessutom (pyttelite) värde i [email protected] och [email protected].
|
Skön comeback där! :)
|
Ja, nu börjar det likna något. Tillbaka på gröna siffror totalt sett.
Nattens matcher: WAS-BOS 2.34/1.74 NJ-PIT 2.26/1.79 NYR-PHI 1.79/2.27 MON-WPG 1.58/2.72 Ganska likt Pinnacles uppfattning. Lite värde i [email protected] och [email protected], vilket blir kvällens spel:
|
Bara tre matcher i kväll:
TOR-EDM 1.64/2.56 PHO-DET 1.87/2.15 ANH-CGY 1.87/2.15 För en gångs skull håller min modell med om oddset för Edmonton. Jag tror faktiskt att det är första gången. Den enda match som skiljer lite är PHO-DET där jag har PHO som liten favorit, medan Pinnacle tycker tvärtom. Det blir alltså en match spelad:
|
Tar din modell bara hänsyn till antalet gjorda mål?
Kollar du på respektive lags form eller vilken målvakt som startar eller kör du "blint" på resultaten på datan ur modellen? Vad avgör att du bettar en respektive två units? |
I dagsläget är antal gjorda och insläppta mål i princip de enda indata till modellen. De senaste matchresultaten viktas dock upp, så modellen tar viss hänsyn till "form". Ingen hänsyn tas däremot till vilken målvakt som står, inte heller till eventuella skador eller annat som givetvis kan påverka vinstsannolikheterna.
För tillfället ser jag detta som ett experiment där jag blint följer beräkningarna. Man bör förstås inte rygga mina förslag helt utan att kolla upp kringinformation som påverkar oddset. Om man vill kan man se mina beräkningar som modeller av "opening lines" som sätts utan full information, snarare än av "closing lines". |
Jag missade visst en fråga. Jag har flatbettat 1u hittills. (Men eftersom modellen ger en kvantitativ uppskattning av förväntad EV, så skulle man kunna välja insats enligt Kellys modell.)
|
Nattens matcher:
CLS-MIN 1.96/2.04 NYR-NJ 1.60/2.67 PHI-NYI 1.64/2.57 WAS-FLA 1.76/2.32 MON-PIT 1.93/2.07 OTT-STL 2.13/1.88 TB-LA 1.78/2.29 NSH-VAN 1.92/2.09 WPG-TOR 1.94/2.06 DAL-PHO 1.91/2.10 COL-CHI 1.90/2.11 Inte så stora skillnader mot Pinnacle i natt. Matchen som sticker ut mest är COL-CHI där jag har COL som knapp favorit, medan Pinnacle erbjuder [email protected]. Resten av nattens spel är hårfina överodds, men jag testar:
|
Ännu en plusnatt. Kvällens matcher är
DET-EDM 1.27/4.76 BUF-BOS 2.48/1.67 ANH-CAR 1.90/2.12 SJ-CGY 1.58/2.71 där jag har DET som klart större favorit och ANH som mindre favorit än Pinnacle. Det blir alltså följande spel:
|
Skön grej! Tur att man kan lämna matten åt de som faktiskt kan sånt..
Jämför du alltid med Pinnacles odds? Tänkte rygga på bet365 nämligen, vill bara försäkra mig om att de har såpass snarlika odds så dina odds ändå är bättre. |
Pinnacle har oftast bäst odds (och jag orkar inte jämföra precis alla bolag).
Jämför mina beräknade odds med vad ditt bolag bjuder på och fundera om du tycker det är tillräckligt mycket bättre för att nappa! |
Okej. Tack för svar.
|
Mycket intressant, men det som slog mig är att man skulle vilja låta målvakterna spela en lite större roll. Skulle det gå att använda sig av att förstamålvakten är t.ex. X och andra målvakten är Y i variablen eller bara kunna dra nytta av deras GAA på något sätt?
|
Citat:
|
Har varit borta hela dan och återkommer med svar på ovanstående frågor. Snabb postning med nattens beräkningar bara.
NJ-STL 1.81/2.23 1.99/1.94 CLS-DAL 1.85/2.18 2.07/1.86 NYI-MON 1.85/2.18 1.92/2.01 NYR-TB 1.38/3.64 1.52/2.74 PHI-TOR 1.96/2.04 1.70/2.31 WAS-WPG 1.49/3.03 1.64/2.45 FLA-LA 1.92/2.09 2.25/1.74 OTT-NSH 2.33/1.75 2.09/1.85 MIN-VAN 2.09/1.91 2.20/1.76 PHO-CGY 1.77/2.29 1.59/2.56 Ovanligt många skillnader. Jag testar
|
Citat:
|
Mycket intressant tråd får jag säga, hur har jag kunnat missa den tills nu... Jag håller faktiskt själv på att jobba på en modell för NHL.
Några kommentarer: * En modell som bara använder sig av antal mål som input kommer inte att räcka, antingen är du i närheten av bookiesarnas odds eller så har modellen fel. Jag skulle inte våga beta på data från en sådan modell. * Du skulle behöva backtesta din modell på data från tidigare säsonger, vilket du skrivit att du tänkt göra. Och se verkligen till att inte använda samma data för att utveckla modellen som för att validera den. Ha två (eller fler) separata data set. Vilket språk kodar du i? |
Citat:
|
Powered by vBulletin & vBadvanced CMPS
Design, Logos, etc Copyright © Sharps.se, 2010-2011. All Rights Reserved