Sharps.se - Sveriges bästa sportsbettingforum med rekar, spelförslag och bettingtips

Sharps.se - Sveriges bästa sportsbettingforum med rekar, spelförslag och bettingtips (https://www.sharps.se/forums/)
-   Baseball (https://www.sharps.se/forums/baseball/)
-   -   MLB betting och Sabermetrics (https://www.sharps.se/forums/baseball/11126-mlb-betting-och-sabermetrics/)

dgothe 2012-02-27 13:09

MLB betting och Sabermetrics
 
Hejsan.. det börjar ju bli dags för Spring Training nu och mina baseball-synapser blixtrar för fullt.. kan inte koncentrera mig på dagarna i väntan på att världens mest traditionsrika sport snart slår upp portarna för en ny säsong.

Därför tänkte jag i några inlägg på raken prata om hur jag de sensate åren (med varierad framgång skall sägas) använt mig av Sabermetrics för att räkna ut sannolikheten för att ett lag ska slå det andra och därmed bedöma om det finns värde i att spela ett visst odds.

Jag tänker gå igenom vilka formler jag använt, samt hur jag modifierat dem för att öka träffprocenten.

Om någon mod tycker att det hör mer hemma i Tänkarhörnan får ni gärna flytta topicen, men jag kände att det är så baseball-fokuserat att det är bättre att lägga det här.

dgothe 2012-02-27 13:10

INLEDNING

I två år har jag kört MLB-bets med varierad framgång. Första året gick det väldigt bra, andra året var det väl strax under 100 ROI, vilket ju givetvis inte alls är godkänt.

Till grund för mina bets använde jag några olika formler som skapats av Bill James, mannen som många kallar Sabermetrics fader. De formler jag använt är i första hand Pythagorean Win Percentage samt Log5 formeln. Därtill har jag dessutom utvecklat några egna varianter av de båda som jag kombinerat med originalen och därmed haft en rätt så unik variant av mina uträkningar.

SABERMETRICS

Vad är då Sabermetrics? Jo, det är ett samlingsnamn för i princip all icke-traditionell (som förvisso numera har blivit traditionell eftersom de funnits så länge) baseball-statistik. Saber är förtydligande av SABR, Society for American Baseball Research. Några av de statistikkategorier som är ett resultat av Sabermetrics är exempelvis VORP, DIPS, BABIP och OPS med flera.

dgothe 2012-02-27 13:11

VAD JAG GJORT

De två formler jag använt är alltså Pythagorean Win% och Log5, två formler som appliceras mer på laget än på individen (vilket de flesta SABR-formler faktiskt gör). Mitt mål var att sätta en styrkefaktor på två lag som möts och sedan avgöra hur stor sannolikheten att det ena laget slår det andra var.

Den första formeln, Pythagorean Win % är en variant av den vanliga vinstprocenten, det vill säga Wins/Games Played, men istället för att bara ta wins så räknar man ut en Win% baserat på Runs Scored och Runs Allowed, en slags "Så här bra BORDE lagets Win% vara baserat på hur många runs dom gör kontra släpper till"..

Pythagorean Win% formeln i sitt ursprungsformat ser ut så här:

http://upload.wikimedia.org/wikipedi...36db2b3391.png

Runs Scored är ju en rätt enkelt variabel att ta fram, det är helt enkelt så många runs scored laget har hittills under säsongen. Runs Allowed däremot är ju lite märkvärdigare i Baseball.. vi kan ju inte ta hela säsongens Runs Allowed för att applicera på en individuell match då starting pitcher är så oerhört påverkande.

Det var alltså med Runs Allowed som jag stötte på min första utmaning. Hur tar jag Pitcherns ERA och använder som bas, men tar samtidigt i beaktande att han inte spelar alla 9 innings, samt att lagets försvarsspel utöver pitchningen påverkar?

Så jag testade lite och landade till slut på följande:

((SP_ERA/9) * 5) + ((TEAM_ERA/9) * 4)

TEAM_ERA blev helt sonika lagets runs allowed per match, oavsett om det var beroende på error eller starting pitcher eller bullpen. Hypotesen var att starting pitchern går ca 5 innings, sedan tar bullpen vid och eftersom jag räknar in oavsett error med mera i den andra variabeln så får jag med de extra runs som inte syns annars. Perfekt? Knappast, men åtminstonde mer trovärdigt än att endast använda Starting Pitcherns ERA.

Låt oss kalla min ERA-variabel för modERA. Därmed har vi följande startvariabler för RUNS ALLOWED som är faktor två i Pythagorean Win %.

För att slutligen få samma scope på siffrorna måste vi antingen multiplicera modERA med antalet spelade matcher, eller dividera Runs Scored med antalet matcher. Det spelar ingen roll vad man väljer, resultatet blir det samma, men man måste ändå tänka på scopet.

Det ger oss följande variant av ovanstående formel:

Win = (RunsScored^2) / ((RunsScored^2) + (modERA^2))

Detta skulle med andra ord vara lagets Win% om dagens starting pitcher startat varje match under året.. en slags styrkeindikator för laget med just denne killen på kullen.

dgothe 2012-02-27 13:11

LOG5 formula

Log5 är nyckeln till detta tankesätt, och det som verkligen tar fram procentchansen att lag1 slår lag2.. Grundtanken är att du har två styrkeindikatorer (en för varje lag) där den ena kan ha en viss edge på grund av hemmaplan och formeln tar fram procentchanserna för vinst för båda lagen.

Formeln i sitt grundutförande ser ut så här:

W% = (A - (A*B)) / (A + B - 2 * A * B)

A = Lag 1 styrka och B = Lag 2 styrka, i vårt fall alltså lagens Pythagorean Win % som vi räknat ut enligt formeln i föregående inlägg.

Men vi ska också tänka på hemmafördel. Här finns olika varianter på hur vi bäst hittar siffran som indikerar hemmafördel. Antingen tar man varje lags hemmafördel individuellt genom att helt sonika ta vinstprocenten hemma för laget och ta minus 50%.. detta ger en edge som sedan adderar eller reducerar vinstchansen för ena laget.

Det andra sättet är precis som första varianten, fast man tar hemmafördelen för hela ligan. Säg att genomsnittet för hemmalagens vinstprocent är .542, då är hemmafördelen alltså 4.2%, vilket ska appliceras på vinstchansen som vi räknade ut med log5.

För att hemmafördelen korrekt ska kunna användas kan vi inte bara öka hemmalagets vinstchans med 4.2 och reducera bortalagets med 4.2, utan vi måste tänka att den TOTALA fördeln ska vara 4.2.. skulle vi göra som i meningen innan skulle ju vinstchansen för hemmalag vara dubbelt så hög som den borde; alltså måste vi dividera 4.2 med 2 och sedan addera 2.1 (hälften av 4.2) till hemmalaget, och reducera 2.1 från bortalagets vinstchans.

Simsalabim så har vi två procentsatser, en för sannolikheten att hemmalaget vinner samt en för att bortalaget vinner. Dessa procentsatser kan vi sedan räkna om till decimalodds utan problem för att se hur nära vi hamnar spelbolagens odds. Glöm inte viggen bara.

dgothe 2012-02-27 13:12

EXEMPEL

Den 19e oktober 2011 spelades första matchen i den 107e World Series mellan Texas Rangers och St. Louis Cardinals. Jag tänkte använda denna match för att göra ett exempel baserat på de formler jag berättat om hittills.

Texas Rangers vs St. Louis Cardinals

Game #1, World Series

Texas Starting Pitcher: C.J. Wilson, ERA 2.94
St. Louis Starting Pitcher: Chris Carpenter, ERA 3.45

Texas W/L: 96/66
St. Louis W/L: 90/72

Texas RS/RA: 855/677
St. Louis RS/RA: 762/692


Texas modERA = ((2.94/9) * 5) + (((677/162)/9)*4) = 1.63 + 1.86 = 3.49
St. Louis modERA = ((3.45/9) * 5) + (((692/162)/9)*4) = 1.92 + 1.90 = 3.82

Runs Allowed Texas w/ CJ Wilson = 3.49 * 162 = ca 562
Runs Allowed St. Louis w/ Chris Carpenter = 3.82 * 162 = ca 618

Texas Pyth Win% = (855^2) / (855^2 + 562^2) = 731025 / (731025+315844) = 0.70
St. Louis modERA = (762^2) / (762^2 + 618^2) = 580644 / (580644+381924) = 0.60

Här har vi alltså Texas med en Pythagorean vinstprocent på 70% och St. Louis med 60%. Detta kan jämföra med Texas riktiga vinstprocent på 60% och St. Louis med 55%. Eftersom båda lagen startade med sina bästa pitchers i första matchen i World Series är det här inte alls orimliga skillnader.

Steg 2 är alltså att jämföra lagens styrkeindikatorer mot varandra för att lista ut hur stor sannolikheten är för Texas att vinna mot St. Louis (eller tvärtom).

Log5 ser som sagt ut på det här viset: W% = (A - (A*B)) / (A + B - 2 * A * B)

Vi ersätter nu A med Texas siffror och B med St. Louis siffror och får följande:

W% = (0.70 - (0.70 * 0.60)) / (0.70 + 0.60 - 2 * 0.70 * 0.60)

W% = 0.28 / 0.46 = 0.61

Lag A, Texas, har alltså i grunduträkningen 61% vinstchans mot St. Louis i den här matchen. 1-0.61 = 0.39, så St. Louis har alltså i sin tur 39% chans till vinst.

Nu inledde dock St. Louis hemma, så vi måste ge laget en liten fördel i form av 2.1% (tar schablonsiffran vi använde tidigare) och även sänka Texas med 2.1%. Det ger oss följande siffror:

Vinstchans Texas: 58.9% - odds ca 1.70
Vinstchans St. Louis: 41.1% - odds ca 2.43

För att ta hänsyn till bolagens vig (vigorish, se http://en.wikipedia.org/wiki/Vigorish) brukar jag lägga på 10-15% för att hitta värdet, så i det här fallet hade jag ansett att allt över 1.87 på Texas hade varit spelvärt och 2.67 för St. Louis. Oddssättarna tyckte tvärtom. Enligt oddsportal var St. Louis favoriter till 1.78 och Texas fick 2.09.

Hur gick det egentligen då? Jo, St. Louis vann med 3-2.. så här gick det inte hem alls. Så långt in på säsongen är det oerhört många fler faktorer som spelar in än bara Runs Scored och Runs Allowed för laget, så jag ursäktar mig lite grann här. Viktiga faktorer som jag inte har med i dessa exempel är bland annat lagets form, eventuella saknade spelare samt nytillkomna spelare. Topplagen förstärker ju oftast i samband med trade deadline och då är det inte rätt att uteslutande ta hela säsongens siffror.

Det är flera sådana varians-variabler som jag vidareutvecklat själv, men denna genomgång är för själva grunderna i mina formler.

Jag har liknande varianter för resultaten senaste 30 dagarna samt senaste 15 dagarna och snittar sedan dessa tre procentsatser (totala säsongen, 30 dagar och 15 dagar) för att få en mer representabel siffra. Vad man dessutom borde göra är att gradvis vikta siffrorna så att ju längre säsongen går, desto mer är det 30/15 dagars som betyder något än hela säsongens siffror.

Lemasive 2012-02-27 13:47

Lycka till iår, jag kommer när vädret har blivit varmare och variansen minskar :D

Gillade du Moneyball?

Shell Peppe 2012-02-27 13:57

Grymt denna skall följas med samma intresse som dom förra.
BOL! :cheers:

dgothe 2012-02-27 14:47

Lemmy, jag tyckte faktiskt att Moneyball var bra.. över förväntan.. som film då :).. men den tar inte upp alla detaljer kring statistiken som är med i boken, så vill man verkligen förstå vad dom gjorde bör man läsa boken istället.

Enroth 2012-02-27 15:26

Schysta tankar!

Synd att det som vanligt e lite klurigt att backtesta sina idéer bara...

:cheers:

RobinD 2012-02-27 18:33

Off Topic månne, men tror du dessa formler är applicerbara på andra lagsporter?

Jag menar, runs scored oct runs allowed kan ju lika gärna vara Mål och Insläppta mål?

Samma sak gäller med Hemma/Borta i fotboll, bara andra siffror.

forbannat 2012-02-27 18:43

Citat:

Ursprungligen postat av RobinD (Inlägg 173114)
Off Topic månne, men tror du dessa formler är applicerbara på andra lagsporter?

Jag menar, runs scored oct runs allowed kan ju lika gärna vara Mål och Insläppta mål?

Samma sak gäller med Hemma/Borta i fotboll, bara andra siffror.

Det ser ut som om han har gett det ett försök med NHL. Kolla hans spread :)

dgothe 2012-02-27 18:54

Robin, det borde gå hyfsat tycker jag, men man ska komma ihåg att det ger endast ML-odds eftersom vi talar om vinstprocent när lag A möter lag B. Därmed är det inte rakt applicerbart på sporter med 1x2 eller sporter med spread (typ amerikansk fotboll eller basket) utan att göra modifikationer.

Sen har ^2 faktorn diskuterats tidigare och en annan faktor kanske ska användas för andra sporter. I basket snackas det till exempel om att göra om PythWin till att se ut så här:

E(W%) = points scored^11.5 / (points scored^11.5+points allowed^11.5).

Jag har testat med hockey och där har det gått sådär.. gick skitbra en period i början på förra året men har gått mycket sämre i år.

JSQ 2012-02-27 18:59

För fotboll finns det bland annat http://www.soccermetricsblog.com/ & http://www.soccermetrics.net (samma sida bara gamla och ny adress) där det skrivs en del om detta inom fotboll.

Enroth 2012-02-27 22:37

dgothe - tack för det intressanta example inlägget! :hattenav:


Citat:

Ursprungligen postat av JSQ (Inlägg 173125)
För fotboll finns det bland annat http://www.soccermetricsblog.com/ & http://www.soccermetrics.net (samma sida bara gamla och ny adress) där det skrivs en del om detta inom fotboll.

Doktor Hamilton jobbar väl enbart för den andra sidan? Dvs. han riktar in sig på vad lagen kan dra för nytta av statistik och inte vi som spelar på dem..?

Billy Beane jobbade ju till exempel för San Jose i MLS med syftet att utveckla en motsvarighet till Saber. I dagsläget använder väl alla professionella lag liknande statistik i åtminstone fotboll. Minns för något år sedan en konsultfirma som AIK tog in för att göra utvärderingar med hjälp av dataloggers (GPS) etc.

Tråkigt att det dröjer innan sådant blir tillgängligt för oss bara, skulle öppna upp en helt ny värld för oss statistiknördar!

JSQ 2012-02-27 22:44

Citat:

Ursprungligen postat av Enroth (Inlägg 173160)
Doktor Hamilton jobbar väl enbart för den andra sidan? Dvs. han riktar in sig på vad lagen kan dra för nytta av statistik och inte vi som spelar på dem..?

Billy Beane jobbade ju till exempel för San Jose i MLS med syftet att utveckla en motsvarighet till Saber. I dagsläget använder väl alla professionella lag liknande statistik i åtminstone fotboll. Minns för något år sedan en konsultfirma som AIK tog in för att göra utvärderingar med hjälp av dataloggers (GPS) etc.

Tråkigt att det dröjer innan sådant blir tillgängligt för oss bara, skulle öppna upp en helt ny värld för oss statistiknördar!

Har själv inte läst på andra sidan men på första sidan tyckte jag det fanns en hel del intressanta poster för oss spelare (även om dom kanske inte var direkt inriktade på till oss). Såg bara idag att sista posten på den sidan hänvisade till att sidan flyttade till den nya adressen. Därför antog jag att den nya sidan innehöll samma sak :)



Powered by vBulletin & vBadvanced CMPS
Design, Logos, etc Copyright © Sharps.se, 2010-2011. All Rights Reserved