PlanetMTG

Extended
Numbers are a nerd's best friend
Magic & Statistik
von Artie Heinrich

08.01.2009

Statistik ist eine Kunst – Zahlenkunst. Man liest sie nicht einfach nur, man interpretiert sie. Und wohl jeder Magic-Spieler hat schon einmal – bewusst oder unbewusst – Statistik angewandt. Einige der gängigeren Methoden will ich im Folgenden einmal näher betrachten. Fangen wir ganz einfach an:

Top-8-Decklisten

Die meisten Leute, die Top-8-Decklisten studieren und kopieren, tun dies, weil sie an eine statistische Aussagekraft glauben: Das Deck hat ein Turnier gewonnen, demzufolge muss es gut sein. Dies ist aber zu kurz gegriffen und statistisch betrachtet sogar ein Irrglaube.

Zum einen ist die Deckqualität nur einer von mehreren Faktoren, die über einen Turniersieg entscheiden. Da gibt es z.

B. noch das individuelle Können des Spielers, die Matchups und schließlich dem gerade einem Kartenspiel innewohnenden Zufalls- (manche würden auch sagen Glücks-) Faktor.

Zum anderen ist die Heranziehung nur einer Top 8 statistisch äußerst fragwürdig. Je geringer die Stichprobe (= Anzahl der Spiele) umso weniger aussagekräftig die Ergebnisse. Wollen wir einmal ein aktuelles Beispiel betrachten:

Exkurs: Die Top-8-Decks der Weltmeisterschaft

Ein Teil der Magic-Spielerschaft besieht sich das Feendeck des Siegers Antti Malin und denkt: das Deck hat die WM gewonnen, also muss es das beste Deck sein. Über diese Art des „result-based thinking“ wurde in den Foren von StarCityGames heiß diskutiert. Der Gewinn eines einzigen Turnieres (und sei es die WM) sagt letztendlich noch nicht viel über dessen Qualität aus. Dazu muss man die Betrachtung schon auf das ganze Turnier erweitern.

Und gerade bei der WM muss noch zusätzlich mitbedacht werden, dass der Standardteil nur ein Drittel des Turniers ausmacht. Es ist also möglich, dass ein Spieler die Top 8 erreicht mit seinen guten Ergebnissen in Draft und Extended, während sein Standarddeck nur suboptimal ist. Diese Betrachtung wurde auch von anderen Autoren schon durchgeführt. Hier noch einmal die Ergebnisse:

Spieler (Deck)	Ergebnis Standardteil	Gesamtergebnis (inkl. Top 8)
A. Malin (Feen) – 1. Platz	3-3	6-3
J. Parke (5c-Control) – 2. Platz	2-3-1	4-4-1
T. Ikeda (RB-Aggro) – 3. Platz	5-1	6-2
H. Kerem (Kithkin) – 4. Platz	5-1	6-2
PV Da Rosa (Feen) – 5. Platz	5-1	5-2
K. Tsumura (Feen) – 6. Platz	4-2	4-3
F. Karsten (Feen) – 7. Platz	4-2	4-3
A. Asahara (Feen) – 8. Platz	6-0	6-1

Das „beste“ Deck (unter der Voraussetzung, dass man diesen Ergebnissen eine Aussagekraft beimessen will) ist also mitnichten das Deck des Erstplatzierten, sondern vielmehr die Liste des Achten. Wenn man also schon die Top 8 der Worlds als Anregung für eigene Deckentscheidungen zugrunde legen möchte, dann sollte man lieber das Feendeck von Asahara wählen.

Will man sich aber nicht allein auf die Top 8 verlassen, bietet es sich bei einem großen Turnier wie der WM auch an, die ungeschlagenen Decks eines Tages zu betrachten. Für Tag 3 (Extended) sah das so aus:

P. Ratkevicius – All-In Red – 6-0
L. Scott-Vargas – Swans – 6-0
S. Thaler – Zoo – 6-0
M. Kitayama – Japan Faeries – 6-0
P. Cheon – Next Level Blue (Wizards) – 5-0-1
A. Shomer – Deathcloud Rock – 5-0-1

Eine bunte Mischung, die erst einmal keine greifbaren Ergebnisse liefert. Man müsste z.

B. wissen, wie viele Decks jeden Typs gespielt wurden, wogegen die einzelnen Decks gespielt haben oder (gerade für den vorletzten Tag einer ProTour wichtig) inwieweit Intentional Draws oder Concessions das Ergebnis beeinflussen.

Aber selbst die obige Auflistung der ungeschlagenen Decks ist irreführend, da sie ja nahelegt, die Decks wären alle „gleich gut“ – immerhin haben sie alle dasselbe Ergebnis erzielt. Haben sie das wirklich? Gegen welchen Teil des Feldes wurde denn eigentlich gespielt? Ist das 6-0 eines Spielers, der mit 9 Punkten (also 3-9) in Tag 3 geht und dementsprechend gegen schwächere Gegner spielt, vergleichbar mit dem 6-0 eines Spielers, der sich im oberen Mittelfeld des Turniers bewegt?

Hier die Liste noch einmal, gewichtet nach dem Standing der jeweiligen Spieler nach Tag 2:

[21] L. Scott-Vargas – Swans – 6-0
[18] S. Thaler – Zoo – 6-0
[18] P. Cheon – Next Level Blue (Wizards) – 5-0-1
[18] A. Shomer – Deathcloud Rock – 5-0-1
[15] M. Kitayama – Japan Faeries – 6-0
[9] P. Ratkevicius – All-In Red – 6-0

Will man aufgrund dieser Ergebnisse eine Wahl treffen, so sollte man sich also für LSVs Swans-Deck entscheiden.

WM: Extended – Statistische Betrachtungen

Statistik wird umso aussagekräftiger, je mehr Daten vorliegen. Somit lohnt es sich, möglichst viele Decks und möglichst viele Turnierergebnisse in die Bewertung mit einzubeziehen. Nehmen wir uns den Extendedteil der WM vor und betrachten ihn etwas genauer. Die allgemeine Erkenntnis scheint ja hier zu sein: Feen sind das beste Deck. (Wieder mal!) Diese Aussage stützt sich größtenteils auf den Metagamebreakdown von Wizards, der sich folgendermaßen darstellt:

Daraus kann man zunächst aber einmal nur ersehen, wie viele Leute welchen Decktyp gespielt haben. D.

h. Feen waren sehr wohl das beliebteste Deck, was aber nicht zwangsläufig heißt, dass es auch das beste war. Zudem fasst die Coverage hier mehrere Archetypen unter demselben Namen zusammen, die meiner Meinung nach genauer unterschieden werden sollten.

Da ist zum einen ein blau-schwarzes Aggro-Control-Deck, das in etwa wie folgt aussieht:

David Irvine – 2008 Worlds – Extended

1 Academy Ruins

2 Flooded Strand

3 Island

3 Mutavault

4 Polluted Delta

2 Riptide Laboratory

4 Secluded Glen

1 Steam Vents

1 Swamp

1 Watery Grave

4 Dark Confidant

2 Glen Elendra Archmage

2 Mistbind Clique

4 Spellstutter Sprite

3 Vendilion Clique

4 Bitterblossom

3 Chrome Mox

3 Engineered Explosives

3 Smother

4 Spell Snare

3 Thirst for Knowledge

3 Umezawa's Jitte

1 Academy Ruins

2 Annul

3 Chalice of the Void

2 Firespout

2 Sower of Temptation

3 Thoughtseize

2 Threads of Disloyalty

—Diese und weitere Karten gibt's bei:

Während man das vorherige Deck noch mit Fug und Recht als Faeries bezeichnen kann, stellt die folgende Konstruktion doch eher die Evolution der Next-Level-Blue-Kontrolldecks der letzten Saison dar, und wenn man schon eine Tribe-Bezeichnung dafür wählen wollte, dann würde Wizards doch deutlich besser passen:

Paul Cheon – 2008 Worlds, Extended

1 Academy Ruins

1 Breeding Pool

1 Hallowed Fountain

10 Island

4 Mutavault

3 Riptide Laboratory

1 River of Tears

1 Steam Vents

4 Spellstutter Sprite

3 Vendilion Clique

2 Venser, Shaper Savant

3 Chrome Mox

1 Cryptic Command

3 Engineered Explosives

4 Mana Leak

3 Repeal

4 Spell Snare

4 Thirst for Knowledge

2 Threads of Disloyalty

3 Umezawa's Jitte

2 Vedalken Shackles

1 Academy Ruins

2 Annul

1 Engineered Explosives

2 Flashfreeze

2 Glen Elendra Archmage

2 Jace Beleren

2 Negate

1 Teferi, Mage of Zhalfir

2 Threads of Disloyalty

—Diese und weitere Karten gibt's bei:

Die Japaner schließlich sind mit einem Eigenbau angetreten, der irgendwo zwischen den obigen Listen angesiedelt ist:

Masaya Kitayama – 2008 Worlds, Extended

9 Island

1 Minamo, School at Water's Edge

4 Mutavault

1 Oboro, Palace in the Clouds

2 Riptide Laboratory

3 River of Tears

4 Secluded Glen

4 Glen Elendra Archmage

4 Sower of Temptation

4 Spellstutter Sprite

4 Vendilion Clique

4 Ancestral Vision

4 Mana Leak

4 Spell Snare

3 Stifle

3 Threads of Disloyalty

2 Umezawa's Jitte

2 Annul

3 Bitterblossom

3 Engineered Explosives

2 Hurkyl's Recall

3 Negate

1 Stifle

1 Threads of Disloyalty

—Diese und weitere Karten gibt's bei:

Natürlich gibt es Gemeinsamkeiten in diesen Listen bzgl. der gespielten Karten. Trotzdem sind meiner Meinung nach die zugrundeliegenden Strategien unterschiedlich genug, um die Decks als drei eigenständige Archetypen zu führen. Leider ist in der Coverage keine solche Aufteilung vorgenommen. Wenn ich die entsprechenden Zahlen schätzen müsste, würde ich dazu tendieren, UB-Faeries und NLU-Wizards als etwa gleich häufig anzusehen, während Japan Faeries etwa halb so oft vertreten gewesen sein dürfte. Die Aufteilung innerhalb aller Feenlisten nehme ich also im Folgenden als 40% UB, 40% NLU und 20% Japan Fae an. Dies ergibt dann folgendes Diagramm für das Gesamtfeld von 289 Decks:

Das sagt uns jetzt aber immer noch nichts über die Qualität und Güte der einzelnen Decks. Machen wir also einige Vergleiche. Ich habe einmal alle in der Coverage geposteten Extended-Decks analysiert und dabei alle Decks mit mindestens 12 Punkten und alle Decks mit mindestens 14 Punkten in Teilfelder zusammengefasst. Das sieht dann so aus:

Hier kann man gut herauslesen, welche Decks sich über sechs Runden Turniertag wie geschlagen haben. Vergleichen wir die Daten für den Anteil des jeweiligen Decks am entsprechenden Feld:

	Gesamtfeld	12+	14+
Zoo	20,4%	20,5%	16,7%
NLU	11,1%	12,1%	20,0%
UB-Fae	11,1%	10,8%	3,3%
Elfball	10,4%	7,2%	6,7%
Burn	4,8%	7,2%	10,0%
Deathcloud	4,8%	8,4%	6,7%
Tezzerator	4,8%	3,6%	6,7%
Japan Fae	4,8%	4,8%	10,0%
Swans	3,5%	7,2%	6,7%
All-In Red	2,4%	3,6%	6,7%

Erkenntnisse:

Zoo zeigt sich als solider Performer, nur im Topbereich ist ein Leistungsabfall feststellbar.

Während NLU und UB-Fae (vermutlich) anfangs etwa gleich stark vertreten waren, konnte NLU stetig zulegen und schließlich als zahlenstärkstes Deck im Topbereich landen, während UB-Fae zwar im Mittelfeld noch solide Ergebnisse erzielen konnte, danach aber im Nirwana verschwand. Japan Fae hingegen zeigte sich gerade im Topbereich erfolgreich.

Elfball, der Schrecken von Berlin, hat eindeutig unterdurchschnittlich performt und wurde systematisch aus dem Feld gedrängt.

Burn und All-In Red konnten ihren Anteil am Feld kontinuierlich und signifikant erhöhen.

Deathcloud und Swans waren Decks, mit denen man wenigstens eine gute Chance hatte, positiv zu gehen; im Topbereich aber ließen beide dann ein wenig nach.

(Wichtige Anmerkung: Aufgrund der geringen Anzahl an sehr guten Decks (Teilfeld 14+) kann es in diesem Bereich zu statistischen Abweichungen kommen, die auch bei obigen Aussagen zu bedenken ist. )

Der Vergleich der einzelnen Teilfelder liefert schon verwertbare Ergebnisse, aber gibt es noch eine Möglichkeit, diese zu verfeinern bzw. zu verdeutlichen? Wie sieht es etwa aus mit der Vergleichbarkeit der Decktypen untereinander?

Ich möchte dazu noch eine weitere statistische Betrachtung vollziehen und zwar die Errechnung der Penetrationswahrscheinlichkeit. (Schluss mit Euren schmutzigen Gedanken! Damit ist keineswegs die Wahrscheinlichkeit gemeint, dass ihr nach dem Turnier noch... aber lassen wir das.) Die Penetrationswahrscheinlichkeit gibt die Chance an, mit der man mit einem bestimmten Decktyp ein bestimmtes Teilfeld erreichen konnte. Dazu muss man einen Vergleich innerhalb der Einzelpopulation des jeweiligen Decktyps durchführen.

Soll heißen: wenn 20 Decks eines Typs das Teilfeld 12+ erreicht haben und dieser Typ war im Gesamtfeld mit 100 Decks vertreten, dann liegt die Penetrationswahrscheinlichkeit bei 20%. Sind dagegen nur 40 solcher Decks ins Turnier gegangen, dann beträgt die Wahrscheinlichkeit schon satte 50%. Hierbei ist also der absolute Anteil am Feld weniger wichtig, als der Erfolg innerhalb des eigenen Archetyps.

Als Vergleichswert für die Einschätzung der Performance dient die mathematische Vorgabe des Gesamtfeldes:

	12+	14+
[Gesamtfeld]	28,7%	10,4%
Zoo	28,8%	8,5%
NLU	31,3%	18,8%
UB-Fae	28,1%	3,1%
Elfball	20,0%	6,7%
Burn	42,9%	21,4%
Deathcloud	50,0%	14,3%
Tezzerator	21,4%	14,3%
Japan Fae	30,8%	23,1%
UB Tron	18,2%	0,0%
Dredge	20,0%	10,0%
Swans	60,0%	20,0%
Gobbos	12,5%	12,5%
All-In Red	42,9%	28,6%

Einsamer Spitzenreiter ist hier das Swans-Deck, das satten 60% seiner Spieler positive Ergebnisse brachte. Immerhin noch die Hälfte aller Deathcloud-Piloten sowie jeweils fast 43% der roten Magier (Burn und All-In Red) landeten bei 12 oder mehr Punkten.

Im Spitzenfeld dominiert All-In Red, das mehr als jeden vierten seiner Piloten in die Topränge katapultierte sowie Japan Fae, das nahezu einem Viertel seiner Spieler Glück brachte. NLU, Burn und Swans konnten immerhin noch gut jedem fünften damit angetretenen Planeswalker ein mehr als respektables Ergebnis bescheren.

(Grundsätzlich gilt natürlich das oben schon Gesagte, nämlich dass aufgrund der geringen Anzahl der Decks im Teilfeld 14+ die diesbezüglichen Ergebnisse und Aussagen mit Blick auf die statistische Varianz gelesen werden müssen.)

Was bedeutet all die Zahlen-Jongliererei jetzt für mich als Extendedspieler? Nun, ich persönlich werde auf jeden Fall die Decktypen Swans und Deathcloud intensiv testen und zwar gegen ein Gauntlet bestehend aus: Zoo, NLU, Japan Fae, Elfball und Burn, sowie die jeweiligen Mirrors.

Und was bleibt übrig nach all der Zahlenschieberei? Um Statistik aussagekräftig zu machen, ist Arbeit nötig – einfache Antworten „auf einen Blick“ gibt es nicht. Bei Berücksichtigung möglichst vieler Einflussfaktoren und einer entsprechenden Datenmenge kann sie einem jedoch nützliche Einblicke und Entscheidungshilfen für Metagame-Einschätzung und Deckwahl an die Hand geben.

In diesem Sinne: Calculate long and prosper!

Over and Out,
Artie

-------gggggggggggggggg--------------