Myth Buster Fazit

By Kurt Utzinger Date 2012-02-09 09:14

Hallo Clemens

Weiter so. Partien auf langen Bedenkzeiten haben einfach eine
ganz andere Qualität und man guckt sie eben auch an, was bei
den ultra-kurzen Bedenkzeiten nicht der Fall ist. Solche Kurzpartien
nimmt man in statistischer Hinsicht lediglich zur Kenntnis, aber
ansonsten hat man nichts davon. Damit soll allerdings - um nicht
missverstanden zu werden - nichts Negatives über den (statistischen)
Wert und somit die Berechtigung von Blitzpariten gesagt werden.
Mfg
Kurt

By Thorsten Czub Date 2012-02-09 13:55

blitzpartirn geben dann aber nur auskunft ueber die blitzstaerke, NICHT ueber die spielstaerke bei anderen bedenkzeiten.

By Benno Hartwig Date 2012-02-09 16:09

[quote="Thorsten Czub"]blitzpartirn geben dann aber nur auskunft ueber die blitzstaerke, NICHT ueber die spielstaerke bei anderen bedenkzeiten.[/quote]Sie bieten aber einen Schätzwert zur Spielstärke bei anderen Zeiten, der sich ggf. nur mit sehr viel Aufwand durch einen verlässlicheren Schätzwert ersetzen lässt.

Benno

By Ingo Althöfer Date 2012-02-09 16:44

Danke, Herr Hartwig,

[quote="Benno Hartwig"]
... Sie bieten aber einen Schätzwert zur Spielstärke bei anderen Zeiten,
der sich ggf. nur mit sehr viel Aufwand durch einen verlässlicheren
Schätzwert ersetzen lässt.

[/quote]

Ihre Bemerkung bringt das Dilemma von Testern gut auf den Punkt:

Man will wissen, wie A und B bei langen Zeiten gegeneinander abschneiden.
* Wenn man bei kürzeren Zeiten mit viel Partien testet,
hat man einen kleinen Streufehler, aber auch einen systematischen Fehler unbekannter Grösse.
* Wenn man bei den langen Zeiten mit wenigen Partien test,
hat man einen grösseren Streufehler, aber null systematischen Fehler.
Es ist überhaupt nicht klar, welche der beiden Optionen - oder gar welche Mischoption -
die beste ist.

Ich gebe ein real gerechnetes Beispiel für ein asymmetrisches 2-Personen-Spiel X.
Man möchte wissen, welche Ergebnisbilanz sich bei Rechenzeit T für beide "Agenten" ergibt.

Testserie 1: 10.000 Partien bei Rechenzeit T/10
Ergebnis: 5871-4129

Testserie 2: 1.000 Partien bei Rechenzeit T
Ergebnis: 592 - 408

Welchem der beiden Ergebnisse soll man wieviel Bedeutung beimessen, und warum?

Ingo Althöfer.

PS. Ich habe auch 10.000 Partien bei Rechenzeit T rechnen lassen.
Das Ergebnis will ich aber erst später verraten.

By Thomas Mayer (Quark) Date 2012-02-09 17:46

Hallo Ingo,

Zitat:

Testserie 1: 10.000 Partien bei Rechenzeit T/10
Ergebnis: 5871-4129

Testserie 2: 1.000 Partien bei Rechenzeit T
Ergebnis: 592 - 408

Das Problem ist im Schach, daß wir von Testserie 2 im Vergleich zu 10.000 höchstens 100 Partien haben. Bzw. über 2000 bei Ingo im Vergleich zu 20 jetzt bei Clemens. Und der Zeitunterschied ist noch um ein gutes Stück höher: Ingo 5+3 Single gegen 40/120 Quad. Man müßte die Zeitsteigerung über die Durchschnittspartielänge/Züge mal im Verhältnis setzen, sicher ein Sprung um WEIT über 10, 4 Threads ist ja schon ein Faktor ca. 3,2. Grob überschlagen würde ich die Durchschnittszeit pro Partie bei Ingo mit 510 Sekunden ansetzen und bei 25200 Sekunden x 3.2 Faktur=75600 Sekunden ansetzen, dass wäre - wenn ich mich nicht verrechnet habe - ein Faktor 148 ! (Ich habe mit 70 Zügen gerechnet, wahrscheinlich ist der Faktor sogar noch höher, ich hatte zumindest den Eindruck, dass lange Bedenkzeiten tendenziell zu längeren Partien führt, ich kann das im Moment aber nicht statistisch hinterlegen. Und wahrscheinlich müßte man den Zeitvergleich beim Zeitpunkt des "Partie entschieden" ansetzen, auch nicht gerade ein einfach zu findender Punkt.)
Jedenfalls ist es gefährlich, aus Phänomenen aus der CCRL zwischen 40/4 und 40/40, also ein Faktor 10, auf Phänomene bei einem Faktor 148 zu schließen. Prinzipiell bin ich eigentlich schon der Meinung von Ingo, daß die Bedenkzeit ab einer bestimmten Länge eine sehr untergeordnete Rolle für die Rangliste der Engines untereinander spielt, ich halte das aber nach wie vor für völlig unbewiesen. Zusätzlich kommt noch erschwerend hinzu, daß es Unterschiede geben mag in der Implementierung der parallelen Suche, vielleicht ist die Steigerung von Junior bei Faktor 148 ja auch auf die bessere parallele Suche zurückzuführen, wer weiß. Vielleicht hat auch Stephan Pohl recht, wenn er davon ausgeht, daß eine Bedenkzeitsteigerung prinzipiell zu einer Annäherung der Spielstärke führt - zwar würde die CCRL mit ihren beiden Ranglisten 40/4 und 40/40 eher dagegen sprechen, aber wie gesagt, wie exakt läßt sich von Faktor 10 auf Faktor 148 schließen ?
Wir wissen, daß bei extrem schnellen Partien (paar Sekunden+paar Millisekunden) andere Gesamtranglisten als bei z.B. Ingos 5+3 herauskommen. Vielleicht ist dies eben nicht nur eine Anomalie, die der schnellen Bedenkzeit geschuldet ist, sondern liegt eben an dem extremen Zeitunterschiedsfaktor. Ich tendiere auch hier eher dazu, Ingos Theorien zuzustimmen und denke, daß zu niedrige Bedenkzeiten merkwürdige Seiteneffekte haben die mit der Spielstärke wenig zu tun haben. Aber stimmt das ? Zumindest fragwürdig, zukünftige Experimente werden es evtl. zeigen - oder auch nicht...

Gruß, Thomas

By Ingo Althöfer Date 2012-02-09 18:34

Hallo Thomas,

[quote="Thomas Mayer (Quark)"]
Das Problem ist im Schach, daß wir von Testserie 2 im Vergleich
zu 10.000 höchstens 100 Partien haben.

Das ist mir auch klar. Mein Beispiel war nur absichtlich einfach
gestrickt - auch mit einem kleinen Faktor 10 - um aufzuzeigen,
dass das Dilemma wirklich vorhanden ist.

Zitat:

... Man müßte die Zeitsteigerung über die Durchschnittspartielänge/Züge
mal im Verhältnis setzen, sicher ein Sprung um WEIT über 10 ...

Dann formuliere ich es anders:
Entweder 72 Stunden lang Testpartien mit Zeitparameter T
oder 72 Stunden lang Testpartien mit Zeitparameter T/x
(wobei x = 10 oder x = 148 sein kann oder sonstwas).

Zitat:

... den Eindruck, dass lange Bedenkzeiten tendenziell zu längeren
Partien führt, ich kann das im Moment aber nicht statistisch hinterlegen.

Das dürfte auch vom Spiel abhängen. Z.B. bei Go oder auch bei
Backgammon scheinen tiefere Suchen zu kürzeren Partien zu führen.

Zitat:

Wir wissen, daß bei extrem schnellen Partien (paar Sekunden+paar Millisekunden)
andere Gesamtranglisten als bei z.B. Ingos 5+3 herauskommen.

Und ich glaube, dass bei deutlich langsameren Zeiten als 5+3 auch
andere Gesamtranglisten herauskommen, speziell in diesen Jahren, wo
einige Top-Engines (wie Houdini) bevorzugt bei kurzen Bedenkzeiten
getunt werden.

Ich will noch auf ein Beispiel vom 13x13-Go hinweisen. Dort hat Don Dailey
auch Experimente mit skalierter Bedenkzeit gemacht, für die beiden Programme
MoGo und Leela (von Gian-Carlo Pascutto). Hier sind die relevanten Zahlen:

Level N steht für = 128 * 2^(N-1) Simulationen pro Zug

Mogo_13   2717   79
Leela_13   2638

Mogo_12   2610   62
Leela_12   2548

Mogo_11   2493   56
Leela_11   2437

Mogo_10   2380   48
Leela_10   2332

Mogo_09   2270   57
Leela_09   2213

Mogo_08   2147   62
Leela_08   2085

Mogo_07   2022   90
Leela_07   1932

Mogo_06   1903   97
Leela_06   1806

Mogo_05   1765   144
Leela_05   1621

Mogo_04   1599   187
Leela_04   1412

Mogo_03   1338   169
Leela_03   1169

Mogo_02   1041   128
Leela_02   913

Mogo_01   745 52
Leela_01   693

Die hintere Zahl in jedem Block gibt die Rating-Differenz an.
Man sieht also eine richtige Wellenbewegung: Leistungs-Unterschied zwischen MoGo
und Leela ist am grössten für mittlere und ganz grosse Rechenzeiten und nicht so gross
für kleine und halbgrosse Rechenzeiten.

Gruss, Ingo.

By Thorsten Czub Date 2012-02-09 19:30

[quote="Ingo Althöfer"]
speziell in diesen Jahren, wo
einige Top-Engines (wie Houdini) bevorzugt bei kurzen Bedenkzeiten
getunt werden.
[/quote]

genau das ist es.
es ist anzunehmen das junior genau auf die hardware/Zeitkontrolle getuned
ist, mit der er bei der WM auch gewonnen hat.

By Ingo Bauer Date 2012-02-09 19:10 Edited 2012-02-09 19:17

Hallo Thomas,

Nur noch eine Sache am Rande dazu.

Alle Zahlen die auch nur halbwegs vergleichbar sind zeigen keinerlei (*) Tendenz einer Leistungssteigerung. Ja, die Zahlen die wir haben beruhen auf einem Faktor von 1 zu 10. Die vernünftige Annahme ist nun nicht etwas zu glauben das beim nächsten Faktor 1 zu 10 plötzlich wundersame Dinge geschehen, sondern ist anzunehmen das genau das selbe passiert - nämlich nichts. Wenn nun jemand glauben will das etwas passiert, ist er insofern in der schlechteren Position weil er nicht nur nichts beweisen kann, er muß auch noch das Ausbleiben einer Leistungssteigerung vorher erklären ... sicherlich giäbe es auch dafür Ansätze aber die sind ertmal alle "schwach".

Übrigens würde ich den Faktor zw. Clemens 120 + 120 + 120 anders berechnen:
Mein Durchschnitt an Spielen dauert ca. 16 Minuten. Idealerweise müßte man den Durchschnitt aus den 20 SPielen wissen, habe ich nicht, also rechne ich mal den worst case aus. 360 Minuten Pro SPiel bei Clemens. Dazu dein Faktor 3.2 ob der 4 Kerne, sind 1152 min. 1152/16 = 72! Dazu sind seine Rechner ... na sagen wir weitere großzügige 25% schneller sind summa sumarum = 90. Dazu Ponde ON = 180 Im besten Fall! Vielleicht ist dein 148 gar nicht so schlecht.

Gruß
Ingo

* Sicherlich gibt es faktoren wie MP Implementierung. Aber das hat ja erstmal nichts mit der Zeitkontrolle zu tun.

By Ingo Althöfer Date 2012-02-09 20:16 Edited 2012-02-09 20:18

[quote="Ingo Bauer"]
Alle Zahlen die auch nur halbwegs vergleichbar sind
zeigen keinerlei (*) Tendenz einer Leistungssteigerung.
[/quote]

Ich war zwar nicht direkt angesprochen, möchte aber trotzdem
erklären, um was es mir geht, und warum ich in der Frage doch
eine Tendenz sehe.

Hauptpunkt:
Ich möchte einschätzen, welche Chancen die beiden Seiten bei einem
Match Houdini2 vs Junior13
bei langer Bedenkzeit (z.B: 40 Züge in 2 Stunden + 1 Stunde für den Rest) hätten.

Bisher kenne ich drei Datenpunkte, wo die Beteiligten "ungefähr passen":

(i) Bei CEGT wird Houdini1.5 schwächer, wenn die Bedenkzeit ansteigt:
3324 bei 40/4, 3276 bei 40/20 (beide Punkte für 4 CPU); 3137 bei 40/120 (bei 1 CPU)
http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_AllVersion/rangliste.html
http://www.husvankempen.de/nunn/40_40%20Rating%20List/40_40%20All%20Versions/rangliste.html
http://www.husvankempen.de/nunn//40120new/40_120_ratinglist/40_120_AllVersion/rangliste.html

(ii) Aus der Blitzliste von Clemens Keck das Ergebnis zwischen DJ13 und Houdini2: 16.5 - 83.5
http://www.clemens-keck.de/livegames/DJ13.html

(iii) Aus dem aktuellen Myth_Buster-Wettkampf (bei langer Bedenkzeit) das Ergebnis
zwischen DJ13 und Houdini1.5: 8.5 - 11.5

(iv) Junior13 möchte ich nicht mit Junior12.5 in einen Topf geworfen wissen.

Etwas weniger zahlenlastig:
(i) Houdini1.5 wird im Vergleich zum Pulk der anderen Engines schwächer,
wenn die Bedenkzeit länger wird.

(ii) Im Blitz kommt Junior13 gegen Houdini2 stark unter die Räder.

(iii) Junior13 ist bei langer Bedenkzeit in Reichweite von Houdini1.5

Daraus zusammen komme ich zu der Meinung:
Bei einem seriösen Wettkampf mit langer Bedenkzeit, wo auch die Programmierer selbst
die Eröffnungsbücher ihrer Babies festlegen, würde ich dei Chancen von Junior13 nicht für
schlecht halten. Konkret würde ich für solch einen Wettkampf über 10 Partien (wie damals
2007 zwischen Zappa und Rybka) bei einer Wettquote von 1:1 auf Junior setzen.

Ingo Althöfer.

By Stefan Pohl Date 2012-02-09 17:49

[quote="Ingo Althöfer"]

Ihre Bemerkung bringt das Dilemma von Testern gut auf den Punkt:

Man will wissen, wie A und B bei langen Zeiten gegeneinander abschneiden.

[/quote]

Will man das als Tester wirklich wissen? Also ich bin ein Tester und will das nicht wissen. Warum auch?
Ist es nicht eher so, daß die Turnierbedenkzeit im Computerschach heutzutage ein reiner Anachronismus ist? Niemand spielt doch wirklich mit Turnierbedenkzeit oder auch nur annähernder Turnierbedenkzeit gegen eine Engine und auf playchess im Maschinenraum wird auch fast nur mit sehr schnellen Bedenkzeiteinstellungen gespielt. Und bei Analysen von menschlichen Partien läßt man Engines mitlaufen, während man sich durch die Notation klickt. Auch da kann die Engine meist nur sehr kurz an einer Stellung rechnen. Also dürfte doch in der Praxis in 99 von 100 Situationen die Spielstärke im Bullet- und Blitzbereich interessant sein. Und darüberhinaus ist bei der fortlaufenden Hardwareentwicklung das Bullet von heute das Blitzen von gestern und die Turnierbedenkzeit von vorgestern. Oder anders gesagt: Die Turnierbedenkzeit von heute ist das Blitzen von morgen und das Bullet von übermorgen.
Und sollte es wirklich eine Engine geben, die mit Turnierbedenkzeit wirklich signifikant besser spielt als im Blitz (was m.E. nur ein einziges Mal der Fall war, nämlich beim Mephisto 3), dann ist sie eben nicht gut und praxisfern programmiert (s.o.).

Gruß - Stefan

By Ingo Althöfer Date 2012-02-09 18:22

Hallo Herr Pohl,

[quote="Stefan Pohl"]
[quote="Ingo Althöfer"]
Ihre Bemerkung bringt das Dilemma von Testern gut auf den Punkt:
Man will wissen, wie A und B bei langen Zeiten gegeneinander abschneiden.

Will man das als Tester wirklich wissen? Also ich bin ein Tester
und will das nicht wissen. Warum auch?

Leute testen aus verschiedenen Gründen. Ich hatte hier in
erster Linie die Entwickler von Programmen im Auge: die wollen
ihre neuen Versionen so tunen, dass sie bei den nächsten Titel-
kämpfen möglichst gut abschneiden.

Wenn diese Titelkämpfe mit einer Bedenkzeit T ausgetragen werden,
steht man vor dem Dilemma, ob man bei T relativ wenige Testpartien
generiert oder bei T/10 (oder T/148) viel mehr.

Zitat:

Ist es nicht eher so, daß die Turnierbedenkzeit im Computerschach
heutzutage ein reiner Anachronismus ist?

Es geht nicht nur um Computerschach, sondern um Schach allgemein.
Und Ihre Aussage werden Sie kaum Anand, Kramnik und Aronian klar machen können...

Zitat:

Niemand spielt doch wirklich mit Turnierbedenkzeit oder auch nur
annähernder Turnierbedenkzeit ...

In Tilburg bei der ICGA-WM waren vier Stunden pro Runde angesetzt.
Das ist eine eher lange Bedenkzeit. Und es gibt Stimmen im Lager
der Programmierer, die gerne noch längere Partien hätten.

Zitat:

... bei Analysen von menschlichen Partien läßt man Engines mitlaufen,
während man sich durch die Notation klickt.

Da ist dann schon die Frage, wieviel Zeit sich ein GM beim
"Durchklicken" nimmt: im Schnitt 1 Sekunde pro Zug
oder 0,1 Sek oder doch eher 10 Sek?
Ich weiss die Antwort auch nicht, sehe nur das Problem,
dass eine Engine, die für 1 Sek pro Zug optimiert ist,
bei 10 Sek pro Zug nicht mehr optimal tickt.

Zitat:

... darüberhinaus ist bei der fortlaufenden Hardwareentwicklung das
Bullet von heute das Blitzen von gestern und die Turnierbedenkzeit
von vorgestern...

Das ändert aber nichts an dem prinzipiellen (T vs T/10)
oder (T vs T/148)-Problem.

Zitat:

Und sollte es wirklich eine Engine geben, die mit Turnierbedenkzeit
wirklich signifikant besser spielt als im Blitz (...) dann ist sie eben nicht gut
und praxisfern programmiert (s.o.).

Mit dem Satz hängen Sie sich aber weit aus dem Fenster.

Ingo Althöfer.

By Benno Hartwig Date 2012-02-09 20:07

[quote="Stefan Pohl"]Niemand spielt doch wirklich mit Turnierbedenkzeit oder auch nur annähernder Turnierbedenkzeit gegen eine Engine und auf playchess im Maschinenraum wird auch fast nur mit sehr schnellen Bedenkzeiteinstellungen gespielt[/quote]Trotzdem ist es nach meinem Gefühl so:
Wenn A bei Blitzzeiten die WM gewinnt und B bei Turnierzeiten, dann ist für mich B der wichtigere Weltmeister, der irgendwie 'richtige' Computerschach-Weltmeister.
Aber das mag auch mancher anders sehen.
Benno

By Clemens Keck Date 2012-02-09 18:35

Hallo Herr Althöfer

ein wirklich intressanter Beitrag den Sie da geschrieben haben. Auch die bisherigen Antworten sind sehr intressant.
Bei mir hat das Myth Buster Match in jedem Fall ein Nachdenken angeregt. Ganz klar bin ich mit dem Thema allerdings noch nicht.
Ursprünglich habe ich eine kleine Liste sehr ähnlich der von Ingo erzeugt. Als eifriger Betatester sollte sie mir als Basis (The Base) dienen für anstehende Test.
Jetzt kommt mir langsam die "Erleuchtung". bei uns in der Elektro/Meßtechnik gibt es einen lustigen Satz: Wer misst misst Mist !
Ich will jetzt nicht sagen das 1+1, 5+3, 40/40 usw. Tests Mist sind, aber es scheint die Ergebnisse gelten nur in einem begrenzten Bereich.
Schaut man sich die besonders langen Partien an, tut sich ein neuer Horizont auf, der andere Tests und Listen in Ihre Schranken verweist.
Natürlich werde ich mir wieder das übliche anhören müssen, von den 1000 Partien angefangen....bis zu es ist nix bewiesen...ich hätte das Myth Buster Match auch würfeln können... wen intressiert schon 12 std ComputerschachPartien...heute wird 2 sekunden mit der engine in die Partie geschaut in gut is... usw., Aber für mich verbirgt sich in diesen besonders langen Partien eine "neue" Wahrheit:
Alle Listen haben unter Ihren Bedingungen ein stichhaltiges Wertungssystem erzeugt. Dennoch lässt sich das Computerschach nicht komplett einfangen und katalogisieren!

MfG Clemens Keck

By Ingo Althöfer Date 2012-02-09 18:43

Lieber Herr Keck,

[quote="Clemens Keck"]
ein wirklich intressanter Beitrag den Sie da geschrieben haben.
Auch die bisherigen Antworten sind sehr intressant.

Richtig. Und wir stochern alle in einem Nebel herum,
auch ich selbst. (Wobei einige den Nebel vielleicht nicht sehen...

)

Zitat:

Ich will jetzt nicht sagen das 1+1, 5+3, 40/40 usw. Tests Mist sind, aber es
scheint die Ergebnisse gelten nur in einem begrenzten Bereich.

Richtig. Wer bei Zeit T testet, hat Aussagen für T.
Je weiter ein T' von T entfernt ist, umso unklarer ist,
was man dahin übertragen darf.

Zitat:

Schaut man sich die besonders langen Partien an, tut
sich ein neuer Horizont auf, der andere Tests und Listen in Ihre Schranken verweist.

Und man erkennt manche grossen Schwachstellen von Programmen
viel klarer: Wenn Programm X auch nach 5 Minuten Rechnen immer
noch einen ruinösen Bauernaufzug bevorzugt, liegt wirklich etwas im Argen.

Zitat:

ich hätte das Myth Buster Match auch würfeln können...

Gut, dass Sie es nicht getan haben.

Zitat:

Alle Listen haben unter Ihren Bedingungen ein stichhaltiges Wertungssystem
erzeugt. Dennoch lässt sich das Computerschach nicht komplett einfangen und katalogisieren!

Richtig. Es sei denn, van den Herik hat mit seiner Bemerkung aus dem Jahr 2008
Recht, dass das Schachspiel bis zum Jahr 2035 gelöst sein wird. Aber damit wollte
er wohl nur provozieren.

Ingo Althöfer.

By Stefan Pohl Date 2012-02-09 19:04

[quote="Clemens Keck"]

Ich will jetzt nicht sagen das 1+1, 5+3, 40/40 usw. Tests Mist sind, aber es scheint die Ergebnisse gelten nur in einem begrenzten Bereich.
Schaut man sich die besonders langen Partien an, tut sich ein neuer Horizont auf, der andere Tests und Listen in Ihre Schranken verweist.
Natürlich werde ich mir wieder das übliche anhören müssen, von den 1000 Partien angefangen....bis zu es ist nix bewiesen...ich hätte das Myth Buster Match auch würfeln können... wen intressiert schon 12 std ComputerschachPartien...heute wird 2 sekunden mit der engine in die Partie geschaut in gut is... usw., Aber für mich verbirgt sich in diesen besonders langen Partien eine "neue" Wahrheit:
Alle Listen haben unter Ihren Bedingungen ein stichhaltiges Wertungssystem erzeugt. Dennoch lässt sich das Computerschach nicht komplett einfangen und katalogisieren!

MfG Clemens Keck
[/quote]

Merkst Du eigentlich nicht, daß du hier esoterisch-pseudoreligiöse Begriffe und Worthülsen benutzt, um ernsthafte Tests zu diskreditieren? Ich sah mal eine Fernsehdiskussion zwischen Richard Dawkins und einem religiös-geistesverwirrten Menschen (katholischer Bischof oder so). Da mußte sich Dawkins zum Thema Evolution ähnliche Sätze anhören. Auf diesem Niveau sind wir jetzt im Computerschach also auch angekommen. Gratuliere.

By Clemens Keck Date 2012-02-09 19:43

Stefan

das ist meine Meinung, mehr nicht. Mich dafür derart anzugreifen ist eine Unverschämtheit.
Ich habe keine Liste irgendwie herabgesetzt. Du hast doch selber schon bemerkt das 1+1 und 4+2 was anderes ist. Also gelten gewissse begrenzte Bereiche(Zeitkontrollen) für die Listenaussagen. Du liest nur das was Du lesen willst und verstehst nur das was Du verstehen willst und wirst dann noch beleidigend. Somit ist es völlig witzlos mit Dir.

Und ich werde mich mit Dir hier nicht darüber streiten, Du bist viel zu verklemmt und besitzt bewiesenermaßen keine Streitkultur.

By Thorsten Czub Date 2012-02-09 20:45

also was clemens sagt stimmt doch, die ergebnisse lassen NUR aussagen zu fuer die spielstärke /zeitkontrollen fuer die die events erstellt wurden.

das ist nicht religiös sondern wissenschaftlich.
wenn du einen crashtest mit einem renault modus machst, kannst du keine aussagen ueber crashs mit einem peugeot 3008 machen, eben weil du nur aussagen kannst ueber die events die du erzeugt hast.

statistik ist eine sehr langsame und ungenaue methode um dinge und sachverhalte zu evaluieren.

wenn man statistisch herausfindet das jeder 5 amerikaner uebergewicht hat, können wir keine aussagen darueber machen wie es sich in frankreich verhält, wir wissen auch nicht ob mr. smith dick oder duenn ist, weil die statistik ja ueber individuen keine aussage macht.
statistik ist eben eine kruecke. fuer menschen die nix wissen.

By Frank Brenner Date 2012-02-10 17:51

>wenn man statistisch herausfindet das jeder 5 amerikaner uebergewicht hat, können wir keine aussagen darueber machen wie es sich in frankreich verhält,

Flalsch.

Es gibt folgende Gemeinsamkeiten:

- Amerikaner und Franzosen sind beides Lebewesen mit sehr ähnlichen Genen (Elefanten, Mücken haben völlig andere Gene )
- Sie leben zur gleichen Zeit (nämlich heute)
- Beide Länder gehören zur 1.Welt mit sehr hohem Einkommen und Wohlstand, vor allem herrscht kein Hungersnot
- Sie haben eine ähnliche Kultur (damit meine ich: Ein franzose fühlt sich in Amerika nicht sehr fremd und ein Amerikaner auch nicht in Frankreich. Anders wäre es zb in Nordkorea oder Kenia)

schon hieraus kann man ableiten, dass der BMI Index von einem durchschnittlichen Amerikaner nicht sehr stark abweicht vom BMI Index eines Franzosen.

Und selbstversändlich lassen sich aus Blitzspielergebnissen auch Ergebnisse zu langen Bedenkzeiten ableiten, die können halt möglicherweise immer ungenauer werden je größer der Bedenkzeitunterschied ist.

> statistik ist eine sehr langsame und ungenaue methode um dinge und sachverhalte zu evaluieren.

völlig falsch! Statistik ist zuweilen die Einzige Methode komplexe Sachverhalte vorherzusagen
Die Geschwindigkeit in der Stochastische Experimente konvergieren beträgt n hoch (1/2).

> statistik ist eben eine kruecke. fuer menschen die nix wissen.

Statistik ist eine geniales Instrument für intelligente Menschen die versuchen die Natur zu erforschen.

By Thorsten Czub Date 2012-02-09 19:36

[quote="Clemens Keck"]
Hallo Herr Althöfer

ein wirklich intressanter Beitrag den Sie da geschrieben haben. Auch die bisherigen Antworten sind sehr intressant.
Bei mir hat das Myth Buster Match in jedem Fall ein Nachdenken angeregt. Ganz klar bin ich mit dem Thema allerdings noch nicht.
Ursprünglich habe ich eine kleine Liste sehr ähnlich der von Ingo erzeugt. Als eifriger Betatester sollte sie mir als Basis (The Base) dienen für anstehende Test.
Jetzt kommt mir langsam die "Erleuchtung". bei uns in der Elektro/Meßtechnik gibt es einen lustigen Satz: Wer misst misst Mist !
Ich will jetzt nicht sagen das 1+1, 5+3, 40/40 usw. Tests Mist sind, aber es scheint die Ergebnisse gelten nur in einem begrenzten Bereich.
Schaut man sich die besonders langen Partien an, tut sich ein neuer Horizont auf, der andere Tests und Listen in Ihre Schranken verweist.
Natürlich werde ich mir wieder das übliche anhören müssen, von den 1000 Partien angefangen....bis zu es ist nix bewiesen...ich hätte das Myth Buster Match auch würfeln können... wen intressiert schon 12 std ComputerschachPartien...heute wird 2 sekunden mit der engine in die Partie geschaut in gut is... usw., Aber für mich verbirgt sich in diesen besonders langen Partien eine "neue" Wahrheit:
Alle Listen haben unter Ihren Bedingungen ein stichhaltiges Wertungssystem erzeugt. Dennoch lässt sich das Computerschach nicht komplett einfangen und katalogisieren!

MfG Clemens Keck
[/quote]

ich denke menschen sind eben besonders gut in der lage 40/120 Partien zu studieren.
das ist eine bedenkzeit die uns liegt.
bei blitzpartien bekommen wir doch nix mit, deswegen rechnen die fanatiker die ergebnisse zusammen (1700 Partien) und geben in % und ELO an wie stark ein programm ist.

das ist ungefähr so als wie wenn du ne schöne intelligente nette frau MISST indem du ihre KG oder Körbchengrösse auffuehrst und mit den Daten anderer frauen vergleichst.
wir wissen das man einem menschen damit NICHT GERECHT wird.

und aber bei schachprogrammen glauben wir, das diese quantifizierung irgendwelche erkenntnisse befördern wuerde. tut sie nicht.

das einzige was man sagen kann, ist das die parameter der testumgebung die folgende Reihenfolge wiedergeben. aber andere parameter geben wieder andere
reihenfolgen wieder. und ändert man wieder was bekommt man erneut andere reihenfolgen. man misst das, was man messen will.

ich halte es fuer fatal A zu messen (blitzpartien) und dann allgemein ueber die spielstärke der programme fuer ALLE bedenkzeiten oder parameter sprechen zu wollen.

By Clemens Keck Date 2012-02-09 19:54

Hallo Thorsten

also meine private BlitzListe 5+3, 1700(!!) Partien pro gauntlet hat für mich nach wie vor Bedeutung. Ja ich gebe zu hier werden überwiegend Ergebnisse verwaltet, aber auch das brauchts um zB Fortschritte in der Engineentwicklung zu messen. Das die Gültigkeit sehr stark auf die Zeitkontolle begrenzt ist weis ich auch.
Evtl. stellt sich im Laufe der Zeit bei meinen 20 +5 Turnieren ein anderer Sachverhalt dar. Hier wird ja nicht nur mit längerer BZ gespielt sonder auch mit 4 cpu.

tschöööö
Clemens

By Benno Hartwig Date 2012-02-09 20:17

[quote="Clemens Keck"]Alle Listen haben unter Ihren Bedingungen ein stichhaltiges Wertungssystem erzeugt.[/quote]Aber nur solche Listen mit hinreichend großer Partienzahl (und die ist groß!) bieten wenigstens eine gewisse Verlässlichkeit.
Ich befürchte aber, es wird bisweilen zuviel 'Erkenntnis' aus zu wenigen Partien gewonnen, die dann nur eine kleine zufällige Auswahl aus dem bieten, was diese Engine an Genialem und Dummerhaftigem (in unbekannter Häufigkeit!) zu liefern vermag.

Benno

By Thorsten Czub Date 2012-02-09 19:12

ich denke das wir gar keine statistik brauchen (also z.B. 1700 5+3 partien etc.)
weil das sowieso nix aussagt.

besser ist es, die turnierpartien zu betrachten und erkenntnisse zu gewinnen.

die erkenntnis das junior gegen houdini mithält hätte sich aus den 1700 partien NICHT erschliessen lassen.

sehr wohl aber wusste andreas das junior mithält, und das obwohl er nur ein paar partien gesehen hatte.

daher sieht man deutlich das statistik nur ein schwacher abglanz eines menschlichen urteils ist,
statistik ist was fuer leute die nichts wissen, aber wissen wollen, und meinen mit 1700 partien könnten sie das monster einfangen.

By Ingo Althöfer Date 2012-02-09 18:50

Hallo Herr Pohl,

[quote="Stefan Pohl"]
... 20 Partien gegen nur einen Gegner bestätigen oder widerlegen
gar nichts. Noch mal zu mitschreiben: GAR NICHTS.
20 Partien sind - selbst wenn man jeden gespielten Zug zu Tode analysiert -
ein Engine-Horoskop, nichts weiter. ...
[/quote]

Damit ich Ihre Aussage einordnen kann, würde ich gerne etwas
über Ihren Hintergrund als Schachspieler wissen:

(i) Haben Sie schon Turnierschach gespielt?
(ii) Was waren dabei Ihre DWZ-Erfolgszahlen?

Wenn Sie bei (i) mit "nein" antworten, oder bei (ii) auf eine Zahl
unter 1500 kommen, dann verstehe ich Ihre Vorsicht, ausser dem
Ergebnis mehr aus einer Testpartie herauslesen zu wollen.
Es gibt aber andere Personen/Tester, bei denen das anders ist.

Viele Grüsse,
Ingo Althöfer.

By Clemens Keck Date 2012-02-09 18:53

Stefan

ich sehen nur einen der nach Beweisen sucht, und das bist Du.
Und wenn Du meine Meinung zu diesem match nicht erträgst und mit einem solchen posting antwortest, dann finde ich das schon seltsam.
Was hat die Frau gesagt als sie nach einem Jahr vom (geretteten) Baum herunterstieg: "Das Leben ist eine unendliche Geschichte vom loslassen".
Also mach Dich frei und Gönne uns doch den Spaß und die Freude. es war halt schön anzusehn...ist das denn nix?
Und wenn sich für ein paar Zuschauer der Mythos ein klein wenig bewiesen hat ja und?!

Du bist in meinem Augen eingfach nicht locker genug,

MfG Clemens

By marsell Date 2012-02-09 19:21

Hallo Herr Keck. Danke für das tolle Experiment, Zeit und Hardwareaufwand. Es hat nicht jeder diese Ressourcen, deshalb ein GROSSES DANKESCHÖN von mir. Ich verfolge bei Timo Haupt weiter, find ich super.
Jedoch hier mein Fazit kurz und schmerzlos: Houdini 1.5a "Freeware": gewonnen
DJ 13: Payware: verloren
bitte jetzt keine Posting über Spielstil usw. - wäre für mich interessant wenn dieser Stil eben auch gewinnt, Schachprogamme bekommen keinen Schönheitspreis.
Glaube ALLES gesagt zu haben und ich bin überzeugt, dass einige hier meiner Meinung sind, dies aber nicht kundtun.

Martin Steinwandter

By Ingo Althöfer Date 2012-02-10 09:12

Hallo allerseits,

[quote="Stefan Pohl"]
[quote="Clemens Keck"]
Für mich hat Junior den Mythos bestätigt, mit besonders langer Bedenkzeit erheblich besser zu werden.
[/quote]

20 Partien gegen nur einen Gegner bestätigen oder widerlegen gar nichts.
Noch mal zu mitschreiben: GAR NICHTS.
[/quote]

Die Behauptung "GAR NICHTS" hat mir keine Ruhe gelassen.

Jetzt habe ich unter etwas vereinfachten Annahmen einmal spitz durchgerechnet.
Ausgangspunkt waren die zwei Wettkämpfe zwischen Junior13 und Houdini, die
Clemens Keck hat spielen lassen.
Bei 5min+3sec war das Ergebnis 16.5 - 83.5,
bei Turnierzeit war das Ergebnis 8.5 - 11.5.

Zur Vereinfachung nehme ich an, dass es keine Unentschieden gibt und
die Ergebnisse 16-84 (statt 16.5-83.5) und 8-12 (statt 8.5-11.5) waren.
Dann wird die
Nullhypothese
"Das Spielstärkenverhältnis zwischen Junior13 und Houdini ist bei beiden Bedenkzeiten das gleiche"
widerlegt, weil die beobachteten Ergebnisse (und alle extremeren; z.B. 15-85 und 9-11) nur eine
Wahrscheinlichkeit von 2,0 % haben.

Also: Die beiden Serien zusammen (die 100er für 5+3 und die 20er für Turnierzeit)
liefern statistische Signifikanz für die Annahme, dass im direkten Vergleich die
lange Bedenkzeit Junior hilft.

Ingo Althöfer.

By Peter Martan Date 2012-02-10 15:10

Hallo Herr Professor!

Endlich wird hier mal den Zahlen die Bedeutung beigemessen, die ihnen zukommt.
Das Problem ist nur, dass echte Tester sich mit statistisch signifikant wahr oder unwahr nicht zufrieden geben.
Es muss ja auch noch untersucht werden, um wieviel die eine engine besser ist als die andere, sonst kann man sich nichts drum kaufen, es muss Elo heißen, oder es interessiert nicht.

(Ich weiß schon, dass man auch aus ganz wenigen Partien Elo ausrechnen kann, bei Menschen wird's ja auch so gemacht und dazu hat sich Arpad die Formel ja auch ausgedacht, das wird nur immer wieder mehr oder weniger geflissentlich übersehen von denen, die die Computerschach- Elosion aufrecht erhalten wollen oder müssen.)

By Ingo Althöfer Date 2012-02-10 16:03 Edited 2012-02-10 16:06

Lieber Herr Martan,

danke für die wunderbare Wortschöpfung. Jetzt kann ich
melancholisch-beschwingt ins Wochenende gleiten.

[quote="Peter Martan"]
... es muss Elo heißen, oder es interessiert nicht...
... geflissentlich übersehen von denen, die die
Computerschach- Elosion aufrecht erhalten wollen ...
[/quote]

Kennen Sie das Lied "Elosionen"?

Am liebsten gefällt mir die Version von Alexandra.
Auf Youtube gefunden habe ich als beste Näherung
aber "nur" die Vorlage von Hildegard Knef (1964).

http://www.youtube.com/watch?v=kcIJM2pjd_4

Auch Ihnen ein beschwingtes Wochenende, Ihr
Ingo Althöfer.

By Peter Martan Date 2012-02-10 16:34

Danke für den Link, Herr Professor!
Tatsächlich weiß ich nicht, ob ich das schon kannte und nur wieder vergessen habe, oder ob es mir so bekannt vorkommt, weil es so gut geklaut ist.

Die Version von Alexandra findet Google sofort.
Den kennen Sie ja sicher auch schon, ich erzähl ihn im forum immer wieder gerne zum Thema klonen und so:
Sagt ein Musiker zum anderen, das ist doch geklaut, das ist doch von Mozart, drauf der andere, na und, ist Mozart vielleicht schlecht?

By Ingo Althöfer Date 2012-02-10 16:57

Lieber Herr Martan,

[quote="Peter Martan"]
... Tatsächlich weiß ich nicht, ob ich das schon kannte und nur wieder vergessen
habe, oder ob es mir so bekannt vorkommt, weil es so gut geklaut ist.

Beim Googeln nach
computerschach elosion
kam nur ein einziger Treffer, und zwar von Ihnen aus dem Dezember 2011.

Zitat:

Die Version von Alexandra findet Google sofort.

Entweder hat Österreich weniger Alexandra-Sperren als wir Deutschen,
oder es ist nur ein Cover.

Zitat:

Den kennen Sie ja sicher auch schon, ich erzähl ihn im forum immer wieder
gerne zum Thema klonen und so: Sagt ein Musiker zum anderen, das ist doch geklaut,
das ist doch von Mozart, drauf der andere, na und, ist Mozart vielleicht schlecht?

Nee, ist mir neu.
Vielleicht gibts den Witz irgendwann auch mal im Computerschach:
"Des is doch geklaut, des is doch vom Fabien Letouzey."
"Ja mei, is der etwa a schlechter?"

Sich duckend langsam wegrobbend,
Ingo Althöfer.

By Peter Martan Date 2012-02-10 17:23

[quote="Ingo Althöfer"]
Beim Googeln nach
computerschach elosion
kam nur ein einziger Treffer, und zwar von Ihnen aus dem Dezember 2011.
[/quote]
Ja, das ist schon von mir (soviel ich weiß

), ich meinte das Knef- Chanson, so gut es ist, es kommt mir einerseits bekannt vor, andererseits erinnere ich mich nicht wirklich daran, woher ich es kenne, entweder gibt es das auch auf Englisch oder Französisch, oder es ist einfach "klassisch" in dem Sinn unseres gemeinsamen Witzes
[quote="Ingo Althöfer"]
"Des is doch geklaut, des is doch vom Fabien Letouzey."
"Ja mei, is der etwa a schlechter?"

Sich duckend langsam wegrobbend,
[/quote]

By Peter Martan Date 2012-02-10 17:35

Weitergesucht und ein weiteres Indiz gefunden: scheint aus dem Film "Illusion in Moll" zu sein, den sie mit Hardy Krüger gespielt hat, vielleicht hab ich den mal gesehen und nur die Melodie im Kopf behalten..
Wenn ich alles noch wüsste, was ich im Lauf der Zeit schon vergessen hab, wäre ich dann klüger oder immer noch dümmer als so, nicht einmal das weiß ich...