Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Houdini 3 running for the IPON
1 2 3 Previous Next  
Parent - By Ingo Bauer Date 2012-10-17 21:26
Siehe letztes Posting in diesem Thread (zur Zeit).

Bye
Ingo
Parent - - By Michael Scheidl Date 2012-10-17 21:31
P.S. Ich sah gerade das es Dich auch schon interessiert:

http://rybkaforum.net/cgi-bin/rybkaforum/topic_show.pl?pid=444241

Danke sehr, interessant. Stockfish 2.2.2 verbesserte sich am meisten gegen den Taktikmodus, verglichen mit dem "normalen" Zweikampfresultat.
Parent - By Ingo Bauer Date 2012-10-17 21:39
[quote="Michael Scheidl"]
...
Danke sehr, interessant. Stockfish 2.2.2 verbesserte sich am meisten gegen den Taktikmodus, verglichen mit dem "normalen" Zweikampfresultat.
[/quote]

Ich komme mir vor wie in einer Gebetsmühle: 150 Spiele im direkten Enginevergleich sind nichts. Auf so ein Einzelergeniss zu schauen ist verführerisch aber falsch. Alles was zählt ist der Gesamtschnitt.

Gruß
Ingo
Parent - - By Benno Hartwig Date 2012-10-17 14:23
[quote="Stefan Pohl"]also spendiert hat er sie der Szene ja nun nicht - ich zumindest habe für Houdini 3 bezahlt.
Ja, da hatte ich wohl besonders gute Laune. Vielleicht auch eben durch H3 hervorgerufen.
BTW: Manche besonders tolle Musik empfinde ich auch als Geschenk an die Menschen! Auch wenn der Komponist durchaus eine Bezahlung dafür erhalten hatte.
Aber vielleicht geht der Vergleich auch zu weit.

Zitat:
Weniger als 3000 Partien reichen einfach nicht!!! Da steigt einfach die Gefahr solcher statistischer Unfälle stark an - aber R.Houdart wirds freuen.
Natürlich sind 'mehr Partien' immer gut. Dass aber eine deutlich bessere (oder gar ganz andere) Schätzqualität zustande kommt, wenn man statt 2500 Partien 3000 Partien spielt, wird nun wohl doch niemand vermuten. Jeder(!) 2500-Partien-Fehler ist dann auch möglich. Er ist nur eben ein kleines bisschen weniger wahrscheinlich.

Benno
Parent - - By Ingo Bauer Date 2012-10-17 14:38
[quote="Benno Hartwig"]

Zitat:
Weniger als 3000 Partien reichen einfach nicht!!! Da steigt einfach die Gefahr solcher statistischer Unfälle stark an - aber R.Houdart wirds freuen.
Natürlich sind 'mehr Partien' immer gut. Dass aber eine deutlich bessere (oder gar ganz andere) Schätzqualität zustande kommt, wenn man statt 2500 Partien 3000 Partien spielt, wird nun wohl doch niemand vermuten. Jeder(!) 2500-Partien-Fehler ist dann auch möglich. Er ist nur eben ein kleines bisschen weniger wahrscheinlich.



Ja Benno, auf den Punkt. Wenn zwei Listen mehr als die Fehlerbreite voneinander abweichen ist entweder einer dieser 5% Fälle eingetreten (habe ich in gut 10 Jahren noch nicht erlebt) oder es liegt an den Bedinungen - in diesem Fall wohl Bedenkzeit.
Auch stimmt schlicht nicht das Houdart nur 40 Elo erwartet hat, sondern er schrieb das er etwas weniger hat und entäuscht wäre, wenn unter IPON Bedinungen weniger als 50 Elo herrauskämen (irgendwo in den langen Talkchess Threads). Auch Houdart testet ultrkurz, im Gegensatz zu anderen ist er sich aber scheint's der Nachteile bewußt und nimmt diese nur in Kauf weil er eben kleinere Errorbars braucht um seine Enigne weiterzuentwickeln. Eine Liste auf dieser Basis aufzustellen käme ihm wohl nicht in den Sinn - wäre ja auch ein ebensolcher Un-.

Gruß
Ingo
Parent - - By Stefan Pohl Date 2012-10-17 14:51
[quote="Ingo Bauer"]
[quote="Benno Hartwig"]

Zitat:
Weniger als 3000 Partien reichen einfach nicht!!! Da steigt einfach die Gefahr solcher statistischer Unfälle stark an - aber R.Houdart wirds freuen.
Natürlich sind 'mehr Partien' immer gut. Dass aber eine deutlich bessere (oder gar ganz andere) Schätzqualität zustande kommt, wenn man statt 2500 Partien 3000 Partien spielt, wird nun wohl doch niemand vermuten. Jeder(!) 2500-Partien-Fehler ist dann auch möglich. Er ist nur eben ein kleines bisschen weniger wahrscheinlich.



Ja Benno, auf den Punkt. Wenn zwei Listen mehr als die Fehlerbreite voneinander abweichen ist entweder einer dieser 5% Fälle eingetreten (habe ich in gut 10 Jahren noch nicht erlebt) oder es liegt an den Bedinungen - in diesem Fall wohl Bedenkzeit.
Auch stimmt schlicht nicht das Houdart nur 40 Elo erwartet hat, sondern er schrieb das er etwas weniger hat und entäuscht wäre, wenn unter IPON Bedinungen weniger als 50 Elo herrauskämen (irgendwo in den langen Talkchess Threads). Auch Houdart testet ultrkurz, im Gegensatz zu anderen ist er sich aber scheint's der Nachteile bewußt und nimmt diese nur in Kauf weil er eben kleinere Errorbars braucht um seine Enigne weiterzuentwickeln. Eine Liste auf dieser Basis aufzustellen käme ihm wohl nicht in den Sinn - wäre ja auch ein ebensolcher Un-.

Gruß
Ingo


Er hat +50 Elo erwartet (steht so auf der Homepage). Und er hat die Houdini 3 beta mit 2'+2'' getestet, was man kaum als ultrakurz bezeichnen kann. Nur reine development-Versionen testet er ultrakurz, wobei ultrakurz bei ihm wesentlich kürzer ist, als die 45'+500ms bei mir.

Stefan
Parent - By Ingo Bauer Date 2012-10-17 15:11 Edited 2012-10-17 15:16
[quote="Stefan Pohl"]

Er hat +50 Elo erwartet (steht so auf der Homepage). Und er hat die Houdini 3 beta mit 2'+2'' getestet, was man kaum als ultrakurz bezeichnen kann. Nur reine development-Versionen testet er ultrakurz, wobei ultrakurz bei ihm wesentlich kürzer ist, als die 45'+500ms bei mir.

[/quote]

Er schreibt auf seiner Webseite einen 'vorsichtigen' Werbespruch, ich komme auf 15 Elo mehr und dann sind diese 15 elo ein statistischer Unfall. Wie sehr glaubst du in der Wirklichkeit zu sein? (Rhetorische Frage)

Ansonsten, Danke, alles klar, tschüss.
Parent - - By Robert Houdart Date 2012-10-17 15:42
[quote="Stefan Pohl"]Er hat +50 Elo erwartet (steht so auf der Homepage). Und er hat die Houdini 3 beta mit 2'+2'' getestet, was man kaum als ultrakurz bezeichnen kann. Nur reine development-Versionen testet er ultrakurz, wobei ultrakurz bei ihm wesentlich kürzer ist, als die 45'+500ms bei mir.

Stefan
[/quote]
I can show you my own testing results, based on gauntlets with 9 opponents, and setting Houdini 1.03a arbitrarily at 3000.

At about 10"+0.1" (ultra-short):
Code:
Houdini 1.03a   3000
Houdini 1.5a    3046
Houdini 2.0     3071
Houdini 3       3127


At 2'+1.2" (blitz, 12 times slower than above)
Code:
Houdini 1.03a   3000
Houdini 1.5a    3053
Houdini 2.0     3077
Houdini 3       3142


This gives +56 (ultra-short) and +65 (blitz) for Houdini 3.
My "+50 Elo" was based on these results, it was a prudent estimate.
My "+25 Elo" for Houdini 2 last year was also based on this, but didn't materialize in all the rating lists.

The data hints at a better scaling at longer TC for Houdini 3, it's unclear whether this is real.

Robert
Parent - - By Ingo Bauer Date 2012-10-17 15:52
[quote="Robert Houdart"]
...
This gives +56 (ultra-short) and +65 (blitz) for Houdini 3.
...
[/quote]

Thx Robert,

Stefan - setzen!

Regards
Ingo
Parent - By Wolfgang Battig Date 2012-10-17 21:49
+1  
Parent - By Stefan Pohl Date 2012-10-18 11:12
[quote="Robert Houdart"]
My "+50 Elo" was based on these results, it was a prudent estimate.
My "+25 Elo" for Houdini 2 last year was also based on this, but didn't materialize in all the rating lists.
[/quote]

In one small, new rating-list +20 Elo from Houdini 1.5a to 2.0c did materialize (errorbar of that list +-5)...(LightSpeed-rankinglist - new version(45''+450ms) (IPON: +8 ). And after now more than 6000 games played with Houdini 3 (overall scoring still 68%) it seems that +45 Elo between Houdini 3 and 2.0c will materialize in one rating-list (again: errorbar of +-5)...(again LightSpeed-rankinglist (IPON: +64 ))...

Final result of Houdini 3 in the LS-rankinglist hopefully on sunday or monday.

With LightSpeed beyond the IPON computerchess-test-frontiers!

Best - Stefan
Parent - - By Stefan Pohl Date 2012-10-17 14:46
[quote="Benno Hartwig"]
[quote="Stefan Pohl"]also spendiert hat er sie der Szene ja nun nicht - ich zumindest habe für Houdini 3 bezahlt.
Ja, da hatte ich wohl besonders gute Laune. Vielleicht auch eben durch H3 hervorgerufen.
BTW: Manche besonders tolle Musik empfinde ich auch als Geschenk an die Menschen! Auch wenn der Komponist durchaus eine Bezahlung dafür erhalten hatte.
Aber vielleicht geht der Vergleich auch zu weit.

Zitat:
Weniger als 3000 Partien reichen einfach nicht!!! Da steigt einfach die Gefahr solcher statistischer Unfälle stark an - aber R.Houdart wirds freuen.
Natürlich sind 'mehr Partien' immer gut. Dass aber eine deutlich bessere (oder gar ganz andere) Schätzqualität zustande kommt, wenn man statt 2500 Partien 3000 Partien spielt, wird nun wohl doch niemand vermuten. Jeder(!) 2500-Partien-Fehler ist dann auch möglich. Er ist nur eben ein kleines bisschen weniger wahrscheinlich.

Benno


Hi Benno,

da hab ich mich wohl mißverständlich ausgedrückt. Ich meinte, daß auch 3000 Partien noch zu wenig sind (sorry, mein Fehler). Bisher habe ich bei meiner alten und neuen LS-Rangliste immer erst ab 5000 Partien keine nennenswerten Änderungen im Ergebnis mehr gehabt. Und ich lasse ja nur gegen 10 Gegner spielen, daher werden dann bei diesen 5000 Partien auch viel mehr Eröffnungsstellungen durchgespielt (nämlich 250). Aber um ganz sicher zu gehen, habe ich mich eben sogar auf 1000 Partien pro Einzelwettkampf festgelegt. Auch, weil ich ja nicht weiß, wieviele wirklich gute Engines als mögliche Gegner in Zukunft zur Verfügung stehen werden - z.Zt. sind es 10, aber das kann ja auch mal weniger werden. Und zu schwache Gegner lehne ich prinzipiell ab. Welche Verzerrungen das generieren kann, sieht man ja sehr schön an der Sedat-Liste und den Phantasie-Elos der Houdini 2.0c-Settings. Hatte das hier vor kurzem ausführlich ausgeführt und wiederhole das daher hier nicht nochmal. Aber R.Houdart hatte mir ausdrücklich zugestimmt. Und wer eine so starke Engine basteln kann, muß sich auch beim Engine-Testen gut auskennen, denn nur so kann man ja ermitteln, ob Beta-Versionen was taugen und man auf dem richtigen Weg ist...
Auf jeden Fall sind die IPON-Testbedingungen alles andere als optimal. Wenn man bei den letzten 3 Tests starker Engines (Stocki, Critter 1.6->1.6a und Houdini 3) 2 statistische Unfälle generiert (Critter 1.6a und Houdini 3), dann ist bei den Rahmenbedingungen schwer der Wurm drin!
Ich hatte bei meiner alten LS-Rangliste nur einen solchen Unfall (zu hohes Houdini 2.0c-Rating, wegen wohl doch zu kurzer Bedenkzeiten) und habe deshalb die Liste komplett neu gestartet und jetzt auch ein realistisches Houdini 2.0c-Rating (+20 zu 1.5a, was genau der Prognose von R.Houdart entspricht). Ist natürlich nicht schön, bei Null zu beginnen, aber was will man machen?!

Gruß - Stefan
Parent - - By Simon Gros Date 2012-10-18 11:14
Die genannten Critter-Versionen liegen wohl gleichauf, dies zeigen fast alle Listen mehr oder weniger deutlich. Das gilt allerdings auch für die IPON-Liste, siehe:
Critter 1.4a         2982    8    8  5350   74%  2788   33%
Critter 1.6a         2974    9    9  3450   69%  2834   40%
Und bezüglich Stockfish:
Stockfish 2.2.2 JA   2960    8    8  5250   72%  2787   35%
Stockfish 2.3.1 JA   2959  10   10  3000   67%  2836   41%
Alles im Lot, keinerlei "Unfälle" zu erkennen.
Simon_G
Parent - - By Stefan Pohl Date 2012-10-19 07:55
[quote="Simon Gros"]
Die genannten Critter-Versionen liegen wohl gleichauf, dies zeigen fast alle Listen mehr oder weniger deutlich. Das gilt allerdings auch für die IPON-Liste, siehe:
Critter 1.4a         2982    8    8  5350   74%  2788   33%
Critter 1.6a         2974    9    9  3450   69%  2834   40%
Und bezüglich Stockfish:
Stockfish 2.2.2 JA   2960    8    8  5250   72%  2787   35%
Stockfish 2.3.1 JA   2959  10   10  3000   67%  2836   41%
Alles im Lot, keinerlei "Unfälle" zu erkennen.
Simon_G
[/quote]

Manchmal frage ich mich wirklich, warum ich hier im Forum überhaupt noch was poste, wenn ich dann solche Repliken zu lesen bekomme. Darauf kann ich nur folgendes erwidern:
Wer lesen kann ist klar im Vorteil. Erstens sprach ich von 2 statistischen Unfällen (Critter und Houdini) beim Test von 3 Top-Engines (Critter, Houdini, Stockfish) - also war Stockfish nicht gemeint... Zweitens sprach ich nie von Critter 1.4a, sondern vom Versionsupdate des Bugfixes (von 1.6 auf 1.6a). Da gab es in der IPON einen deutlichen Spielstärkerückschritt von 1.6 auf 1.6a (so um 20 Elo glaube ich mich zu erinnern, während in meiner alten LightSpeed-Liste damals nur 0.5% weniger herauskam (also weniger als 4 Elo)). Version 1.6 wurde daraufhin aus der IPON entfernt und nur 1.6a drin gelassen um den Mantel des Vergessens darüber auszubreiten, was ja augenscheinlich bei manchen auch gut geklappt hat.

Stefan
Parent - - By Timo Haupt Date 2012-10-19 10:26
[quote="Stefan Pohl"]
[...]
Zweitens sprach ich nie von Critter 1.4a, sondern vom Versionsupdate des Bugfixes (von 1.6 auf 1.6a). Da gab es in der IPON einen deutlichen Spielstärkerückschritt von 1.6 auf 1.6a (so um 20 Elo glaube ich mich zu erinnern, während in meiner alten LightSpeed-Liste damals nur 0.5% weniger herauskam (also weniger als 4 Elo)). Version 1.6 wurde daraufhin aus der IPON entfernt und nur 1.6a drin gelassen um den Mantel des Vergessens darüber auszubreiten, was ja augenscheinlich bei manchen auch gut geklappt hat.
[/quote]

Hallo Stefan,

darf ich kurz aus der IPON zitieren?

   1 Houdini 3 STD            3089   11   11  3150   81%  2833   26%
   2 Houdini 2.0 STD          3025    8    8  5850   78%  2791   26%
   3 Houdini 1.5a             3017   10   10  4000   79%  2775   26%
   4 Komodo 5                 3003    9    9  3600   72%  2833   34%
   5 Komodo 4                 2982    9    9  4850   75%  2781   30%
    Critter 1.4a             2982    8    8  5350   74%  2788   33%
   7 Critter 1.6a             2974    9    9  3450   69%  2834   40%

   8 Komodo 3                 2972   11   11  2800   74%  2778   31%
   9 Deep Rybka 4             2960    8    8  4900   74%  2770   33%
     Stockfish 2.2.2 JA       2960    8    8  5250   72%  2787   35%
     Deep Rybka 4.1           2960    7    7  6800   70%  2803   37%
  12 Stockfish 2.3.1 JA       2959   10   10  3000   67%  2836   41%
  13 Critter 1.2              2958   10   10  3100   72%  2786   37%


Wenn es stimmt, was du sagst (20 Elo), hätte die Version 1.6 also noch vor Version 1.4a gelegen. Dann hätte Ingo mit Sicherheit nicht die 1.6 rausgenommen, bzw. hätte sie statt der 1.4a in der RoundRobin-Liste weitergeführt. Dort werden ja immer nur die stärksten Versionen aufgenommen.

Ich glaube, dass ich nicht der einzige bin, den dein IPON-Bashing langsam ziemlich nervt. Es mag sein, dass es zwischen Ingo und dir persönliche Differenzen gibt, aber es wäre zum Wohle aller hier, wenn diese nicht im CSS-Forum ausgetragen werden. Mach du deine LS-Liste und Ingo macht seine IPON - was jeder an der jeweils anderen Liste auszusetzen hat, haben wir hier alle schon x-mal lang und breit gelesen. Da sich eure Meinungen über die Arbeit des jeweils anderen scheinbar auch nicht mehr ändern werden, lasst es gut sein und die CSS-Leser mit den Seitenhieben auf den jeweils anderen in Frieden.

Gruß
Timo
Parent - - By Wolfgang Battig Date 2012-10-19 13:14
[quote="Timo Haupt"]
....
Critter 1.4a             2982    8    8  5350   74%  2788   33% 
Critter 1.6a             2974    9    9  3450   69%  2834   40%

.....


Zitat:

Wenn es stimmt, was du sagst (20 Elo)


Nein, Stefans Aussage ist nicht richtig, es waren 13 Punkte, was man ohne viel Mühe auf Ingos Homepage (auf der Startseite etwas runterscrollen) nachlesen kann:

2012.06.29
Engine added - Critter 1.6a - 2850 games
The bugfix ended 13 Elo below 1.6 original
(Hervorhebung von mir)

Nun würde ich prinzipiell 7 ELO nicht überbewerten, wenn aber das Ganze mit einem verkappten Manipulationsvorwurf ("Mantel des Vergessens ausbreiten") garniert wird, sollten die Zahlen schon exakt sein.

Zitat:

, hätte die Version 1.6 also noch vor Version 1.4a gelegen. Dann hätte Ingo mit Sicherheit nicht die 1.6 rausgenommen, bzw. hätte sie statt der 1.4a in der RoundRobin-Liste weitergeführt. Dort werden ja immer nur die stärksten Versionen aufgenommen.


Es gibt grundsätzlich zwei Möglichkeiten mit einer derartigen Problematik (Nachfolger ist "schwächer" als Vorgänger) umzugehen:

-  ich nehme die "stärkere" Version (hier 1.6, dann wäre die 1.6 minimal vor der 1.4a und gehört in die "Best"-Liste)
-  ich nehme die aktuellere Version (hier mit der 1.6a geschehen)

Warum Ingo nun die 1.6a reingenommen hat, weiß ich nicht. Was ich weiß, dass es dazu Threads im CCC gegeben hat und die Tendenz da m.W. eher war, die aktuellere 1.6a reinzunehmen. Vielleicht hat sich Ingo dem angeschlossen oder vielleicht war es auch der Wunsch des Autors? Keine Ahnung, ist Spekulation, Ingo könnte es natürlich aufklären. Vielleicht hat er es auch irgendwo mal geschrieben und ich finde es nur nicht...

Ich bin jedenfalls froh, dass wir bei CEGT dieses Problem nicht haben. Wir testen die 1.6a gar nicht, weil ein Zusatztest für alle unsere Listen reine Strom-, Geld- und Zeitverschwendung wäre.

Zitat:

Ich glaube, dass ich nicht der einzige bin, den dein IPON-Bashing langsam ziemlich nervt.


Danke Timo, Du sprichst mir aus dem Herzen!

Kritik ist ok, Ingo und wir (CEGT) sind auch nicht immer einer Meinung, aber es bleibt stets sachlich, denn es geht immer um Testsystematik im allgemeinen bzw. Bedenkzeit, Hardware, Bücher, Testsuites, Gegnerauswahl, Ponder ON oder OFF usw. im besonderen. Anwürfe wie "Version xy wurde bei Dir rausgenommen um dem Mantel des Vergessens auszubreiten" gibt und gab es nie!

Was mögliche Kritikpunkte angeht, so fallen mir bei IPON wesentlich weniger ein (eigentlich nur einer) als bei LS, aber das führe ich hier nicht weiter aus, denn sonst endet die Geschichte nie...

Gruß
Wolfgang
Parent - - By Ingo Bauer Date 2012-10-19 14:53
[quote="Wolfgang Battig"]
Warum Ingo nun die 1.6a reingenommen hat, weiß ich nicht. Was ich weiß, dass es dazu Threads im CCC gegeben hat und die Tendenz da m.W. eher war, die aktuellere 1.6a reinzunehmen. Vielleicht hat sich Ingo dem angeschlossen oder vielleicht war es auch der Wunsch des Autors? Keine Ahnung, ist Spekulation, Ingo könnte es natürlich aufklären. Vielleicht hat er es auch irgendwo mal geschrieben und ich finde es nur nicht...
[/quote]

Ja kann ich. Alles was du geschrieben hast trifft zu + das die "originale" 1.6 nur sehr kurz offiziell zum Download bereitstand. Als mein Test mit der 1.6a beendet war gab es die 1.6 schon nicht mehr (und das bis heute)

[quote="Wolfgang Battig"]
Wir testen die 1.6a gar nicht, weil ein Zusatztest für alle unsere Listen reine Strom-, Geld- und Zeitverschwendung wäre.
[/quote]

Haha, Danke. JETZT weiß ich das auch
Egal, der offizielle 1.4a Nachfolger 1.6a ist schwächer als sein Vorgänger - PUNKT

[quote="Wolfgang Battig"]
... Anwürfe wie "Version xy wurde bei Dir rausgenommen um dem Mantel des Vergessens auszubreiten" gibt und gab es nie!
[/quote]

Yup, den Vorwurf habe ich bis jetzt auch noch gar nicht gelesen - zumal er offensichtlicher (sorry) Schwachsinn ist, weil ich ja auf meiner HP alles schreibe (wie oben zitiert)!

[quote="Wolfgang Battig"]
Was mögliche Kritikpunkte angeht, so fallen mir bei IPON wesentlich weniger ein (eigentlich nur einer) als bei LS, aber das führe ich hier nicht weiter aus, denn sonst endet die Geschichte nie...
[/quote]

Die Geschichte endet auch so nie raus damit (stimmt sowieso nicht ).

Gruß
Ingo
Parent - - By Wolfgang Battig Date 2012-10-19 15:41
[quote="Ingo Bauer"]
...
[quote="Wolfgang Battig"]
Was mögliche Kritikpunkte angeht, so fallen mir bei IPON wesentlich weniger ein (eigentlich nur einer) als bei LS, aber das führe ich hier nicht weiter aus, denn sonst endet die Geschichte nie...
[/quote]

Die Geschichte endet auch so nie raus damit (stimmt sowieso nicht ).

Gruß
Ingo
[/quote]

Der Punkt den ich meine istnicht neu, nämlich dass die Partien nicht erhältlich sind.
Ich weiß, dass Du dafür Deine Gründe hast, aber man muss ja nehmen, was man kriegen kann...

Gruß
Wolfgang
Parent - By Ingo Bauer Date 2012-10-19 16:09
Mist, der Punkt stimmt sogar 

Gruß
Ingo

Parent - - By Simon Gros Date 2012-10-19 10:49
Sorry, da muß ich wohl etwas verpaßt und/oder übersehen haben. Nun jedoch bleibt die Frage offen, weshalb Herr Bauer die Version 1.6, welche nach ihrer Erinnerung ca. 2994 Punkte gehabt haben müßte, nicht in die Liste als beste Version übernommen hat wie er es sonst auch tut? Und weshalb solle Houdini ein "Unfall" sein? Die Ergebnisse der IPON decken sich mit denen der CEGT.
Simon_G
Parent - - By Ingo Bauer Date 2012-10-19 14:58
Weil der Autor die 1.6a als bugbereinigte Version der 1.6 anbietet UND die 1.6 nicht mehr verfügbar ist. Soll ich dem Autor wiedersprechen?

Ingo
Parent - - By Simon Gros Date 2012-10-19 16:15
Ich hoffe sie haben verstanden, daß dies keine Kritik an ihnen war, sondern ich eine Erklärung/Antwort von Herrn Pohl diesbezüglich wollte?!
Simon_G
Parent - By Ingo Bauer Date 2012-10-19 18:11
[quote="Simon Gros"]
Ich hoffe sie haben verstanden, daß dies keine Kritik an ihnen war, sondern ich eine Erklärung/Antwort von Herrn Pohl diesbezüglich wollte?!
Simon_G
[/quote]

Die hat er doch schon gegeben. Er vermutet irgendwelche hintergründigen Machenschaften die mich verleiten die 1.6 unterdrücken zu wollen. (Don hat mich bezahlt damit Komodo besser aussieht). Auch das H3 bei mir 65 ELo+ hat ist eine gemeine Machenschaft in der auch die CEGT mit drin hängt. Wir haben alle ein paar tausend Euro bekommen um die Engine besser dastehen zu lassen. Das Böse lauert halt auch überall.

Ingo

PS: Wenn ein Autor mitliest: Für nochmal ein paar tausend mache ich auch deine Engine zur Nummer 1! Ich bin da völlig Gewissens und Ruchlos! Für ein paar tausender mehr verteidige ich das auch in den Foren.
Parent - - By Frank Brenner Date 2012-10-19 18:15
Hi Stefan,

grundsätzlich gibt es einige Dinge die du noch immer nicht ganz genau verstehst.

1. Die Elo Streung  fällt proportional mit der Wurzel der Anzahl der Spiele. Also wenn du zB bei 100 Spielen zu einem Nivo von 95% eine Streuung von +/- 48 Elo hast, dann hast du bei 1000 Spielen eine Streuung von +/- 48 / Wurzel(10). Bei 10.000 Spielen eine Streuung von +/- 48 / Wurzel(100) = +/ 4.8 ELO

Wenn sich in deiner Liste hingegen ständig zwischen der 3000 und 5000 Partie eine über den theoretischen Wert deutlich bessere Konvergenz abzeichnet, so liegt in deinem Test Aufbau irgendwo ein Fehler begraben.

2. Du schreibst ständig irgendwas von +6% oder +0,5% unterschied und leitest daraus eine Elo-Differenz ab. Das ist so nicht richtig. Der Absolute Wert ist hier erforderlich.
Ob nun 51% oder 50% erzielt werden macht im Unterschied nur wenig Elo aus. Aber zwischen zwei Spielern wo der eine 99% erreicht und der andere 99.99999% schafft, liegen gleich mehrere tausend ELO unterschied!!

Die Formel hierzu:

p =  1 / ( 1+ 10 hoch(D/400))

hierbei ist p die Gewinnquote zwischen 0.0 und 1.0 und D die Elodifferenz.

Setzt du zb für D = 400 ELO ein so erhältst du 0,0909, also eine Gewinnquote für den schwächeren Spieler von 9,09%.

Die Formel kannst du leicht nach D auflösen.

Insgesamt ist Ingo Bauer seine Ipon  Liste eine ausgezeichnet genaue Liste. Deine LS Liste ebenfalls.

Ich habe nicht den Verdacht dass in einer eurer beiden Listen ein signifikanter Testaufbau Fehler vorliegt. In deiner Liste gefällt mir die große Anzahl an Startstellungen, aber die Anzahl der Gegner ist recht gering meiner Meinung nach. Aber das ist eine Kritik auf sehr hohem Nivo.

Gruß Frank
Parent - - By Stefan Pohl Date 2012-10-22 05:00
[quote="Frank Brenner"]
Hi Stefan,

grundsätzlich gibt es einige Dinge die du noch immer nicht ganz genau verstehst.

1. Die Elo Streung  fällt proportional mit der Wurzel der Anzahl der Spiele. Also wenn du zB bei 100 Spielen zu einem Nivo von 95% eine Streuung von +/- 48 Elo hast, dann hast du bei 1000 Spielen eine Streuung von +/- 48 / Wurzel(10). Bei 10.000 Spielen eine Streuung von +/- 48 / Wurzel(100) = +/ 4.8 ELO

Wenn sich in deiner Liste hingegen ständig zwischen der 3000 und 5000 Partie eine über den theoretischen Wert deutlich bessere Konvergenz abzeichnet, so liegt in deinem Test Aufbau irgendwo ein Fehler begraben.

Das verstehe ich durchaus und von immer kann gar keine Rede sein. Ich meinte nur, daß es bis zu 3000 Partien durchaus erhebliche Schwankungen geben kann, nicht muß. Houdini 3 war z.B. schon ab 1000 Partien im Ergebnis sehr konstant.
Code:

2. Du schreibst ständig irgendwas von +6% oder +0,5% unterschied und leitest daraus eine Elo-Differenz ab. Das ist so nicht richtig. Der Absolute Wert ist hier erforderlich.
Ob nun 51% oder 50% erzielt werden macht im Unterschied nur wenig Elo aus. Aber zwischen zwei Spielern wo der eine 99% erreicht und der andere 99.99999% schafft, liegen gleich mehrere tausend ELO unterschied!!

Völlig korrekt. Meine Aussagen beziehen sich natürlich immer auf einen "normalen" Bereich von Ergebnissen (so von 55%-70%), da ist (bei gleichen Gegnern) eine Näherung von 7 Elo = ungefähr 1% Erfolgsscore durchaus praktikabel. Und genau rechnet es dann ja am Ende bayeselo aus, wenn das Endergebnis online geht.

Zitat:

Insgesamt ist Ingo Bauer seine Ipon  Liste eine ausgezeichnet genaue Liste. Deine LS Liste ebenfalls.
Ich habe nicht den Verdacht dass in einer eurer beiden Listen ein signifikanter Testaufbau Fehler vorliegt. In deiner Liste gefällt mir die große Anzahl an Startstellungen, aber die Anzahl der Gegner ist recht gering meiner Meinung nach. Aber das ist eine Kritik auf sehr hohem Nivo.


Stimmt, auch meine Kritik ist eine auf hohem Niveau. Währe die IPON totaler Schrott, würde ich meine Zeit gar nicht mit Postings über sie verschwenden. Ich meine nur, wenn man soviel Hardware und Enthusiasmus aufbringt wie Ingo, dann ist es einfach sehr, sehr schade, daß durch - ich sags mal diplomatisch - veraltete Testbedingungen und den fragwürdigen IPPO-Boykott (Ivanhoe, Robbo, Bouquet etc.) noch sehr viel bessere, interessantere und genauere Ergebnisse nicht realisiert werden. Was allerdings bei der IPON gar nicht geht, ist das Geheimhalten der Partiedaten. Das spricht jedweder seriösen Testmethodik Hohn.
Parent - By Michael Scheidl Date 2012-10-22 11:37
Zitat:
und den fragwürdigen IPPO-Boykott (Ivanhoe, Robbo, Bouquet etc.)

Zwar glaube ich, wie an anderer Stelle gerade geschrieben, daß sich die Ippo-Derivate auseinander entwickeln (ohne daß ich das belegen kann). Aber Deine Kritik könnte man leicht umdrehen und sagen, in der  LS-Rangliste sind - bei an sich schon kleinem Teilnehmerfeld - zu viele (sehr?) ähnliche Engines. "Journalistisch überspitzt" könnte man sagen, LS ermittelt die besten Anti-Ippos.

Ich selber sehe das aber lockerer und nehme manche methodischen Einwände nicht besonders wichtig. Ich habe bei fast jeder sorgfältig erstellten Testrangliste den Eindruck, interessante Informationen vorzufinden, und dafür möchte ich allen Testern hiermit herzlich danken. Diverse Unterschiede in den Testbedingungen kann man eigentlich nur quasi intuitiv interpretieren; erfahrungsgemäß läßt sich statistisch hierbei praktisch nichts beweisen...
Parent - - By Wolfgang Battig Date 2012-10-22 16:06
[quote="Stefan Pohl"]
.... veraltete Testbedingungen


Dachte ich es mir doch: Das "IPON"-Bashing oder exakter: das "Alle-die-nicht-so-testen-wie-ich, Stefan Pohl-es-für-richtig-halte" - Bashing geht weiter... 

Was ist an Ingos Testbedingungen denn "veraltet"? Dass er in eine 20-Engine-Liste keine 5 (oder mehr) mehr oder weniger gleiche oder zumindest sehr ähnliche Engines aufnimmt (andere schaffen das übrigens bei einer 11-Engine-Liste)? Oder "nur" 150 Partien je Match spielt? Oder dass auch "schwächere" Engines, die 300 oder 400 ELO hinter der Spitze liegen getestet werden?

Tu mal "Butter bei die Fische" und schwabulier nicht im Nebel rum!

Könnte meine CEGT-Kollegen mich und auch interessieren, und die CCRL, und die SSDF, und , und, und...
Sooo unterschiedlich sind die Testmethodiken nämlich nicht!

Zitat:
und den fragwürdigen IPPO-Boykott (Ivanhoe, Robbo, Bouquet etc.)


die einen sagen fragwürdig, andere nachvollziehbar...
Ingo hat sich da klar festgelegt und es auch begründet.

Hör bitte auf, deine Meinung als Tatsache zu verkaufen. "Der aus meiner Sicht fragwürdige..." wäre ggfs. die bessere Formulierung gewesen.

Zitat:
Was allerdings bei der IPON gar nicht geht, ist das Geheimhalten der Partiedaten....


Da stimme ich dir ausnahmsweise mal zu
Parent - - By Stefan Pohl Date 2012-10-22 16:40
[quote="Wolfgang Battig"]
Oder "nur" 150 Partien je Match spielt? Oder dass auch "schwächere" Engines, die 300 oder 400 ELO hinter der Spitze liegen getestet werden?


So ist es. 75 Vorgabestellungen sind zuwenig, um den Effekt abzufedern, daß einige Stellungen einer Engine sehr gut liegen oder nicht liegen (können). Dieses Problem kann man nicht verhindern, nur mit sehr viel mehr Vorgabestellungen zumindest abfedern. Das ließe sich leicht vermeiden, wenn die IPON ein Ligen-system einführen würde, um die a) die Anzahl der Gegner pro Engine zu reduzieren, sodaß mehr Vorgabestellungen in den einzelnen Matches abgespielt werden können und b) den Verzerrungseffekt zu vermeiden, der auftritt, wenn zu starke gegen zu schwache Engines spielen. Diesen habe ich hier schon mehrfach erläutert, auch Robert Houdart hat mir diesbzgl. ausdrücklich zugestimmt. Nochmal hierhin kopiert:

Die in der Sedat-Liste stärkeren Houdini-Settings basieren im Endeffekt alle auf der T3-Setting-Idee, nämlich mit höheren Pawnstormwerten eine höhere Aggressivität der Engine zu erreichen. Testet man nun so ein Setting gegen viele deutlich schwächere Engines, wird man leicht eine gewisse Elosteigerung feststellen (wie das ja in der Sedat-Rangliste auch der Fall ist). Das passiert, weil ein aggressiveres Setting die Verzerrung ein wenig minimiert, die üblicherweise auftritt, wenn man starke Engines gegen zu schwache Gegner testet. Das hatte ich hier schon mehrmach ausgeführt: Alle Engines sind Autisten und wissen nicht, wie gut bzw. schlecht ihr Gegner ist. Daher wird ein Houdini, wenn er leicht schlechter steht, gerne in ein mögliches Remis durch Dauerschach oder Zugwiederholung einschwenken, auch wenn der Gegner so viel schwächer ist, das er eigentlich die Partien dennoch gewinnen würde. Houdini weiß eben nicht, daß der Gegner so viel schlechter ist. Hat man nun ein aggressiveres Setting, erzeugt man mehr taktische Verwicklungen im Mittelspiel und die Chance erhöht sich, daß eine starke Engine dann früh einen taktischen Schlag gegen eine schwachen Gegner ausführen kann, bevor ein Remis durch Zugwiederholung o.ä. auftritt. Daher scheint ein aggressives Setting in einem solchen Test-Milieu plötzlich besser zu sein als die Default-Engine. Das ist aber eine Täuschung, die darauf basiert, das gegen zu viele zu schwache Gegner getestet wird (s.o.).
Das ist ja der Grund, warum ich weder von der IPON noch von der Sedat-Liste viel halte, wenn es darum geht, die allerbesten Engines zu testen: Es wird gegen zu viele, zu schwache Gegner getestet, was die Ergebnisse verzerrt (sehr starke Engines schneiden eben etwas schlechter ab). Das aggressive Setting reduziert nun diese Verzerrung ein wenig und dadurch scheint es dann besser zu sein als der default-Houdini. Aber das ist leider nur eine Illusion basierend auf falschen Test-Rahmenbedingungen. In meiner alten LS-Liste hatte ich ja auch mal Houdini-Settings getestet (t3 und z glaube ich) und dort konnte keines (trotz großer Partienzahl gegen diverse Gegner) besser scoren (nie außerhalb der Errorbar). Eben weil in der LS-Liste keine so schwachen Gegner vorkommen...
Zitat:


Tu mal "Butter bei die Fische" und schwabulier nicht im Nebel rum!


All das habe ich bereits mehrfach hier erörtert. Wenn du das nicht mitkriegst, OK, aber dann wirf mir nicht vor, ich schwabulierte im Nebel rum.

Zitat:

Könnte meine CEGT-Kollegen mich und auch interessieren, und die CCRL, und die SSDF, und , und, und...
Sooo unterschiedlich sind die Testmethodiken nämlich nicht!


Stimmt leider!
Zitat:

Zitat:
und den fragwürdigen IPPO-Boykott (Ivanhoe, Robbo, Bouquet etc.)


die einen sagen fragwürdig, andere nachvollziehbar...
Ingo hat sich da klar festgelegt und es auch begründet.

Hör bitte auf, deine Meinung als Tatsache zu verkaufen. "Der aus meiner Sicht fragwürdige..." wäre ggfs. die bessere Formulierung gewesen.


Stimmt, meine Formulierung war da sicher nicht optimal. Aber das sog. klar festlegen in der IPON ist ja gerade das Problem: Denn das scheitert zwangsläufig daran, daß man gar nicht klar sagen kann, wo nun überall Ippocode drin ist und wieviel davon erst Recht nicht. Was ist z.B. mit Critter 1.6a? Das meine ich ja gerade. Da das eben nicht klar festlegbar ist, ist jede klare Festlegung zwangsläufig immer willkürlich und eben nicht nachvollziehbar!
Um das aber auch klar zu sagen: Ich habe mich in der LS-Rangliste deshalb auch nie so festgelegt und lasse nur primitive 100%-Clone wie Deep Matrix raus und kommerzielle Engines, von denen ich meine, daß sie nur minimal variierte Ippos sind (Vitruvius). Aber auch das ist letztlich eine gewisse Willkür meinerseits. Aber ohne geht es nun mal nicht, denke ich. Nur sollte man dann eben nicht so tun, daß man sich klar festgelegt hätte, weil das nämlich schlicht nicht möglich ist - meiner unmaßgeblichen Meinung nach (war das besser so?).
Zitat:

Zitat:
Was allerdings bei der IPON gar nicht geht, ist das Geheimhalten der Partiedaten....


Da stimme ich dir ausnahmsweise mal zu

Siehste. Das ist eben kein IPON-Bashing, sondern eine indiskutable, unseriöse Vorgehensweise. Niemand wäre glücklicher als ich, wenn die IPON endlich transparent würde, ein Ligensystem einführen würde und nicht so viele Engines der Spitzengruppe weglassen würde. Das wäre super und ich bräuchte mit meiner murkeligen Hardware nicht selber eine Mini-Liste des Top-Spielstärke-Bereiches (für mehr reicht meine Hardware leider nicht aus) auf die Menschheit loszulassen.

Gruß - Stefan
Parent - - By Simon Gros Date 2012-10-22 17:29
Da wir u.a. gerade bei "Forderungen" bezügl. der diversen Listen sind. Mir persönlich (nur mir?) würde ihre Liste deutlich mehr zusagen, wenn diese:
- mit mindestens 3mal so langer Bedenkzeit durchgeführt würde
- dafür gerne nur die Hälfte oder ein Drittel der Spiele beinhalten würde
- dafür jedoch doppelt so viele (auch etwas schwächere) Programme berücksichtigen würde
Aber bloß keine weiteren IPPO/ROBBO/LITOs u.ä., sondern gerne auch Naum, Shredder, Chiron ...
Das Vergleiche gegen "schwächere" Programme die Ergebnisse verzerren, habe ich in noch keiner einzigen mir bekannten Liste entdecken können.
Simon_G
Parent - - By Benno Hartwig Date 2012-10-22 17:53
[quote="Simon Gros"]- mit mindestens 3mal so langer Bedenkzeit durchgeführt würde
- dafür gerne nur die Hälfte oder ein Drittel der Spiele beinhalten würde
- dafür jedoch doppelt so viele (auch etwas schwächere) Programme berücksichtigen würde[/quote]Über den Daumen gepeilt würde dies mindestens den doppelten Ressourceneinsatz erfordern.
Und 2500 Partien reduzieren auf 1250 oder gar 833 würde ich gaaanz schlecht finden.

Diese Zeiten interessieren einen ggf. zwar mehr. Und wenn man die Partien nachspielen will, braucht man sie eben. OK.

Wenn einen aber die Abschätzung einer relativen Spielstärke interessiert, dann liefern 2500 Partien bei eigentlich zu kurzen Zeiten in den allermeisten Fällen einen verlässlicheren Schätzwert als die 'richtigen Zeiten' bei nur 833 oder 1250 Partien. Die Streuung wird nach meinerm Eindruck weit größer als die rel. Spielstärkedifferenzen bei einer Zeiten-Verdopplung oder -Verdreifachung.

Extrem gesprochen: Auch wenn dich die Turnier-Spielstärke interessiert, dann mache lieber 1000 Blitzpartien als nur 40 Turnierpartien.

Benno
Parent - - By Simon Gros Date 2012-10-22 19:17
Die Hälfte meint 500 Spiele pro Match, ein Drittel meint 333 Spiele pro Match. Bisher werden bei dieser Liste 1000 Spiele pro Match durchgeführt. Ich bin der Meinung das um die 150-200 Spiele ausreichen würden pro Begegnung, wenn man die Zahl der Gegnerschaft entsprechend erhöht.
Simon_G
Parent - - By Benno Hartwig Date 2012-10-22 22:02
[quote="Simon Gros"]Ich bin der Meinung das um die 150-200 Spiele ausreichen würden pro Begegnung, wenn man die Zahl der Gegnerschaft entsprechend erhöht.[/quote]'pro Begegnung'? Was meinst du damit?
Wieviele 'Begegnungen' sollte dann jede Engine machen? Wieviele Partien pro Engine sollten insgesamt herauskommen? Diese Anzahl darf halt nicht zu klein sein, sonst wird die Fehleranfälligkeit immer sehr groß bleiben müssen!
Um die Gegnerschaft und anderer Rahmenbedingungen darf man sich darüber hinaus ja sicher auch gern optimierende Gedanken machen.
Benno
Parent - - By Simon Gros Date 2012-10-23 07:19
Ganz einfach. 20 Programme, jedes spielt gegen jedes 200 Spiele, bei 3mal so großer Bedenkzeit. So käme man auf 3800 Spiele pro Schachengine.
Simon_G
Parent - - By Benno Hartwig Date 2012-10-23 17:18
[quote="Simon Gros"]Ganz einfach. 20 Programme, jedes spielt gegen jedes 200 Spiele, bei 3mal so großer Bedenkzeit. So käme man auf 3800 Spiele pro Schachengine.[/quote]Klar, das sind schön viele Spiele (mit entsprechendem Aufwand).
Aber was meintest du mir "Bisher werden bei dieser Liste 1000 Spiele pro Match durchgeführt."
So viele Spiele für ein Engine-Paar macht doch niemand, oder? Man gibt sich doch immer(?) mit 100 (z.B. CEGT) oder höchstens wenigen hundert Partien pro Engine-Paar zufrieden (Ingo, wieviele waren es noch bei dir?). CCRL nimmt meistens weniger Partien bei größerer Gegneranzahl.
Benno
Parent - - By Simon Gros Date 2012-10-23 19:24
Die "LS-Liste", um die es hier geht, spielt pro Begegnung 2x500 Spiele = 1000. Ist ihnen dieser Fakt entgangen? Aus diesem Grunde sage ich ja, daß weniger Spiele pro Begegnung auch in Ordnung wären und man somit die Bedenkzeit erhöhen könnte und mehr Programme hinzuziehen könnte.
Simon_G
Parent - By Benno Hartwig Date 2012-10-23 22:48
[quote="Simon Gros"]Die "LS-Liste", um die es hier geht, spielt pro Begegnung 2x500 Spiele = 1000. Ist ihnen dieser Fakt entgangen? [/quote]Sorry, ja. Dass diese Liste pro Begegnung 1000 Spiele macht, war mir entgangen. Obwohl es oben beschrieben steht
10.000 Partien für jede Engine ist seehhr viel. Wie man die dann am besten verteilt auf die Gegner, mag man diskutieren wollen. Ich habe den Eindruck, bei dieser großen Partienzahl und immerhin 10 Gegnern ist das ggf. auch gar nicht sooo gravierend. Wenn einen nur diese Engines interessieren, kann man es so machen.

Aber 45''+500ms  fällt mir ins Auge!
Die LS-Liste liefert statistisch sehr belastbare Bewertungen der rel. Spielstärken bei dieser kurzen Zeit.
Es wäre sehr interesant abzugleichen, wie die hier ermittelten Spielstärkedifferenzen passen zu denen, die z.B. im Blitz oder auch bei noch längeren Zeiten ermittelt werden, z.B. bei CEGT und CCRL.
Ist da irgendwas überraschend, oder darf man dies als Bestätigung der These "auch kürzeste Zeiten liefern eine sehr gute Schätzung der Turnierspielstärke" ansehen?

Benno
Parent - - By Thomas Schoenegger Date 2012-10-22 20:44
Stefan, du schreibst: Die in der Sedat-Liste stärkeren Houdini-Settings basieren im Endeffekt alle auf der T3-Setting-Idee, nämlich mit höheren Pawnstormwerten eine höhere Aggressivität der Engine zu erreichen. Testet man nun so ein Setting gegen viele deutlich schwächere Engines, wird man leicht eine gewisse Elosteigerung feststellen (wie das ja in der Sedat-Rangliste auch der Fall ist). Das passiert, weil ein aggressiveres Setting die Verzerrung ein wenig minimiert, die üblicherweise auftritt, wenn man starke Engines gegen zu schwache Gegner testet.
Du widersprichst dir ja selbst. Die default Engine spielt ja gegen die gleichen Gegner. Dein Argument versteh ich einfach nicht. Außerdem argumentierst du doch auch immer: Jene Engine scort um so und soviel besser, was macht hier den Unterschied zu den Settings in Sedat's Liste? Wenn du gegen Sedat wetterst ok., deine Sache. Würdest du die Spieledatei anschauen wirst du eben dies feststellen. Houdini default spielt 50 Runden gegen alle anderen Gegner, wie eben die Settings.
Vergleiche mal H1.5a und H2: Du wirst feststellen, dass eben diese von dir genannten Parameter geändert wurden + Damenwert herabgesetzt, mit Numa Architektur, Learning File usw. Kannst du alles selbst überprüfen. Erst durch den Vergleich der 1.5a und 2.0 kamen diese Settings. Ist doch normal, oder??, so nach dem Motto - was du kannst, kann ich schon lange.
Etwas noch: Ich teste nur mit 50 Vorgabestellungen, aber absolut neutral und ja ich weiß 50 Runden bedeuten +/-70, 100Runden +/-50. Jedoch wird mit  100%&iger Sicherheit  die "stärkste Engine an Rang 1 stehen. Und vergessen wir die Eloabstände.
Mach mir einen Gefallen: Überprüfe deine 500 Vorgabestellungen und sage mir wieviele mit einem +/-40 bis 50 starten. Für mich  völlig inakzeptabel. Ein Fernschachspieler würde jubilieren, wenn er so aus der Eröffnung kommen würde. In jeder Liste kann man Mängel/Stärken finden, wenn man nur will.

Thomas Schönegger

kleine Anmerkung, wir ALLE können wohl sagen H3 ist saustark. R.H. musste wohl nach H2(kommerziell) ein Scheit drauflegen: Elomäßig,Taktikmode. Ansonsten wäre ER ziemlich in Bedrängnid geraten. So, kann ich nur sagen: RESPEKT
Parent - - By Michael Scheidl Date 2012-10-23 03:29
Zitat:
Mach mir einen Gefallen: Überprüfe deine 500 Vorgabestellungen und sage mir wieviele mit einem +/-40 bis 50 starten. Für mich  völlig inakzeptabel. Ein Fernschachspieler würde jubilieren, wenn er so aus der Eröffnung kommen würde.

Das ist ein völlig plausibler, jedoch sehr hoher Qualitätsanspruch, insbesondere bei der stattlichen Anzahl von 500.

Zum Vergleich, ich habe zwar keine großen Eröffnungssets erstellt aber "neutrale" Bücher, und beim Balanced-12 hielt ich fest:

Zitat:
-> Testlauf über 200 Varianten mit Engines geprüft:
   bei 187/200 beide ersten Bewertungen innerhalb +/- 0,50

http://members.aon.at/computerschach/links.htm#downloads

Etwas besseres werde ich vermutlich kaum zusammenbringen. - Wobei ich vergessen habe wie und mit welchen Engines ich das gemessen habe; nach heutigen Standards war diese Überprüfung wohl nicht sehr gut.

Aber: Enginebewertungen in bzw. ausgangs der Eröffnung ist nicht 100% zu trauen. Es kann z.B. durchaus sein, daß eine Seite (Über-)kompensation für einen Gambitbauern hat, das aber noch nicht so bewertet. Die Engines sind aber heute so stark daß eine tatsächlich vorhandene Kompensation im weiteren Spielverlauf sichtbar werden wird. D.h. wenn sich bestimmte Zugfolgen seit langem in der menschlichen Meisterpraxis bewährt haben, sollte man sie m.E. nicht verwerfen, nur weil sie Engines (zunächst) schlecht bewerten...
Parent - By Timo Haupt Date 2012-10-23 18:19
[quote="Michael Scheidl"]
Aber: Enginebewertungen in bzw. ausgangs der Eröffnung ist nicht 100% zu trauen. Es kann z.B. durchaus sein, daß eine Seite (Über-)kompensation für einen Gambitbauern hat, das aber noch nicht so bewertet. Die Engines sind aber heute so stark daß eine tatsächlich vorhandene Kompensation im weiteren Spielverlauf sichtbar werden wird. D.h. wenn sich bestimmte Zugfolgen seit langem in der menschlichen Meisterpraxis bewährt haben, sollte man sie m.E. nicht verwerfen, nur weil sie Engines (zunächst) schlecht bewerten...
[/quote]

Das kann ich nur voll und ganz unterschreiben! Michael hat hier einen sehr wichtigen Hinweis geliefert, den jeder beachten sollte, der sich ein Eröffnungsset für Vorgabestellungen zusammenbauen möchte. Ich spreche aus Erfahrung: Die 250 Stellungen des KM-ECO-Tests (werden nächstes Jahr veröffentlicht, zusammen mit den ersten Ergebnissen des momentan laufenden Tests) wurden sorgfältig ausgesucht. Das Kriterium war jedoch nicht vorrangig, wie Engines die Stellungen direkt bewerten, sondern dass sie in eine dynamische Position entlassen werden, welche typisch für den jeweiligen ECO-Code ist, Chancen für beide Seiten bietet und mehrere gute Züge möglich sind. Beim Zuschauen erlebe ich es immer wieder, dass in Partien zwischen gleichstarken Gegnern zunächst beide Kontrahenten eine Stellung als nachteilig für eine der Seiten bewerten, doch in den ersten 5-10 Zügen danach dieser vermeintliche Bewertungsvorsprung schon wieder "aufgebraucht" ist und durchaus plötzlich die andere Seite in Vorteil kommt. Bei königsindischen Stellungstypen ist das z.B. häufiger der Fall. Früher hieß es immer, dass Schachprogramme mit Schwarz diese nicht gut beherrschen. Mag damals richtig gewesen sein, doch es gibt inzwischen einige Engines, die damit gut klarkommen - auch wenn sie ihre Position nach Verlassen des Buches bzw. der Vorgabestellung zunächst schlecht bewerten (teils sogar schlechter als 0,5). Im Laufe der Partie zeigt sich jedoch, dass sie trotzdem die richtigen Züge spielen, welche dem strategischen Charakter gerecht werden. Im entscheidenden Moment opfern sie dann sogar Material für den Angriff und man hat das Gefühl, einem menschlichen Spieler zuzuschauen, der seinen typischen Königsinder-Plan durchgesetzt hat.

Fazit: Das Potenzial einer (Eröffnungs-)Stellung sollte man nicht zwingend an der augenblicklichen Engine-Bewertung festmachen. Viel besser würde es sich eigenen, die Eröffnungsstellung durch ein paar Tausend (Monte-Carlo like) Partien mit ultra-kurzer BZ ausspielen zu lassen. Dann bekommt man eine gewisse Ergebnisspannbreite, z.B. 30% Weißsiege, 50% Remisen, 20% Schwarzsiege. Hier kann dann jeder für sich festlegen, welches Verhältnis von Weiß- zu Schwarzsiegen er noch für vertretbar hält. Danach lässt sich dann ein schönes Kriterium festlegen, ob die Stellung für das Set geeignet ist oder nicht. Man kann es sogar aus einer anderen Perspektive sehen: Man lässt in einem Set aus Eröffnungsstellungen bewusst sogar 5% an Stellungen zu, bei denen das o.g. Verhältnis außerhalb der festgelegten Grenze angesiedelt ist. Dies ist allerdings nur dann sinnvoll, wenn man mit Farbwechsel testet (was ich generell für besser halte). Hintergrund wäre die Idee, herauszufinden, ob die Engines in der Lage sind, diesen Eröffnungsvorteil auch umsetzen zu können. Gehört meiner Meinung nach auch zum Portfolio einer guten Engine dazu.
Parent - By Stefan Pohl Date 2012-10-23 06:14
[quote="Thomas Schoenegger"]
Stefan, du schreibst: Die in der Sedat-Liste stärkeren Houdini-Settings basieren im Endeffekt alle auf der T3-Setting-Idee, nämlich mit höheren Pawnstormwerten eine höhere Aggressivität der Engine zu erreichen. Testet man nun so ein Setting gegen viele deutlich schwächere Engines, wird man leicht eine gewisse Elosteigerung feststellen (wie das ja in der Sedat-Rangliste auch der Fall ist). Das passiert, weil ein aggressiveres Setting die Verzerrung ein wenig minimiert, die üblicherweise auftritt, wenn man starke Engines gegen zu schwache Gegner testet.
Du widersprichst dir ja selbst. Die default Engine spielt ja gegen die gleichen Gegner. Dein Argument versteh ich einfach nicht.

Das ist leider offensichtlich der Fall. Aber leider bin ich mittlerweile an einem Punkt, an dem ich mich sogar Ingo anschließen muß, der hier vor kurzem sehr schön formulierte, daß er sich vorkäme wie in der Gebetsmühle. So komme ich mir auch langsam vor. Deshalb mache ich hier an dieser Stelle mit den immergleichen Erklärungen Schluß. Sorry, nix gegen dich, aber ich habe einfach genug davon. Laß es dir bitte von jemand anderem erklären. Robert Houdart z.B., der hat es verstanden und ist derselben Meinung.
Zitat:

Mach mir einen Gefallen: Überprüfe deine 500 Vorgabestellungen und sage mir wieviele mit einem +/-40 bis 50 starten. Für mich  völlig inakzeptabel.

Das mache ich mit Sicherheit nicht, denn da verlasse ich mich auf Frank Q., der die Vorgabestellungsdatenbank mit mehreren tausend Partien damals mit ungeheurem Aufwand erstellt hat und alle Stellungen auch mit Stockfish auf zu extreme Bewertungen überprüft hat. Ich habe dann aus diesem Pool 500 Stellungen herausgenommen.
Parent - By Stefan Pohl Date 2012-10-23 06:16
[quote="Benno Hartwig"]
[quote="Simon Gros"]- mit mindestens 3mal so langer Bedenkzeit durchgeführt würde
- dafür gerne nur die Hälfte oder ein Drittel der Spiele beinhalten würde
- dafür jedoch doppelt so viele (auch etwas schwächere) Programme berücksichtigen würde[/quote]Über den Daumen gepeilt würde dies mindestens den doppelten Ressourceneinsatz erfordern.
Und 2500 Partien reduzieren auf 1250 oder gar 833 würde ich gaaanz schlecht finden.

Diese Zeiten interessieren einen ggf. zwar mehr. Und wenn man die Partien nachspielen will, braucht man sie eben. OK.

Wenn einen aber die Abschätzung einer relativen Spielstärke interessiert, dann liefern 2500 Partien bei eigentlich zu kurzen Zeiten in den allermeisten Fällen einen verlässlicheren Schätzwert als die 'richtigen Zeiten' bei nur 833 oder 1250 Partien. Die Streuung wird nach meinerm Eindruck weit größer als die rel. Spielstärkedifferenzen bei einer Zeiten-Verdopplung oder -Verdreifachung.

Extrem gesprochen: Auch wenn dich die Turnier-Spielstärke interessiert, dann mache lieber 1000 Blitzpartien als nur 40 Turnierpartien.

Benno
[/quote]

Hi Benno, danke für das Posting. Unterschreib ich zu 100% und spart mir die Arbeit. Thanx.

Stefan
Parent - - By Wolfgang Battig Date 2012-10-22 18:28
[quote="Stefan Pohl"]
....
...... Denn das scheitert zwangsläufig daran, daß man gar nicht klar sagen kann, wo nun überall Ippocode drin ist und wieviel davon erst Recht nicht. Was ist z.B. mit Critter 1.6a? Das meine ich ja gerade. Da das eben nicht klar festlegbar ist, ist jede klare Festlegung zwangsläufig immer willkürlich und eben nicht nachvollziehbar!


Stefan, lies bitte mal nach was Ingo zu dem Thema geschrieben hat bzw. auf seiner Homepage gepostet hat. Er macht es davon abhängig, dass ein Autor mit seinem Namen dazu steht und auch die Konsequenzen trägt, wenn ein Clone-Verdacht sich erhärtet (bei Freeware ist das nicht so bedeutend, sollte aber bei Houdini was nachgewiesen werden, kann das böse juristische Konseqenzen für Robert haben).  Bei Critter ist das der Fall, bei dem ganzen Ippo/Robbo/Ivan Gelumpe wohl eher nicht.

Man kann über die festen Kriterien immer streiten, aber dass Ingo keine festen Bedingungen hat, ist Quatsch. Da sind wir und CCRL viel chaotischer.

Zitat:
...- meiner unmaßgeblichen Meinung nach (war das besser so?).


na bitte, geht doch

Zitat:

.....
Siehste. Das ist eben kein IPON-Bashing, sondern eine indiskutable, unseriöse Vorgehensweise. ....


Interpretier meine Formulierung "stimme ich ausnahmsweise zu" nicht so um, also ob wir einer Meinung wären.
In dem einen Punkt bin ich deiner Meinung (das weiß Ingo auch), alles andere, was du hier über IPON vom Stapel lässt ist - meiner Meinung nach - totaler Humbug

Eine Anmerkung noch zum Schluss:
Wenn Computerschach nur aus 10 Engines bestünde (davon noch 5 "mehr oder weniger" Clones) würde ich sofort aufhören.
Gibt es nur 10 Tennisspieler auf der Welt? Spielt da nicht auch mal die Nr. 1 gegen die Nr. 50 (und verliert auch mal)?
Ich habe höchsten Respekt vor Autoren die Engines im 2400 oder 2500er Bereich programmieren und das wenigstens ehrlich. Ein Test dieser macht mir mehr Spaß als den
x-ten Ableger von einer eh schon "geklauten" Version zu testen. Strom~ und (Lebens)Zeitverschwendung.
Parent - By Thomas Müller Date 2012-10-22 20:57
[quote="Wolfgang Battig"]
Ich habe höchsten Respekt vor Autoren die Engines im 2400 oder 2500er Bereich programmieren und das wenigstens ehrlich. Ein Test dieser macht mir mehr Spaß als den
x-ten Ableger von einer eh schon "geklauten" Version zu testen. Strom~ und (Lebens)Zeitverschwendung.
[/quote]

1000% DITO
Parent - - By Michael Scheidl Date 2012-10-23 03:11
Zitat:
Da sind wir und CCRL viel chaotischer.

Das muß nicht schlechter sein, das kann sogar gut sein. Mittlerweile beginne ich an "labormäßigen" Bedingungen ein wenig zu zweifeln. Man versucht jeweils - ich früher ebenfalls - sich an eine quasi wissenschaftliche Testmethodik anzunähern (so wie man sich das als Laie halt vorstellt), indem man so viel wie möglich vereinheitlicht. Das ist jedoch sehr steril; die Anwenderpraxis im Schach ist viel chaotischer.

Ich gehe davon aus daß für die Aussagekraft von Engineratings hauptsächlich zwei Faktoren entscheidend sind: 1. Anzahl der Partien, und 2. Anzahl der Gegner.

Man kann mehrere "Sets" von plausiblen Testbedingungen definieren, anwenden und die Resultate dann zusammenfassen. Die mir bekannten Tester bzw. Ranglisten arbeiten immer nur mit einer einzigen Definition. Beim Blivorix hatte ich seinerzeit zwei verschiedene GUIs und zwei diesen zugeordnete, verschiedene Zeitkontrolltypen eingesetzt. Die Idee ließe sich bestimmt erweitern.
Parent - - By Werner Schüle Date 2012-10-23 23:05
Ich kenne ein Testset von der früheren Zeitschrift Chessbits, dort war der Schreiber der Meinung, nach der Eröffnung muss was los sein - danach sind ein paar grundsätzliche Strategien gefragt. Nur so kann man erkennen, was die Engine leistet. Es wird ja jede Stellung mit Schwarz und Weiss gespielt. Warum soll am Ende der Vorgabe also immer +- 0 in den Bewertungen sein?? Das gibt doch nur langweilige Spiele, oder?
Zum Nachdenken.
Gruß
Werner
Parent - - By Thorsten Czub Date 2012-10-24 01:17
[quote="Werner Schüle"]
Ich kenne ein Testset von der früheren Zeitschrift Chessbits, dort war der Schreiber der Meinung, nach der Eröffnung muss was los sein - danach sind ein paar grundsätzliche Strategien gefragt. Nur so kann man erkennen, was die Engine leistet. Es wird ja jede Stellung mit Schwarz und Weiss gespielt. Warum soll am Ende der Vorgabe also immer +- 0 in den Bewertungen sein?? Das gibt doch nur langweilige Spiele, oder?
Zum Nachdenken.
Gruß
Werner
[/quote]

wegen der riesigen rechentiefen , wegen der "verwandtschaft" der engines gehen doch heute die häufigsten spiele sowieso remis aus.
deswegen tendiere ich auch fuer gambit eröffnungen oder stellungen wo noch nicht alles abgetauscht ist.

remisen haben wir schon genug. es macht ja oft mehr spass meine alten schachcomputer herauszuholen und diese 1800 ELO viecher anzuschauen als die heutigen programme wo sich nach 40 zuegen die partie dem remistod nähert.
vielfach sind die heutigen schachprogramme genauso langweilig wie die sich immer ähnlicher werdenden autos dieser zeit.
Parent - - By Peter Martan Date 2012-10-24 06:34
Hallo Thorsten, hallo Werner!

Eure beiden Vorpostings sind mit Abstand das Beste, was ich in den letzten Jahren zu diesem Hauptthema des Computerschachs gelesen habe.
Ich hatte schon wieder eine lange Litanei dazu getippt, erspare sie aber euch und den anderen, der Zug kommt endlich wieder etwas ins Rollen, da muss ich ihn nicht mehr mit meinen schwachen Händen anschieben.
Parent - - By Timo Haupt Date 2012-10-24 08:40
Hallo Peter, Thorsten und Werner,

ich will ja nicht allzu sehr die Werbetrommel für etwas noch Unveröffentlichtes rühren, aber unsere KM-ECO-Testsuite haut genau in diese Kerbe. Siehe auch: http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=53808

Unsere Idee war, die Engines in Stellungen zu entlassen, bei denen sozusagen noch alles möglich ist:
a) eine recht frühe Phase, in der lediglich die Weichen für den ECO-Code, aber noch nicht für den späteren Partieverlauf gestellt wurden
b) verschiedene gute Züge / Pläne stehen zur Auswahl
c) Engines haben die Möglichkeit, nicht nur bekannte Theorie nachzuspielen, sondern auch neue Wege zu beschreiten

Bewusst wurden auch Stellungen miteinbezogen, in denen eine Seite bereits einen Bauern für Kompensation geopfert hat. Es ist dann manchmal recht spannend zu sehen, dass die Seite mit dem Mehrbauern sich daran festklammert, während die andere Seite einen Angriff durchzieht. Umgekehrt kommt es auch vor, dass der Mehrbauer schnell zurückgegeben wird, um die Angriffsbemühungen des Gegners im Keim zu ersticken. Da mit Farbwechsel gespielt wird, halte ich es auch für legetim, einige zweischneidige Eröffnungen in das Testset aufzunehmen - selbst wenn die Theorie bereits nachgewiesen hat, dass es für eine der Seiten nachteilig ist. Denn es kann doch ruhig mitgetestet werden, ob eine Engine in der Lage ist, diesen Vorteil auch zu nutzen! Sie bekommt einmal den Vorteil und einmal den Nachteil serviert - im Zweifel gehen die Partien beide Male für die theoretisch schwächere Seite verloren.

Es wäre sicherlich kritisch (es sei denn, man macht bewusst ein Thementurnier), wenn man ausschließlich diese Art von Stellungen in sein Testset aufnimmt, denn das könnte die wahren Spielstärkeverhältnisse deutlich verzerren. Im hypothetischen Extremfall gewinnt immer die Seite mit dem Eröffnungsvorteil, so dass bei einem Test zweier Engines, die eigentlich 200 Elo auseinander liegen, trotzdem ein Ergebnis von 50% herauskommt. Damit hätte man dann nur bewiesen, dass die Stellungen für eine Seite verloren sind und sich nicht zum Test eignen - über die Spielstärke der Engines sagt es jedoch nichts aus. Aber ein gewisser Anteil an interessanten zweischneidigen Stellungen ist meiner Ansicht nach gerechtfertigt - der Mix macht es! Die Positionen sollten jedoch der vermeintlich schwächeren Seite immer noch Chancen einräumen, die Partie Remis zu halten (oder sogar noch zu gewinnen!) - es sollte also für die stärkere Seite etwas schwieriger sein, diesen Vorteil auch nachzuweisen. Wie in dem verlinkten Posting beschrieben, kann ja jeder für sich eine Grenze setzen, ab welchem Verhältnis von Weiß- zu Schwarzsiegen er die Stellung nicht mehr für vertretbar hält.

Viele Grüße
Timo
Parent - - By U. Haug Date 2012-10-24 08:52
Hallo Timo,

deine Idee, bewusst auch einige Eröffnungen ins Repertoire einzubauen, von denen die Theorie (teilweise) schon nachgewiesen hat, dass sie für eine Seite zum Nachteil führen, halte ich für interessant, aber schlecht.

[quote="Timo Haupt"]
(...)
Bewusst wurden auch Stellungen miteinbezogen, in denen eine Seite bereits einen Bauern für Kompensation geopfert hat. Es ist dann manchmal recht spannend zu sehen, dass die Seite mit dem Mehrbauern sich daran festklammert, während die andere Seite einen Angriff durchzieht. Umgekehrt kommt es auch vor, dass der Mehrbauer schnell zurückgegeben wird, um die Angriffsbemühungen des Gegners im Keim zu ersticken. Da mit Farbwechsel gespielt wird, halte ich es auch für legetim, einige zweischneidige Eröffnungen in das Testset aufzunehmen - selbst wenn die Theorie bereits nachgewiesen hat, dass es für eine der Seiten nachteilig ist. Denn es kann doch ruhig mitgetestet werden, ob eine Engine in der Lage ist, diesen Vorteil auch zu nutzen! Sie bekommt einmal den Vorteil und einmal den Nachteil serviert - im Zweifel gehen die Partien beide Male für die theoretisch schwächere Seite verloren.
(...)
Viele Grüße
Timo
[/quote]

Denn zumindest theoretisch müsste es dazu führen, dass sich kleine Spielstärkeunterschiede zwischen den Engines nivellieren.

Ulrich
Parent - - By Timo Haupt Date 2012-10-24 09:50 Edited 2012-10-24 09:53
Hallo Ulrich,

dein Einwand ist durchaus berechtigt. Für Ranglistenbetreiber mag es deshalb fraglich sein, ob man solche Eröffnungen in sein Testset mit aufnimmt. Beim KM-ECO-Test geht es jedoch, wie an anderer Stelle schon mehrfach erläutert wurde, nicht primär darum, reine Enginestärke zu messen. Doch selbst wenn dies das Ziel wäre, hätte ich persönlich keine Bedenken, wenn ca. 5% von den insgesamt 250 Stellungen diesem Kriterium entsprechen. Bei einer genügend hohen Gesamtanzahl an Partien und Gegnern wird das nicht entscheidend ins Gewicht fallen.

Viele Grüße
Timo

P.S.: Zu diesen 5% rechne ich beispielsweise das Königsgambit, welches in der KM-ECO-Testsuite enthalten ist. Da dieses aber in letzter Zeit sogar ab und zu wieder in GM-Turnieren auftaucht, fühle ich mich darin bestätigt, dieses in eine umfangreiche Testdatenbank mit aufzunehmen.
Up Topic Hauptforen / CSS-Forum / Houdini 3 running for the IPON
1 2 3 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill