Noutăți de la Deepmind

La sfîrșitul anului trecut, înainte a de trece la pasul următor, cel de a juca mai bine StarCraft, DeepMind a publicat un nou articol în care dezvăluia mai multe despre AlphaZero.

Deci nu mai e vorba despre AlphaGo, rețea neuronală antrenată pe partidele de Go ale jucătorilor umani, ci AlphaZero, rețea neuronală care a primit doar regulile Goului, și care a jucat contra sa în viteză și în forță pînă cînd a avansat la tării de joc superioare oricărei versiuni de AlphaGo. Apoi aceeași rețea, fără adaptări a fost antrenată pentru șah, de asemeni de la zero, și chiar și pentru shogi.

Concluziile au fost publicate în acest extensiv articol. Mai înainte au fost publicate în revista Science.

Cu siguranță, în afară de tăria de joc remarcabilă, toți jucătorii de top ale celor trei jocuri au remarcat originalitatea stilului de joc care nu seamănă cu nimic altceva. Marele Maestru de șah Matthew Sadler, a declarat că stilul AlphaZero diferă total de stilurile altor programe de șah. Este ca și cum ar fi descoperit notele secrete ale unui mare maestru pierdute în negura timpului.

Un detaliu important care ne lămurește mai ușor despre puterea rețelei neuronale este timpul necesar de joc contra sa de la zero pentru a putea ajunge la puterea adversarilor.

La Shogi, a fost nevoie să se antreneze doar două ore pentru a învinge Elmo, cel mai bun program al zilei. Nu trebuie să uităm că acel program este specializat pentru Shogi și include mulți ani de analiză și programare a celor care l-au creat. Pentru șah a fost nevoie de un număr dublu de ore, patru, dar tot este fantastic de puțin cînd ne gîndim la deceniile de efort depuse în Deep Blue și predecesorii săi. Pentru a depăși versiunea de AlphaGo care l-a învins pe Lee Sedol au necesare 30 de ore, deci mai bine de o zi.

La Go posibil că a durat mai mult pentru că analiza produsă de AlphaGo era mai aproape de jocul perfect, decît cea produsă de programele clasice de șah și shogi.

În ceea ce privește rezultatele, vedem următoarele statististici.

În șah a învins pe campionul mondial din 2016 TCEC (Sezonul 9) Stockfish, cu 155 victorii pierzînd doar șase partide din o mie. Pentru a verifica robustețea AlphaZero, s-au jucat și o serie de meciuri care au pornit de la deschideri umane. În fiecare deschidere, AlphaZero a învins pe Stockfish. S-a urcat, de asemenea, un meci care a pornit de la setul de poziții de deschidere utilizate în campionatul mondial din 2016 TCEC, împreună cu o serie de meciuri suplimentare împotriva celei mai recente versiuni a Stockfish și o variantă de Stockfish care folosește o carte de deschidere puternică. În toate partidele, AlphaZero a cîștigat.
În shogi, AlphaZero a învins pe campionul mondial din 2017 CSA Elmo, învingînd în 91.2% dintre partide.
În Go, AlphaZero a învins AlphaGo Zero,în 61% dintre partide.

Deci după cum vedem, la shogi a învins categoric, înfrîngerile venind probabil predominant probabil din dezavantajul că a mutat al doilea. Se poate trage concluziona că programele de shogi nu sînt atît de evoluate ca cele de șah.

Și la șah a învins categoric, dar remizele sînt un procent covîrșitor, dovadă că puterea de joc este aproape de perfecție. Se vede clar și avantajul primei mutări, fiindcă cu albul a învins de două ori mai mult decît remiză, iar înfrîngerile au fost ocazionale.

La Go deși și-a învins predecesorul, victoria este foarte aproape de un rezultat egal. Asta se vede mai ales la partidele în care a jucat cu negrul, avînd în plus doar vreo 7 procente. La jocul cu albul victoriile sînt în număr dublu față de înfrîngeri. De aici tragem două concluzii, și anume că avansul față de AlphaGoZero nu este foarte mare, deși el există, ceea ce ne face să credem că se apropie de jocul perfect. A doua este că în prezent este folosit un komi care avantajează pe alb în mod subtil, adică cu vreo șapte procente. Se vede că în medie a învins în 61 la sută dintre partide, dar cu negrul dezavantajat de komi a coborît la doar 53,7, iar la alb avantajat, a urcat la 68,9.

O imagine sugestivă este mai jos în care vedem diferența de analiză, aș zice de forță brută pentru diversele inteligențe.

Mai multe detalii pot fi citite în articolele sursă.

Poți citi articolul în Science
Poți descărca O versiune liberă a articolului [PDF]
Poți citi editorialul din Science editorial de Garry Kasparov
Poți citi articolul adițional din Perspective article în Science de Deep Blue co-creator Murray Campbell
Descarcă cela mai bune 20 patide AlphaZero-Stockfish alese by Grandmaster Matthew Sadler [.zip]
Descarcă top 10 AlphaZero-Elmo partide aleșe de shogi Master Yoshiharu Habu [.zip]
Descarcă 210 AlphaZero-Stockfish partide și 100 AlphaZero-Elmo partide
Descarcă the grafica adiționalăk
Află mai multe despre cartea Game Changer despre AlphaZero (New in Chess, January 2019)

Articol compus de David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy Lillicrap, Karen Simonyan, și Demis Hassabis.

Apr

Posted:

April 30, 2019 Tuesday at 6:32 pm

Categories: Diverse Tags: Diverse

Costel

M	T	W	T	F	S	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

BrăilaGo

Brăila, Go, restul se înţelege

Noutăți de la Deepmind

Leave a Reply Cancel reply

Recent Posts

Recent Comments

Calendar

Recent Posts