AlphaGo-Zero

Deepmind a anunțat că se retrage din cursa pentru supremație în Go după ce la începutul anului AlphaGo a surclasat categoric online profesioniștii de top, iar mai apoi l-a cumințit și pe Ke Jie, numărul unu mondial. Ne-a lăsat nesatifăcuți pe noi cei care voiam să știm cam cu cîte pietre handicap poate juca contra celor mai buni.

Dar se vede că Demis Hassabis și echipa lui mai aveau ceva idei de verificat așa că au continuat dezvoltarea programului chit că nu au mai luptat contra jucătorilor umani, ci contra versiunilor anterioare ale AlphaGo.

Detaliile le aflăm din proaspătul articol publicat pe situl Deepmind.

Primul detaliu important este că noua versiune a învățat să joace Go de unul singur, de la zero, de unde și numele de AlphaGo-Zero. După cum știm, versiunile anterioare au folosit un set de partide jucate de amatori. Ne-am fi așteptat ca o eventuală nouă antrenare să se facă după un set de partide profesioniste. Dar na că a fost tocmai invers, partidele școală au fost de la polul opus, adică mutări aleatoare.

Progresul noului program a fost uluitor. După cum vedem în animație,

după doar trei ore juca la nivelul unui amator începător ignorînd strategiile pe termen lung capturînd cu lăcomie piesele la îndemînă. Dar după 19 ore, deci mai puțin de o zi deja stăpînea fundamentele și strategii mai avansate precum viața și moartea, teritoriul și influența. După 70 de ore, deci în nici trei zile, nivelul de joc îl depășea pe cel uman, jocul fiind disciplinat urmărind multiple provocări pe întreaga tablă.

În următoarea animație putem urmări progresul pînă la final.

După doar trei zile de analiză AlphaGo-Zero depășește nivelul de joc a versiunii care l-a învins pe Lee Sedol în 2015. În continuare progresul este mai lent, dar implacabil, și după trei săptămîni ajunge la nivelul versiunii care la începutul lui 2017 a învins 60 de profesioniști online și pe Ke Jie în trei partide oficiale. După alte trei săptămîni depășește toate celelalte versiuni anterioare cu un Elo estimat la peste 5000.

În grafic vedem nivelul Elo al diferitelor versiuni. În lista de la Goratings vedem nivelul primilor 900 de jucători profesioniști de Go. Graficul de mai sus pare veridic. FanHui are un Elo de 3000, confirmînd cei 3100 ale versiunii care i-a luat 5 partide. Lee Sedol are un Elo de 3500, deci versiunea care l-a învins justifică cei cca 3700 vizibili în grafic. AlphaGo Master cu cei cca 4800 Elo este totuși de domeniul speculației atît timp cît rangul nu este dovedit la tablă cu pietre handicap. Dar cu siguranță cei de la Deepmind au făcut raționamente pe care le pot susține în fața celor care au capacitatea de a le analiza, așa că nu putem face altceva decît să îi credem.

Avansul algoritmilor este vizibil nu doar prin tăria de joc al programului, ci și prin scăderea nivelului consumului de energie. În graficul de mai jos vedem acest lucru.

A doua versiune a consumat un sfert față de prima, iar cele recente la sfert față de precedentele, asta în condițiile în care performața se dubla. Gpu sînt procesoare grafice, înlocuite ulterior de procesoare Tensor, concepute de cei de la Google pentru a lucra cu aplicațiile Tensor Flow.

Cei ce vor să aprofundeze mai mult subiectul pot accesa documentația publicată pe situl Nature de cei de la Deepmind.

Oct

Posted:

October 20, 2017 Friday at 3:12 am

Categories: Computer Go, Diverse Tags: Go electronic

Costel

M	T	W	T	F	S	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

BrăilaGo

Brăila, Go, restul se înţelege

AlphaGo-Zero

Leave a Reply Cancel reply

Recent Posts

Recent Comments

Menu

Calendar

Recent Posts