• Wed. Oct 20th, 2021

MuZero schaak-AI bereikt bovenmenselijke prestaties zonder de regels te kennen

Oct 11, 2021

Kunstmatige intelligentie wordt steeds intelligenter – en meer en meer mensachtig.

Er zijn veel dingen veranderd in het moderne schaken in vergelijking met het verleden, maar de belangrijkste verandering is de hegemonie van computers. Kijk naar Magnus Carlsen – die de afgelopen tien jaar de onbetwiste wereldkampioen schaken is – hij kan niet echt beweren de beste schaker te zijn, alleen de beste menselijke speler.

Schaakalgoritmen hebben het menselijke vermogen om het spel te spelen al lang overtroffen, om een ​​heel eenvoudige reden: ze kunnen eenvoudige taken veel beter onthouden en berekenen dan mensen. Maar toen AI’s het toneel begonnen te betreden, stonden ook de schaakalgo’s voor een revolutie.

Afbeeldingscredits: DeepMind

Traditioneel werden schaakalgoritmen op een heel eenvoudige manier getraind: ze leerden de regels van het spel, voedden een enorme database met spellen, leerden rekenen, en daar gingen ze. Maar AlphaZero van Google, bijvoorbeeld, pakt het heel anders aan. AlphaZero is zonder twijfel de beste schaakspeler ter wereld geworden zonder ook maar een enkel menselijk spel te bestuderen. In plaats daarvan werd het alleen de regels van het spel geleerd en mocht het tegen zichzelf spelen. Intrigerend genoeg stelde dit het niet alleen in staat om opmerkelijke bekwaamheid te bereiken, maar ook om een ​​eigen stijl te ontwikkelen. 

In tegenstelling tot traditionele algoritmen die zeer concrete, schurende spellen spelen, heeft AlphaZero de neiging om op een zeer conceptuele en creatieve manier te spelen (hoewel het woord ‘creatief’ sommige lezers zeker zal irriteren). AlphaZero zou bijvoorbeeld vaak een stuk offeren zonder directe beloning in zicht – het berekent zelf niet noodzakelijk alle resultaten. In plaats van zetten te spelen waarvan het volledig kan berekenen dat ze beter zijn, wat de meeste algoritmen doen, speelt AlphaZero zetten die beter lijken .

Het is een verrassend menselijke manier om het spel te benaderen, hoewel veel van AlphaZero’s bewegingen duidelijk onmenselijk lijken.

Nu hebben de onderzoekers van Google de zaken naar een hoger niveau getild met MuZero.

In tegenstelling tot AlphaZero kreeg MuZero niet eens de regels van het schaken te horen. Het was niet toegestaan ​​om illegale bewegingen te maken, maar het was toegestaan ​​om erover na te denken. Hierdoor kan het algoritme op een meer menselijke manier “denken”, rekening houdend met bedreigingen en mogelijkheden, zelfs als ze op een bepaald moment misschien niet duidelijk of mogelijk zijn. De dreiging van het verliezen van een zichtbaar stuk kan bijvoorbeeld altijd aanwezig zijn in het achterhoofd van een menselijke speler, ook al wordt er op dit moment niet gedreigd.

Onderzoekers zeggen dat MuZero hierdoor ook een interne intuïtie kan ontwikkelen met betrekking tot de spelregels.

De Elo-evaluatie van MuZero tijdens de training in schaken, shogi, Go en Atari. Afbeelding: DeepMind

Dit leidde tot opmerkelijk goede prestaties. Hoewel de details die onderzoekers hebben gepresenteerd schaars zijn , beweren ze dat MuZero dezelfde prestaties heeft geleverd als AlphaZero. Maar het wordt nog beter.

Onderzoekers hebben de engine niet alleen getraind in schaken, ze hebben hem ook getraind in go, shogi en 57 Atari-spellen die vaak worden gebruikt in dit soort onderzoek.

De meest indrukwekkende resultaten kwamen van Go, een spel dat onvoorstelbaar complexer is dan schaken. MuZero overtrof de prestaties van AlphaZero enigszins ondanks het gebruik van minder algemene berekeningen, wat erop lijkt te wijzen dat MuZero een dieper begrip heeft van het spel en de posities die het speelde. Vergelijkbare prestaties werden gerapporteerd in de Atari-spellen, waar MuZero beter presteerde dan de modernste engines in 42 van de 57 spellen.

Natuurlijk komt hier veel meer bij kijken dan alleen schaken, Go of PacMan. Er zijn zeer concrete lessen die in kunstmatige intelligentie in een zeer praktische setting kunnen worden toegepast.

De studie is te lezen in een preprint op ArXiv .

Connect ondersteunt en bevordert de creatie en verspreiding wetenschappelijke kennis en onderzoek door samenwerking met bibliotheken, uitgevers, onderzoekers, onderwijsinstellingen en wetenschappers.
Wens jij ons werk te ondersteunen?
Inzendingen voor publicatie: info@connect.sr
Adverteren
: Click hier