Intelligenza Artificiale Che Impara Senza Conoscere le Regole

Dal 2005.
Pubblicato il
L'anno scorso abbiamo visto come DeepMind, della società madre di Google, Alphabet, ha dettagliato AlphaZero, un sistema di intelligenza artificiale che potrebbe insegnare a sé stesso a dominare il gioco degli scacchi, una variante giapponese degli scacchi chiamata shogi e il gioco da tavolo cinese Go. Ha sconfitto i campioni del mondo e ha fatto centinaia di copertine di riviste in tutto il mondo con il titolo «la macchina batte l'uomo». Aveva merito, sí, poiché ha dimostrato una capacità speciale di imparare giochi per due persone con informazione perfetta, cioè, giochi in cui ogni decisione si prende tenendo conto di ciò che è successo prima.
Ma AlphaZero aveva il vantaggio di conoscere le regole dei giochi a cui si confrontava, qualcosa di cui MuZero non ha bisogno.inteligencia artificial wikipedia
Stiamo parlando di un altro progetto di DeepMind in cui si usa un modello di apprendimento automatico capace di insegnare le regole. MuZero predice le informazioni più rilevanti per la pianificazione del gioco, e così riesce a diventare un campione in 57 giochi diversi di Atari e uguaglia AlphaZero in Go, scacchi e shogi.
I ricercatori dicono che MuZero apre la strada per apprendere metodi in una grande quantità di domini del mondo reale, particolarmente quelli che non hanno religione tecnológica un simulatore che comunichi regole dinamiche dell'ambiente. Immaginate, per esempio, arrivare su un pianeta sconosciuto: non ci sono regole conosciute, bisogna imparare sul posto.
Hasta ahora los algoritmos de planificación se basan en el conocimiento de la dinámica del entorno, como las reglas del juego un simulador preciso, pero este nuevo aprendizaje basado en modelos tiene como objetivo abordar este problema aprendiendo primero un modelo de la dinámica del entorno y luego planificando con respecto al modelo aprendido.
Fondamentalmente, MuZero recibe observaciones, cioè, imágenes de un tablero de Go una pantalla de Atari, y las transforma en un estado oculto. Este estado oculto se actualiza iterativamente mediante un proceso que recibe del estado anterior y una acción hipotética siguiente, y en cada paso el modelo predice la política (per esempio, el movimiento para jugar), la función de valor (per esempio, el ganador) y la recompensa (per esempio, los puntos anotados al jugar un movimiento).
Ovvero, modella un ambiente dato come passo intermedio, utilizzando un modello di transizione di stato che predice il passo successivo e un modello di ricompensa che anticipa la ricompensa.
Wwwhat´s New
Blog di Tecnologia con 13 anni di vita. Qui spieghiamo le novità del settore, diamo consigli di vario tipo, raccomandiamo applicazioni e gadget e molto altro.
Sponsorintelligenza artificiale

Lascia un Commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito utilizza Akismet per ridurre lo spam. Scopri come i tuoi dati dei commenti vengono elaborati.