AlphaGo e famiglia.

Slides:



Advertisements
Presentazioni simili
Implementazione di TRIP ai LNF Commissione Calcolo e Reti 31 maggio 2007 Massimo Pistoni.
Advertisements

Selezione avversa nella selezione del personale. Il problema Al momento dell’assunzione è molto costoso avere a che fare con lavoratori non adatti al.
Huffman Canonico: approfondimento. Come abbiamo visto, Huffman canonico ci permette di ottenere una decompressione più veloce e con un uso più efficiente.
Bitcoin “What is a Bitcoin?”. What is a Bitcoin? Bitcoin The 4th most common research on Google in 2014.
Elaborazione delle Immagini Operatori Puntuali Luigi Cinque
Dicembre 2016 DIRITTO AL GIOCO Fammi giocare solo per gioco Senza nient'altro, solo per poco Senza capire, senza imparare Senza bisogno di socializzare.
Statistica I Grafici Seconda Parte.
CARTESIO Miceli Roberta IV D A. S. 2016/2017.
Capitolo 13 Teoria dei giochi e gioco strategico
Procedure di controllo di qualità del dato analitico
Dip. Economia Politica e Statistica
Valutazione delle prestazioni
Capire la dura lotta per la sopravvivenza giocando.
Variabili casuali a più dimensioni
Progettare algoritmi veloci usando strutture dati efficienti
Leonardo Fibonacci e la sezione aurea
LA MAPPA CONCETTUALE Istruzioni per l’uso
RAZIONALITA’ E TEORIA DEI GIOCHI
I Circuiti Sequenziali ed i Flip/Flop
Statistica Prima Parte I Dati.
Come cercare le fonti di informazione scientifica RISORSE
La previsione deterministica
Branch and Bound Lezione n°14 Prof.ssa Rossella Petreschi
Dal problema al processo risolutivo
Progettare algoritmi veloci usando strutture dati efficienti
Algoritmi di stima con perdita di pacchetti in reti di sensori wireless: modellizzazione a catene di Markov, stima e stima distribuita Chiara Brighenti,
Sistemi basati su conoscenza Metodi di ricerca informata
Misure Meccaniche e Termiche - Università di Cassino
Le tecnologie nell’insegnamento-apprendimento della matematica
Utilizzo della lampada a fessura nell’era digitale
Raccolta ed Analisi dei Requisiti nella Progettazione
Algoritmi e soluzioni di problemi
Cluster Analysis Definizione di Classificazione: operazione concettuale condotta adottando un solo criterio (detto fondamento della divisione) per individuare.
Stili Cognitivi di Elaborazione dell’informazione
Dip. Economia Politica e Statistica
Le postcondizioni specificano l’output della funzione.
Il riassunto Scritto e orale.
Nicolò Sammartini presenta
SODDISFARE LE OPPORTUNITÀ DI MARKETING
LE CREDENZE di EFFICACIA
il problema dei problemi
Usi (meno scontati) della visita DFS
analizzatore di protocollo
Dalla programmazione dell’allenamento al
per rappresentare grafi
Informatica - Prof. Gregorio Cosentino
La statistica, uno strumento utile per le professioni sanitarie?
1.3 Dama matematica-gioco da tavolo
Problem solving.
Servizio Valanghe Italiano
VIDEOGIOCHI A SCUOLA Andrea capitani e marco giorgini.
Gestione del Progetto Processi Aziendali Processo Aziendale
Studiare con metodo per riuscire a migliorare
Algoritmi e Strutture Dati
Branch and Bound Lezione n°18 Prof.ssa Rossella Petreschi
I partecipanti imparano tutto sul dado.
Ricorsione 16/01/2019 package.
Statistiche Fluxus per Sdiaf / SimonLib
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati
Usi (meno scontati) della visita DFS
Progettare algoritmi veloci usando strutture dati efficienti
COME RICONOSCERE LA DISLESSIA?……
Excel 3 - le funzioni.
Senza Zaino Per una scuola comunità
Dip. Economia Politica e Statistica
Fare ricerca mai così facile!
Dip. Economia Politica e Statistica
IMPARARE – L’Intelligenza Artificiale
Come cercare le fonti di informazione scientifica RISORSE
Transcript della presentazione:

AlphaGo e famiglia

Here comes google deepmind 2016, gennaio: AlphaGo 2016, marzo: AlphaGo vs Lee Sedol 2017, gennaio: AlphaGo Master 2017, maggio: AlphaGo vs Ke Jie 2017, ottobre: AlphaGo Zero 2017, dicembre: AlphaZero

unsupervised, not magic «Si può risolvere con l’intelligenza artificiale» is the new «Chiediamolo al computer» Una rete neurale risolve solo un tipo di problema «Indovina l’output corretto associato a certi input» Anche un legame complesso e sfuggente tra input e output va bene Impara per imitazione, ha bisogno di tanti esempi

male imparare a giocare Si può imparare a giocare per imitazione? Posso addestrare una rete a indovinare la mossa seguente Uso come esempi partite di professionisti Viene un programma che gioca a tratti in modo sensato, ma non riesce a vincere Non supererà mai il livello di abilità degli esempi

giocare per vincere Come gioca a go/scacchi/risiko/poker/... una mente umana? Situazione, mosse possibili, nuove situazioni: un gioco è un grafo

giocare per vincere Come gioca a go/scacchi/risiko/poker/... una mente umana? Situazione, mosse possibili, nuove situazioni: un gioco è un grafo Un agente è un programma/mente che possiede qualche criterio per scegliere la mossa successiva Possono essere istruzioni, intuizioni, riconoscimento di pattern, follia...

albero delle ipotesi Prima di decidere la mia mossa, immagino diversi scenari A B C O D G H K N P E F I L M J

albero delle ipotesi Prima di decidere la mia mossa, immagino diversi scenari Non è l’albero completo Non arriva fino alle foglie Non ho garanzia che azzurro vinca... ...né che rosso perda A B C D G N E F H K L M I J O P

quattro ingredienti Value: una stima della bontà delle posizioni Policy: una classificazione delle mosse per priorità di analisi Urgency: un criterio per decidere dove espandere l’albero Assessment: un criterio per scegliere la mossa da fare 72% C2 (34%), D3 (27%), D4 (19%), ...

value Associa ad ogni posizione un valore che stima quanto sia buona la situazione per il giocatore corrente Se fosse una stima perfetta, basterebbe valutare le posizioni direttamente raggiungibili con una mossa per trovare la mossa migliore Se non è perfetta, è più accurata più in basso nell’albero, quindi esplorando si può migliorare la valutazione

policy Associa ad ogni posizione una lista di valori, uno per ogni mossa possibile Questi valori dicono quali mosse sembrano promettenti Meglio, la policy stabilisce come dividere gli sforzi tra le varie mosse Almeno, inizialmente è così, poi dipende anche dalla value F6 E5 F7 H9 J9 F8 F9 E6 G9 G7 56% 11% 7.4% 4.3% 4.0% 3.8% 3.4% 2.7% 2.3% 1.3%

Urgency Quando l’albero è vuoto... La prima posizione esplorata è la mossa con policy maggiore La seconda può essere o ... ...dipende se è più promettente la policy di o la value di Trade-off tra policy e value Trade-off tra estensione e profondità C D B A B C D

Assessment La teoria direbbe minimax ...ma solo se la value è perfetta Si può fare la media dei valori di value ...o qualche altra statistica (mediana e altre) Si può inserire casualità nella scelta Dipenderà dalle caratteristiche dei primi tre ingredienti

Rete neurale: value Si può usare una rete neurale per calcolare la value? È una funzione L’input è la posizione nel gioco L’output si può addestrare contro l’esito della partita Serve finire la partita e capire chi vince Quello che approssima dipende dalla forza attuale

rete neurale: policy Si può usare una rete neurale per calcolare la policy? È una funzione L’input è la posizione nel gioco L’output si può addestrare? Sì: ad imitare la suddivisione degli sforzi nell’albero di analisi Sarà migliore della policy precedente, perché usa informazioni della value di nodi più profondi

Unsupervised magic Il miglioramento avviene di generazione in generazione Value e policy mediocri, se la urgency è ben fatta, producono alberi di analisi in cui la suddivisione dei nodi è una ripartizione migliore di quella indicata dalla policy stessa Ciò permette di addestrare una policy sempre migliore Giocando meglio, la value impara da risultati più attendibili e migliora anch’essa

Urgengy Attualmente non sappiamo realizzarla con una rete neurale In effetti è l’ingrediente che deve produrre il miglioramento Deve prendere policy (e value) e costruire un albero migliore della policy stessa Si usa il multi-armed bandit, o formula UCT in qualche variante

Assessment Normalmente si sceglie la mossa su cui c’è stata più analisi A volte si sceglie a caso proporzionalmente alla suddivisione dei nodi nell’analisi

AlphaGoZero pipeline

leela Zero Implementazione distribuita di AlphaGo Zero Opera di un grande sviluppatore: GCP e della community server: zero.sjeng.org client: autgtp program: leelaz GUI: lizzie

Leela Zero Migliore programma rilasciato che gioca a Go Livello superumano da mesi Limitato dai parametri fissati in training Non gioca bene con handicap Non distingue tra mosse buone e mediocri quando vince

お願いします