Defect and Fault Tolerance in VLSI

Slides:



Advertisements
Presentazioni simili
DISTRIBUZIONE BINOMIALE (cenni) DISTRIBUZIONE NORMALE
Advertisements

PERDITE NEI NUCLEI MAGNETICI
TECNOLOGIE DEL SILICIO
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Attività sperimentale 2009
Soluzioni di problemi elettrostatici
Sistemi e Tecnologie della Comunicazione
1 14. Verifica e Validazione Come assicurarsi che il software corrisponda alle necessità dellutente? Introdurremo i concetti di verifica e validazione.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Reti Logiche A Lezione n.1.4 Introduzione alle porte logiche
Politecnico di Milano Algoritmi e Architetture per la Protezione dellInformazione Multichannel Adaptive Information Systems Paolo Maistri Dipartimento.
Life testing di componenti fotonici. Metodologie e strumentazione.
La corrente elettrica (1/2)
Appunti di inferenza per farmacisti
Essendo le materie scientifiche e tecniche la linfa
Affidabilita’ e metodologie di qualifica dei sistemi elettronici
Esperienza n. 9 Uso dell’oscilloscopio per misure di ampiezza e frequenza di una tensione alternata e misura dello sfasamento tra tensioni. Circuito RLC.
Tecnologia del silicio
di Salvatore Massimo Gebbia
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Qualità Questa voce riguarda la qualità nell'accezione più usata quando ci si riferisce ad un bene, materiale o immateriale, che viene prodotto per un.
Il rumore termico, definizione
FACOLTA’ DI INGEGNERIA
Antonio Stella Relatore: Paolo Gambino
Misure di trasporto elettronico (Effetto Hall)
Status progetto al 27/05/2005 Processi di deposizione Processo STD (SiH 4 +C 2 H 4 ) Processo con HCl (SiH 4 +C 2 H 4 +HCl) Processo con TCS (TCS +C 2.
Frattura Ogni processo di rottura avviene in due stadi : la formazione e propagazione della cricca Sono possibili due modi di rottura: duttile e fragile.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Cenni teorici. La corrente elettrica dal punto di vista microscopico
Università degli studi di Padova Dipartimento di ingegneria elettrica
Torna allindice Gate array Component array Gate array Component array Standard cell Standard cell PLD PLD Circuiti integrati semi-custom.
Il fotovoltaico.
Risultati preliminari diodi Schottky F. La Via, G. Galvagno, A. Firrincieli, F. Roccaforte, S. Di Franco.
LM Fisica A.A.2011/12Fisica dei Dispositivi a Stato Solido - F. De Matteis Transistor a effetto di campo FET Ha ormai sostituito il BJT in molte applicazioni.
1 LM Fisica A.A.2013/14Fisica dei Dispositivi a Stato Solido - F. De Matteis Transistor a effetto di campo FET Ha ormai sostituito il BJT in molte applicazioni.
INSEGUITORE SOLARE CON ARDUINO
Guasti dei circuiti VLSI. Alcune cause di guasto Elettromigrazione Self-Heating Portatori caldi Rottura degli ossidi Latch-up Total Ionizing Dose Single.
Grandezze e Misure
Opzioni tecnologiche per l’elettronica di front-end del Gigatracker Angelo Rivetti – INFN Sezione di Torino.
Processo di fabbricazione
Sensori di Pressione Integrati
DAC A RESISTORI PESATI.
Come realizzare un microprocessore.
-Sommario: Intel mostra come si costruisce un processore
COME SI COSTRUISCE UN PROCESSORE
La sabbia, composta da un 25% di silicio, è presente praticamente ovunque, in tutto il mondo. La sabbia di quarzo, in particolare, ha quantitativi molto.
Costruzione di un processore
COSTRUZIONE DI UN PROCESSORE
Costruzione di un MICROPROCESSORE
1. Transistor e circuiti integrati
La sabbia è composta da un 25% di silicio. La prima cosa da fare è separarlo dalla sabbia. Il silicio deve essere purificato tramite diversi passaggi:
Come si costruisce un processore
Come costruire un processore
La sabbia, composta da un 25% di silicio, è presente praticamente ovunque, in tutto il mondo. La sabbia di quarzo, in particolare, ha quantitativi molto.
Anita Fuda 1°N Quasi tutti sappiamo cos’è un CPU (Central Processing Unit). Questa è una giuda che vi dovrebbe aiutarla a spiegare hai vostri amici o.
Spiegazione di che cos’è la CPU e di come si fa a far stare milioni di transitori in un oggetto piccolissimo.
La sabbia, composta da un 25% di silicio, è presente praticamente ovunque, in tutto il mondo. La sabbia di quarzo, in particolare, ha quantitativi molto.
Tutti sappiamo che cos'è una CPU. Qui di seguito elenchiamo i passaggi fondamentali per costruirla!
Politecnico di Milano © 2001 William Fornaciari La tolleranza ai guasti Concetti generali Docente: William Fornaciari Politecnico di Milano
TRATTAMENTO STATISTICO DEI DATI ANALITICI
1 Lezione XV-b Avviare la presentazione col tasto “Invio”
Costruire una CPU. La prima cosa da fare è separare il silicio dalla sabbia, successivamente il silicio deve essere purificato tramite diversi passaggi.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Gli strumenti di misura
Lezione XXIIII Rumore nei circuiti elettronici. Introduzione  Il rumore limita il minimo segnale che un circuito può elaborare mantenendo una qualità.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
Richiami sul transistore MOS
Transcript della presentazione:

Defect and Fault Tolerance in VLSI Dr. Marco Ottavi

Finalità Introduzione e descrizione delle problematiche relative alla resa di produzione, collaudo e affidabilità  dei componenti e circuiti elettronici. Resa di produzione e collaudo   Guasti e resa di produzione Generazione automatica dei vettori di collaudo Tecniche di progettazione orientate al collaudo Metodologie di progetto per garantire affidabilità durante la vita utile Misure della affidabilità di un sistema Tecniche di progettazione fault tolerant Codici a correzione d'errore

Difetti di produzione e di funzionamento Si può distinguere tra difetti di produzione e difetti di funzionamento: Difetto di produzione: è presente al momento della produzione e causa conseguenza immediate sul compente che possono causare dei guasti, esempio: difetti spot difetti sistematici etc Difetto di funzionamento: sono difetti che si attivano dopo un periodo di funzionamento tramite i cosiddetti failure mechanisms. Esempi: Rottura dell’ossido di gate Contatti e riempimenti delle vie incompleti Elettromigrazione I difetti di produzione sono l’obiettivo del collaudo mentre i difetti di funzionamento sono l’obiettivo dell’affidabilità

Definizioni di Lambda Come effetto dei difetti di produzione: In fase di produzione  λ   è il numero medio di guasti sul chip e viene calcolato in base al risulato dei collaudi e a modelli matematici sulle dimensioni dei difetti e del layout Come effetto dei difetti di funzionamento:  λ  o failure rate è la frequenza con cui un sistema o un componente si guastano ed è espresso in guasti per unità di tempo (per esempio guasti in un’ora). Viene calcolato in base a dati empirici e modelli sul deterioramento dei componenti

Relazione tra guasti ed affidabilità La presenza di guasti su un componente in fase di produzione e lo svilupparsi di guasti su un componente durante la sua vita utile sono eventi correlati. I meccanismi che causano l’insorgere dei guasti possono essere analoghi, ma con un tempo di attivazione diverso Andamento dei guasti n funzione del tempo, la curva ha un tipico andamento ad U. Tre fasi: Mortalità infantile (il failure rate decresce) Vita utile (il failure rate è costante) Invecchiamento (Il failure rate cresce) Il numero di componenti guasti al momento della produzione può essere visto come l’effetto del failure rate a tempo zero

Resa di produzione e collaudo La produzione dei componenti elettronici è inevitabilmente affetta dalla presenza di difetti. I difetti possono causare guasti funzionali (functional faults) che riducono la resa del processo di produzione. Il collaudo (test)  è finalizzato a verificare se la presenza di difetti altera le funzionalità attese dal componente.  In un lotto di produzione il rapporto tra il numero di componenti non guasti e il numero totale di componenti prodotti rappresenta la resa del processo produttivo (manufacturing yield).

Flusso realizzativo di un progetto VLSI Customer’s need Determine requirements Write specifications Design synthesis and Verification Test development Fabrication Manufacturing test Chips to customer

Definizioni Sintesi di progetto (Design synthesis): Data una funzione di I/O, sviluppare una procedura per produrre un componente usando materiali e processi produttivi noti Verifica (Verification): Analisi predittiva che assicura che quando il progetto sarà sintetizzato si comporterà seguendo la data funzione di I/O Collaudo (Test): Un passo del processo di produzione che assicura che il componente fisico generato dal progetto sintetizzato non abbia guasti

Differenze tra Verifica e Collaudo Verifica la correttezza del progetto. Fatta tramite simulazione, emulatori hardware o metodi formali. Fatta una volta sola prima della produzione. Responsabile per la qualità del progetto. Verifica la correttezza dell’hardware prodotto. Il processo si articola in due parti: 1. Generazione dei vettori di test: processo software che viene eseguito solo una volta per ogni iterazione del progetto 2. Applicazione dei test: i test elettrici sono effettivamante applicati all’hardware Ogni componente prodotto passa tramite il passo della applicazione dei test Responsabile per la qualità dei componenti

Layout di un componente VLSI Il processo di produzione a strati: Substrato di silicio su cui vengono realizzati i transistor Livelli di metallizazione successivi per il routing dei segnali e delle alimentazioni. Connessioni verticali si chiamano via

Difetti di produzione Durante il processo produttivo i componenti possono essere interessati da: Difetti spot Impurità missing material che può causare circuiti aperti extra material che può causare corto circuiti Difetti sistematici Process variation: che causa variazioni nelle specifiche dei transistor Difetti sulle maschere

Difetti di produzione Gli effetti dei difetti sistematici sono per lo più presenti nelle fasi iniziali di un nuovo processo produttivo, per esempio al passaggio a un nuovo nodo tecnologico come lo scaling da 65 nm a 45 nm. Parte di questi difetti come per esempio errori sulle maschere vengono individuati e rimossi col maturare del processo produttivo.     I difetti spot continuano ad interessare il processo produttivo durante tutta la sua vita e sono una causa dominante di guasti in un processo maturo.

Esempio di Difetti Spot I difetti spot possono essere modellizzati come la presenza di impurità di diametro variabile che possono essere conduttive o meno. Esempi:

Esempio di Difetti Spot Esempi di difetti spot da microscopio elettronico riportati sullo standard militare Americano MIL-STD-883G che regola le procedure per il test dei dispositivi microelettronici destinati ad uso militare

Area critica Per diventare un guasto un difetto deve essere in una posizione e dimensione tale da causare un'interruzione o un corto tra due piste.  Per calcolare la densità di guasti corrispondente ad una certa densità di difetti viene usata la definizione di area critica. Area critica: Per un determinato tipo di  difetto, si definisce area critica Ac(x) l'area nella quale un  difetto di diametro x deve cadere per causare un guasto. Se si considera una distribuzione uniforme dei centri dei difetti la percentuale di difetti che causano un guasto per difetti di diametro x è: f(x) = Ac(x)/Atot dove Atot è l'area toale del chip

Area critica Esempio di area critica per difetti di tipo extra material:

Area critica http://www.design-reuse.com/articles/10850/improving-yield-in-rtl-to-gdsii-flows.html Per ottenere la probabilità di guasto l'area critica deve essere mediata con la funzione di distribuzione di probabilità delle dimensioni dei difetti.   La funzione di distribuzione d(x) è calcolata empiricamente ed ha un andamento approssimativamente triangolare 

Densità di difetti La probabilità di difetti a raggio nullo è uguale a 0, raggiunge un massimo e poi ha un andamento decrescente al crescere del raggio. Se d è la densità media totale dei difetti di tutte le dimensioni: Come si vede nella figura comparato all’area critica di destinazione solo le yield failures causano guasti, tuttavia guasti più piccoli possono causare problemi di affidabilità W. Kuo, W. Chien, T. Kim, Reliability, Yield and Stress Burn-in 1998

Lambda Facendo la media sui diametri dei difetti con l'area critica si ottiene il numero di guasti causati da difetti la cui area è comparabile all’aea critica. dove       è il numero medio di guasti sul chip.

Resa Produttiva Definizione La resa produttiva (manufacturing Yield) rappresenta la percentuale di chip funzionanti sul totale del lotto di produzione. La resa è una funzione del numero medio di guasti per chip lambda. Il die (letteralmente dado) è il componente prima di essere incluso nel suo packaging Il chip è il componente nel packaging quando viene venduto

Fabbricazione del silicio Il Quarzo o Silice, è fatto di ossido di silicio La sabbia contiene molti piccoli granelli di quarzo Il silicio può essere prodotto artificialmente da Silice e Carbonio in una fornace elettrica: SiO2 + C → Si + CO2 Questo processo dà un silicio policristallino (fatto di molti cristalli) I circuiti integrati di uso pratico richiedono materiale monocristallino

Crescita del silicio monocristallino Processo Czochralski è una tecnica per creare silicio monocristallino Un seme di cristallo solido viene fatto girare e lentamente estratto da una vasca di Silicio fuso Richiede un controllo molto accurato per ottenere cristalli di una voluta purezza e dimensione www.uta.edu/ronc/4345sp02/lectures/L09a_4345_Sp02.ppt

Cilindro monocristallino Il cilindro di silicio viene chiamato lingotto Un lingotto tipico è lungo circa 1 o 2 metri Può essere affettato in centinaia di fette circolari chiamate Wafer Ogni Wafer fornisce fino a migliaia di circuiti integrati

Produzione del Wafer Il cristallo di silicio è affettato in wafer sottili usando una sega con punte di diamante I wafer vengono ordinati per spessore I wafer danneggiati vengono rimossi durante la fase di lappatura La lappatura (lapping) rimuove il silicio di superficie che si è spaccato o altrimenti danneggiato durante la fase di affettamento tramite abrasivi Dopo la lappatura viene fatto Etching sui Wafer con prodotti chimici per rimuovere ogni rimanente danno sul reticolo cristallino La fase finale di Polish è un processo chimico/meccanico che livella le superfici lasciate ineguali dai passi precedenti http://www.xensei.com/users/adex/prodtech/silicon_wafer.html

Wafer Il wafer è un disco di silicio su cui vengono ricavati tramite litografia molte copie dei singoli chip o die

Wafer Dimensioni dei wafer in commercio 1 inch. 2 inch (50.8 mm) 5 inch (127 mm) or 125 mm (4.9 inch) 150 mm (5.9 inch, usually referred to as "6 inch"). 200 mm (7.9 inch, usually referred to as "8 inch") 300 mm (11.8 inch, usually referred to as "12 inch" or "Pizza size" wafer). 450 mm ("18 inch"). (atteso)

Litografia http://dot.che.gatech.edu/henderson/Introductions/microlithography%20intro.htm

Wafer I guasti sono distribuiti sul Wafer Il numero di guasti riduce la resa Esempio: 26 dies 8 guasti Yield = 18/26 = 69%

Probabilità di guasto - Poisson La funzione di densità di probabilità del numero di k guasti per chip è tipicamente rappresentata da una distribuzione di Poisson: nel caso semplice in cui non ci sia ridondanza nel chip la resa corrisponde alla probabilità che non ci siano guasti sul chip.

Effetto di raggruppamento dei guasti E' stato provato che la distribuzione di Poisson che si basa sull'assunzione che la distribuzione dei guasti sul wafer sia uniforme è in effetti troppo pessimistica poichè non tiene in conto dell'effetto di raggruppamento (clustering) dei guasti notato in produzione

Probabilità di guasto - Negative binomial La funzione che meglio approssima la resa in presenza di clustring è quella derivata dalla distribuzione negative binomial ed ha la seguente formula: dove  rappresenta l'effetto di clustering ed è tipicamente considerato circa uguale a 2 nell'industria. Se  tende ad infinito la distribuzione diventa la Poisson.

Probabilità di guasto - Negative binomial Come con la distribuzione di Poisson, nel caso semplice in cui non ci sia ridondanza nel chip la resa corrisponde alla probabilità che non ci siano guasti sul chip.

Aspetti economici Il costo per chip dipende dal costo per die e dai costi di test e costo di packaging: Ciascuna ci queste componenti deve essere ottimizzata. Il Costo per die è funzione della resa produttiva

Dies per wafer e costo il costo di un die è il rapporto tra il costo per Wafer e il prodotto della resa del wafer e la resa produttiva La resa del Wafer è il numero di die che si ottengono in un wafer ed è data da una formula geometrica approssimata che considera il rapporto tra l'area del wafer circolare e i die rettangolari

Dies per Wafer e costo Dove: dw è il diametro del Wafer Ad è l’area di un die Il primo termine è semplicemente il rapporto tra le aree e il secondo è un termine correttivo che tiene in considerazione gli effetti di bordo

Esempio Considerando  un die di 0.30 cm2 per un microcontrollore prodotto usando un Wafer di diametro 300 mm e un costo per un Wafer di 5000 € Considerando una densità di difetti 0.2/cm2 ed α=2, quale è il costo per die?

Soluzione € Approssimazione dell’area critica con l’area reale La formula per la resa diventa: Il numero di die per wafer è: Pertanto il costo per die è: €

Costo per il test Il collaudo o test dei componenti elettronici prodotti viene compiuto tramite l’uso di apparati generalmente molto costosi e ad alte prestazioni chiamati Automated Test Equipment. Pertanto il costo del test di un componente è calcolabile in base al costo per l’ammortamento (svalutazione) la manutenzione e il funzionamento dell’ ATE durante la sua vita utile. Il Costo annuale viene ridotto a costo per secondo e moltiplicato per il tempo necessario al test del singolo componente. Infine il costo viene ripartito solo sui componenti vendibili ossia si divide il risultato per la resa

Costo per il test: Esempio Esempio dal libro: Un ATE allo stato dell’arte può applicare test a frequenza maggiori di 250 MHz. Il costo per l’acquisto di un tester è composto da una parte fissa e da una parte variabile in base al numer di pin. Esempio: un tester a 500MHz costa $1,2M + (1024 pins * $3000/pin) = $4,272M. Costo di funzionamemnto annuale: Svalutazione + Mantenimento + costo di funzionamento= $0,85M + $0,085M + $0,5M = $1,439M/anno. Costo del test per funzionamento ininterrotto: $1,439M/(365 * 24 * 3600) = 4,5 cents/secondo. Tempo di test per un ASIC digitale= 6 secondi o 27 cents. Per una resa del 65%, la parte del prezzo di vendita dovuto al test è 27/0,65 = 41,5 cents.

Tipi di Testing Verification testing, characterization testing Verifica la correttezza del progetto e delle procedure di collaudo – di solito richiede correzioni al progetto Manufacturing testing Collaudo di fabbrica di tutti i chip prodotti per guasti parametrici e difetti casuali Acceptance testing (incoming inspection) Collaudo svolto dai clienti sui chip acquistati per verificarne la qualità

Automatic Test Equipment (ATE) ATE: sistemi complessi e molto costosi ITRS 2003 test-cost predizione del costo per-pin: Short term $1K to $3K (up to 2009) Long term $2K to $4K (2010 to 2016); Si compone di Un computer Un DSP Un programma di test scritto in un linguaggio di alto livello che gira sul computer Probe Head (con i contatti per i pin del chip) Probe Card o Membrane Probe (contiene elettronica di misura dei segnali)

Il test in sintesi

Manufacturing Test Determina se i chip prodotti rispettano le specifiche Può fare il binning delle parti in base alle loro specifiche Deve coprire alte percentuali di guasti Deve minimizzare i tempi di test (e quindi i costi) Non svolge alcuna diagnosi di guasto Collauda ogni dispositivo sul chip Il test deve avvenire alla velocità cui operano i dispositivi

Burn-in or Stress Test Processo: Che cosa rileva: Sottopone i chip a alte temperature e sovratensioni di alimentazione, durante l’esecuzione di collaudi di produzione Che cosa rileva: Casi di mortalità infantile – chip danneggiati che tipicamente si rompono nei primi due giorni di applicazione – questi guasti vengono provocati intenzionalmente prima che i chip vengano mandati ai clienti Freak failures – dispositivi con gli stessi meccanismi di guasto dei dispositivi affidabili ma che si guastano sotto condizioni di stress per guasti non tipicamente modellabili con difetti, ad esempio problemi col wire bonding

Incoming Inspection (Test di accettazione) Può essere: Simile al test di produzione Più esaustiva del test di produzione Orientata ad applicazioni specifiche Spesso viene fatto su un campione casuale di dispositivi Le dimensioni del campione dipendono dalla qualità dei dispositivi e dalle specifiche di affidabilità dei sistemi Evita di inserire dispositivi difettosi in sistemi dove i costi di diagnosi eccedono quelli della incoming inspection

ADVANTEST Model T6682 ATE

Tipi di test di produzione Wafer sort o probe test – viene fatto prima che il wafer sia tagliato nei singoli die Include la caratterizzazione di alcuni dispositivi di test che sono inseriti nel wafer per lo specifico scopo di essere usati per misurare parametri di produzione come: Tensioni di soglia Resistenza del polisilicio etc. Packaged device tests Test dei componenti dopo il loro inserimento nel packaging.

Tipi di test In generale ogni chip passa attraverso due fasi di test Test Parametrico – misura le proprietà elettroniche dei pin di I/O – ritardi, tensioni, correnti, etc. – veloce ed economico Funzionale /strutturale– usato per coprire una percentuale molto alta di guasti modellati collauda ciascun transistor e connessione nei circuiti digitali – lungo e costoso, oggetto dell’ATPG

Analisi dei dati ottenuti dal test Utilizzio dei dati provenienti dagli ATE: Eliminazione dei DUTs malfunzionanti Informazioni sul progetto di fabbricazione Informazioni sulle debolezze di progetto I dispositivi che passano il collaudo sono sicuramente corretti solo se i vettori di collaudo coprono il 100% dei guasti Failure mode analysis (FMA) Diagnosi delle cause dei dispositivi malfunzionanti Permettono di migliorare il progetto logico & e le regole di layout