1.. include:: ../disclaimer-ita.rst
2
3.. c:namespace:: it_IT
4
5:Original: :ref:`Documentation/kernel-hacking/locking.rst <kernel_hacking_lock>`
6:Translator: Federico Vaga <federico.vaga@vaga.pv.it>
7
8.. _it_kernel_hacking_lock:
9
10==========================================
11L'inaffidabile guida alla sincronizzazione
12==========================================
13
14:Author: Rusty Russell
15
16Introduzione
17============
18
19Benvenuto, alla notevole ed inaffidabile guida ai problemi di sincronizzazione
20(locking) nel kernel. Questo documento descrive il sistema di sincronizzazione
21nel kernel Linux 2.6.
22
23Dato il largo utilizzo del multi-threading e della prelazione nel kernel
24Linux, chiunque voglia dilettarsi col kernel deve conoscere i concetti
25fondamentali della concorrenza e della sincronizzazione nei sistemi
26multi-processore.
27
28Il problema con la concorrenza
29==============================
30
31(Saltatelo se sapete già cos'è una corsa critica).
32
33In un normale programma, potete incrementare un contatore nel seguente modo:
34
35::
36
37          contatore++;
38
39Questo è quello che vi aspettereste che accada sempre:
40
41
42.. table:: Risultati attesi
43
44  +------------------------------------+------------------------------------+
45  | Istanza 1                          | Istanza 2                          |
46  +====================================+====================================+
47  | leggi contatore (5)                |                                    |
48  +------------------------------------+------------------------------------+
49  | aggiungi 1 (6)                     |                                    |
50  +------------------------------------+------------------------------------+
51  | scrivi contatore (6)               |                                    |
52  +------------------------------------+------------------------------------+
53  |                                    | leggi contatore (6)                |
54  +------------------------------------+------------------------------------+
55  |                                    | aggiungi 1 (7)                     |
56  +------------------------------------+------------------------------------+
57  |                                    | scrivi contatore (7)               |
58  +------------------------------------+------------------------------------+
59
60Questo è quello che potrebbe succedere in realtà:
61
62.. table:: Possibile risultato
63
64  +------------------------------------+------------------------------------+
65  | Istanza 1                          | Istanza 2                          |
66  +====================================+====================================+
67  | leggi contatore (5)                |                                    |
68  +------------------------------------+------------------------------------+
69  |                                    | leggi contatore (5)                |
70  +------------------------------------+------------------------------------+
71  | aggiungi 1 (6)                     |                                    |
72  +------------------------------------+------------------------------------+
73  |                                    | aggiungi 1 (6)                     |
74  +------------------------------------+------------------------------------+
75  | scrivi contatore (6)               |                                    |
76  +------------------------------------+------------------------------------+
77  |                                    | scrivi contatore (6)               |
78  +------------------------------------+------------------------------------+
79
80
81Corse critiche e sezioni critiche
82---------------------------------
83
84Questa sovrapposizione, ovvero quando un risultato dipende dal tempo che
85intercorre fra processi diversi, è chiamata corsa critica. La porzione
86di codice che contiene questo problema è chiamata sezione critica.
87In particolar modo da quando Linux ha incominciato a girare su
88macchine multi-processore, le sezioni critiche sono diventate uno dei
89maggiori problemi di progettazione ed implementazione del kernel.
90
91La prelazione può sortire gli stessi effetti, anche se c'è una sola CPU:
92interrompendo un processo nella sua sezione critica otterremo comunque
93la stessa corsa critica. In questo caso, il thread che si avvicenda
94nell'esecuzione potrebbe eseguire anch'esso la sezione critica.
95
96La soluzione è quella di riconoscere quando avvengono questi accessi
97simultanei, ed utilizzare i *lock* per accertarsi che solo un'istanza
98per volta possa entrare nella sezione critica. Il kernel offre delle buone
99funzioni a questo scopo. E poi ci sono quelle meno buone, ma farò finta
100che non esistano.
101
102Sincronizzazione nel kernel Linux
103=================================
104
105Se dovessi darvi un suggerimento sulla sincronizzazione: **mantenetela
106semplice**.
107
108Siate riluttanti nell'introduzione di nuovi *lock*.
109
110I due principali tipi di *lock* nel kernel: spinlock e mutex
111------------------------------------------------------------
112
113Ci sono due tipi principali di *lock* nel kernel. Il tipo fondamentale è lo
114spinlock (``include/asm/spinlock.h``), un semplice *lock* che può essere
115trattenuto solo da un processo: se non si può trattenere lo spinlock, allora
116rimane in attesa attiva (in inglese *spinning*) finché non ci riesce.
117Gli spinlock sono molto piccoli e rapidi, possono essere utilizzati ovunque.
118
119Il secondo tipo è il mutex (``include/linux/mutex.h``): è come uno spinlock,
120ma potreste bloccarvi trattenendolo. Se non potete trattenere un mutex
121il vostro processo si auto-sospenderà; verrà riattivato quando il mutex
122verrà rilasciato. Questo significa che il processore potrà occuparsi d'altro
123mentre il vostro processo è in attesa. Esistono molti casi in cui non potete
124permettervi di sospendere un processo (vedere
125`Quali funzioni possono essere chiamate in modo sicuro dalle interruzioni?`_)
126e quindi dovrete utilizzare gli spinlock.
127
128Nessuno di questi *lock* è ricorsivo: vedere
129`Stallo: semplice ed avanzato`_
130
131I *lock* e i kernel per sistemi monoprocessore
132----------------------------------------------
133
134Per i kernel compilati senza ``CONFIG_SMP`` e senza ``CONFIG_PREEMPT``
135gli spinlock non esistono. Questa è un'ottima scelta di progettazione:
136quando nessun altro processo può essere eseguito in simultanea, allora
137non c'è la necessità di avere un *lock*.
138
139Se il kernel è compilato senza ``CONFIG_SMP`` ma con ``CONFIG_PREEMPT``,
140allora gli spinlock disabilitano la prelazione; questo è sufficiente a
141prevenire le corse critiche. Nella maggior parte dei casi, possiamo considerare
142la prelazione equivalente ad un sistema multi-processore senza preoccuparci
143di trattarla indipendentemente.
144
145Dovreste verificare sempre la sincronizzazione con le opzioni ``CONFIG_SMP`` e
146``CONFIG_PREEMPT`` abilitate, anche quando non avete un sistema
147multi-processore, questo vi permetterà di identificare alcuni problemi
148di sincronizzazione.
149
150Come vedremo di seguito, i mutex continuano ad esistere perché sono necessari
151per la sincronizzazione fra processi in contesto utente.
152
153Sincronizzazione in contesto utente
154-----------------------------------
155
156Se avete una struttura dati che verrà utilizzata solo dal contesto utente,
157allora, per proteggerla, potete utilizzare un semplice mutex
158(``include/linux/mutex.h``). Questo è il caso più semplice: inizializzate il
159mutex; invocate mutex_lock_interruptible() per trattenerlo e
160mutex_unlock() per rilasciarlo. C'è anche mutex_lock()
161ma questa dovrebbe essere evitata perché non ritorna in caso di segnali.
162
163Per esempio: ``net/netfilter/nf_sockopt.c`` permette la registrazione
164di nuove chiamate per setsockopt() e getsockopt()
165usando la funzione nf_register_sockopt(). La registrazione e
166la rimozione vengono eseguite solamente quando il modulo viene caricato
167o scaricato (e durante l'avvio del sistema, qui non abbiamo concorrenza),
168e la lista delle funzioni registrate viene consultata solamente quando
169setsockopt() o getsockopt() sono sconosciute al sistema.
170In questo caso ``nf_sockopt_mutex`` è perfetto allo scopo, in particolar modo
171visto che setsockopt e getsockopt potrebbero dormire.
172
173Sincronizzazione fra il contesto utente e i softirq
174---------------------------------------------------
175
176Se un softirq condivide dati col contesto utente, avete due problemi.
177Primo, il contesto utente corrente potrebbe essere interroto da un softirq,
178e secondo, la sezione critica potrebbe essere eseguita da un altro
179processore. Questo è quando spin_lock_bh()
180(``include/linux/spinlock.h``) viene utilizzato. Questo disabilita i softirq
181sul processore e trattiene il *lock*. Invece, spin_unlock_bh() fa
182l'opposto. (Il suffisso '_bh' è un residuo storico che fa riferimento al
183"Bottom Halves", il vecchio nome delle interruzioni software. In un mondo
184perfetto questa funzione si chiamerebbe 'spin_lock_softirq()').
185
186Da notare che in questo caso potete utilizzare anche spin_lock_irq()
187o spin_lock_irqsave(), queste fermano anche le interruzioni hardware:
188vedere `Contesto di interruzione hardware`_.
189
190Questo funziona alla perfezione anche sui sistemi monoprocessore: gli spinlock
191svaniscono e questa macro diventa semplicemente local_bh_disable()
192(``include/linux/interrupt.h``), la quale impedisce ai softirq d'essere
193eseguiti.
194
195Sincronizzazione fra contesto utente e i tasklet
196------------------------------------------------
197
198Questo caso è uguale al precedente, un tasklet viene eseguito da un softirq.
199
200Sincronizzazione fra contesto utente e i timer
201----------------------------------------------
202
203Anche questo caso è uguale al precedente, un timer viene eseguito da un
204softirq.
205Dal punto di vista della sincronizzazione, tasklet e timer sono identici.
206
207Sincronizzazione fra tasklet e timer
208------------------------------------
209
210Qualche volta un tasklet od un timer potrebbero condividere i dati con
211un altro tasklet o timer
212
213Lo stesso tasklet/timer
214~~~~~~~~~~~~~~~~~~~~~~~
215
216Dato che un tasklet non viene mai eseguito contemporaneamente su due
217processori, non dovete preoccuparvi che sia rientrante (ovvero eseguito
218più volte in contemporanea), perfino su sistemi multi-processore.
219
220Differenti tasklet/timer
221~~~~~~~~~~~~~~~~~~~~~~~~
222
223Se un altro tasklet/timer vuole condividere dati col vostro tasklet o timer,
224allora avrete bisogno entrambe di spin_lock() e
225spin_unlock(). Qui spin_lock_bh() è inutile, siete già
226in un tasklet ed avete la garanzia che nessun altro verrà eseguito sullo
227stesso processore.
228
229Sincronizzazione fra softirq
230----------------------------
231
232Spesso un softirq potrebbe condividere dati con se stesso o un tasklet/timer.
233
234Lo stesso softirq
235~~~~~~~~~~~~~~~~~
236
237Lo stesso softirq può essere eseguito su un diverso processore: allo scopo
238di migliorare le prestazioni potete utilizzare dati riservati ad ogni
239processore (vedere `Dati per processore`_). Se siete arrivati
240fino a questo punto nell'uso dei softirq, probabilmente tenete alla scalabilità
241delle prestazioni abbastanza da giustificarne la complessità aggiuntiva.
242
243Dovete utilizzare spin_lock() e spin_unlock() per
244proteggere i dati condivisi.
245
246Diversi Softirqs
247~~~~~~~~~~~~~~~~
248
249Dovete utilizzare spin_lock() e spin_unlock() per
250proteggere i dati condivisi, che siano timer, tasklet, diversi softirq o
251lo stesso o altri softirq: uno qualsiasi di essi potrebbe essere in esecuzione
252su un diverso processore.
253
254.. _`it_hardirq-context`:
255
256Contesto di interruzione hardware
257=================================
258
259Solitamente le interruzioni hardware comunicano con un tasklet o un softirq.
260Spesso questo si traduce nel mettere in coda qualcosa da fare che verrà
261preso in carico da un softirq.
262
263Sincronizzazione fra interruzioni hardware e softirq/tasklet
264------------------------------------------------------------
265
266Se un gestore di interruzioni hardware condivide dati con un softirq, allora
267avrete due preoccupazioni. Primo, il softirq può essere interrotto da
268un'interruzione hardware, e secondo, la sezione critica potrebbe essere
269eseguita da un'interruzione hardware su un processore diverso. Questo è il caso
270dove spin_lock_irq() viene utilizzato. Disabilita le interruzioni
271sul processore che l'esegue, poi trattiene il lock. spin_unlock_irq()
272fa l'opposto.
273
274Il gestore d'interruzione hardware non ha bisogno di usare spin_lock_irq()
275perché i softirq non possono essere eseguiti quando il gestore d'interruzione
276hardware è in esecuzione: per questo si può usare spin_lock(), che è un po'
277più veloce. L'unica eccezione è quando un altro gestore d'interruzioni
278hardware utilizza lo stesso *lock*: spin_lock_irq() impedirà a questo
279secondo gestore di interrompere quello in esecuzione.
280
281Questo funziona alla perfezione anche sui sistemi monoprocessore: gli spinlock
282svaniscono e questa macro diventa semplicemente local_irq_disable()
283(``include/asm/smp.h``), la quale impedisce a softirq/tasklet/BH d'essere
284eseguiti.
285
286spin_lock_irqsave() (``include/linux/spinlock.h``) è una variante che
287salva lo stato delle interruzioni in una variabile, questa verrà poi passata
288a spin_unlock_irqrestore(). Questo significa che lo stesso codice
289potrà essere utilizzato in un'interruzione hardware (dove le interruzioni sono
290già disabilitate) e in un softirq (dove la disabilitazione delle interruzioni
291è richiesta).
292
293Da notare che i softirq (e quindi tasklet e timer) sono eseguiti al ritorno
294da un'interruzione hardware, quindi spin_lock_irq() interrompe
295anche questi. Tenuto conto di questo si può dire che
296spin_lock_irqsave() è la funzione di sincronizzazione più generica
297e potente.
298
299Sincronizzazione fra due gestori d'interruzioni hardware
300--------------------------------------------------------
301
302Condividere dati fra due gestori di interruzione hardware è molto raro, ma se
303succede, dovreste usare spin_lock_irqsave(): è una specificità
304dell'architettura il fatto che tutte le interruzioni vengano interrotte
305quando si eseguono di gestori di interruzioni.
306
307Bigino della sincronizzazione
308=============================
309
310Pete Zaitcev ci offre il seguente riassunto:
311
312-  Se siete in un contesto utente (una qualsiasi chiamata di sistema)
313   e volete sincronizzarvi con altri processi, usate i mutex. Potete trattenere
314   il mutex e dormire (``copy_from_user(`` o ``kmalloc(x,GFP_KERNEL)``).
315
316-  Altrimenti (== i dati possono essere manipolati da un'interruzione) usate
317   spin_lock_irqsave() e spin_unlock_irqrestore().
318
319-  Evitate di trattenere uno spinlock per più di 5 righe di codice incluse
320   le chiamate a funzione (ad eccezione di quell per l'accesso come
321   readb()).
322
323Tabella dei requisiti minimi
324----------------------------
325
326La tabella seguente illustra i requisiti **minimi** per la sincronizzazione fra
327diversi contesti. In alcuni casi, lo stesso contesto può essere eseguito solo
328da un processore per volta, quindi non ci sono requisiti per la
329sincronizzazione (per esempio, un thread può essere eseguito solo su un
330processore alla volta, ma se deve condividere dati con un altro thread, allora
331la sincronizzazione è necessaria).
332
333Ricordatevi il suggerimento qui sopra: potete sempre usare
334spin_lock_irqsave(), che è un sovrainsieme di tutte le altre funzioni
335per spinlock.
336
337============== ============= ============= ========= ========= ========= ========= ======= ======= ============== ==============
338.              IRQ Handler A IRQ Handler B Softirq A Softirq B Tasklet A Tasklet B Timer A Timer B User Context A User Context B
339============== ============= ============= ========= ========= ========= ========= ======= ======= ============== ==============
340IRQ Handler A  None
341IRQ Handler B  SLIS          None
342Softirq A      SLI           SLI           SL
343Softirq B      SLI           SLI           SL        SL
344Tasklet A      SLI           SLI           SL        SL        None
345Tasklet B      SLI           SLI           SL        SL        SL        None
346Timer A        SLI           SLI           SL        SL        SL        SL        None
347Timer B        SLI           SLI           SL        SL        SL        SL        SL      None
348User Context A SLI           SLI           SLBH      SLBH      SLBH      SLBH      SLBH    SLBH    None
349User Context B SLI           SLI           SLBH      SLBH      SLBH      SLBH      SLBH    SLBH    MLI            None
350============== ============= ============= ========= ========= ========= ========= ======= ======= ============== ==============
351
352Table: Tabella dei requisiti per la sincronizzazione
353
354+--------+----------------------------+
355| SLIS   | spin_lock_irqsave          |
356+--------+----------------------------+
357| SLI    | spin_lock_irq              |
358+--------+----------------------------+
359| SL     | spin_lock                  |
360+--------+----------------------------+
361| SLBH   | spin_lock_bh               |
362+--------+----------------------------+
363| MLI    | mutex_lock_interruptible   |
364+--------+----------------------------+
365
366Table: Legenda per la tabella dei requisiti per la sincronizzazione
367
368Le funzioni *trylock*
369=====================
370
371Ci sono funzioni che provano a trattenere un *lock* solo una volta e
372ritornano immediatamente comunicato il successo od il fallimento
373dell'operazione. Posso essere usate quando non serve accedere ai dati
374protetti dal *lock* quando qualche altro thread lo sta già facendo
375trattenendo il *lock*. Potrete acquisire il *lock* più tardi se vi
376serve accedere ai dati protetti da questo *lock*.
377
378La funzione spin_trylock() non ritenta di acquisire il *lock*,
379se ci riesce al primo colpo ritorna un valore diverso da zero, altrimenti
380se fallisce ritorna 0. Questa funzione può essere utilizzata in un qualunque
381contesto, ma come spin_lock(): dovete disabilitare i contesti che
382potrebbero interrompervi e quindi trattenere lo spinlock.
383
384La funzione mutex_trylock() invece di sospendere il vostro processo
385ritorna un valore diverso da zero se è possibile trattenere il lock al primo
386colpo, altrimenti se fallisce ritorna 0. Nonostante non dorma, questa funzione
387non può essere usata in modo sicuro in contesti di interruzione hardware o
388software.
389
390Esempi più comuni
391=================
392
393Guardiamo un semplice esempio: una memoria che associa nomi a numeri.
394La memoria tiene traccia di quanto spesso viene utilizzato ogni oggetto;
395quando è piena, l'oggetto meno usato viene eliminato.
396
397Tutto in contesto utente
398------------------------
399
400Nel primo esempio, supponiamo che tutte le operazioni avvengano in contesto
401utente (in soldoni, da una chiamata di sistema), quindi possiamo dormire.
402Questo significa che possiamo usare i mutex per proteggere la nostra memoria
403e tutti gli oggetti che contiene. Ecco il codice::
404
405    #include <linux/list.h>
406    #include <linux/slab.h>
407    #include <linux/string.h>
408    #include <linux/mutex.h>
409    #include <asm/errno.h>
410
411    struct object
412    {
413            struct list_head list;
414            int id;
415            char name[32];
416            int popularity;
417    };
418
419    /* Protects the cache, cache_num, and the objects within it */
420    static DEFINE_MUTEX(cache_lock);
421    static LIST_HEAD(cache);
422    static unsigned int cache_num = 0;
423    #define MAX_CACHE_SIZE 10
424
425    /* Must be holding cache_lock */
426    static struct object *__cache_find(int id)
427    {
428            struct object *i;
429
430            list_for_each_entry(i, &cache, list)
431                    if (i->id == id) {
432                            i->popularity++;
433                            return i;
434                    }
435            return NULL;
436    }
437
438    /* Must be holding cache_lock */
439    static void __cache_delete(struct object *obj)
440    {
441            BUG_ON(!obj);
442            list_del(&obj->list);
443            kfree(obj);
444            cache_num--;
445    }
446
447    /* Must be holding cache_lock */
448    static void __cache_add(struct object *obj)
449    {
450            list_add(&obj->list, &cache);
451            if (++cache_num > MAX_CACHE_SIZE) {
452                    struct object *i, *outcast = NULL;
453                    list_for_each_entry(i, &cache, list) {
454                            if (!outcast || i->popularity < outcast->popularity)
455                                    outcast = i;
456                    }
457                    __cache_delete(outcast);
458            }
459    }
460
461    int cache_add(int id, const char *name)
462    {
463            struct object *obj;
464
465            if ((obj = kmalloc(sizeof(*obj), GFP_KERNEL)) == NULL)
466                    return -ENOMEM;
467
468            strscpy(obj->name, name, sizeof(obj->name));
469            obj->id = id;
470            obj->popularity = 0;
471
472            mutex_lock(&cache_lock);
473            __cache_add(obj);
474            mutex_unlock(&cache_lock);
475            return 0;
476    }
477
478    void cache_delete(int id)
479    {
480            mutex_lock(&cache_lock);
481            __cache_delete(__cache_find(id));
482            mutex_unlock(&cache_lock);
483    }
484
485    int cache_find(int id, char *name)
486    {
487            struct object *obj;
488            int ret = -ENOENT;
489
490            mutex_lock(&cache_lock);
491            obj = __cache_find(id);
492            if (obj) {
493                    ret = 0;
494                    strcpy(name, obj->name);
495            }
496            mutex_unlock(&cache_lock);
497            return ret;
498    }
499
500Da notare che ci assicuriamo sempre di trattenere cache_lock quando
501aggiungiamo, rimuoviamo od ispezioniamo la memoria: sia la struttura
502della memoria che il suo contenuto sono protetti dal *lock*. Questo
503caso è semplice dato che copiamo i dati dall'utente e non permettiamo
504mai loro di accedere direttamente agli oggetti.
505
506C'è una piccola ottimizzazione qui: nella funzione cache_add()
507impostiamo i campi dell'oggetto prima di acquisire il *lock*. Questo è
508sicuro perché nessun altro potrà accedervi finché non lo inseriremo
509nella memoria.
510
511Accesso dal contesto utente
512---------------------------
513
514Ora consideriamo il caso in cui cache_find() può essere invocata
515dal contesto d'interruzione: sia hardware che software. Un esempio potrebbe
516essere un timer che elimina oggetti dalla memoria.
517
518Qui di seguito troverete la modifica nel formato *patch*: le righe ``-``
519sono quelle rimosse, mentre quelle ``+`` sono quelle aggiunte.
520
521::
522
523    --- cache.c.usercontext 2003-12-09 13:58:54.000000000 +1100
524    +++ cache.c.interrupt   2003-12-09 14:07:49.000000000 +1100
525    @@ -12,7 +12,7 @@
526             int popularity;
527     };
528
529    -static DEFINE_MUTEX(cache_lock);
530    +static DEFINE_SPINLOCK(cache_lock);
531     static LIST_HEAD(cache);
532     static unsigned int cache_num = 0;
533     #define MAX_CACHE_SIZE 10
534    @@ -55,6 +55,7 @@
535     int cache_add(int id, const char *name)
536     {
537             struct object *obj;
538    +        unsigned long flags;
539
540             if ((obj = kmalloc(sizeof(*obj), GFP_KERNEL)) == NULL)
541                     return -ENOMEM;
542    @@ -63,30 +64,33 @@
543             obj->id = id;
544             obj->popularity = 0;
545
546    -        mutex_lock(&cache_lock);
547    +        spin_lock_irqsave(&cache_lock, flags);
548             __cache_add(obj);
549    -        mutex_unlock(&cache_lock);
550    +        spin_unlock_irqrestore(&cache_lock, flags);
551             return 0;
552     }
553
554     void cache_delete(int id)
555     {
556    -        mutex_lock(&cache_lock);
557    +        unsigned long flags;
558    +
559    +        spin_lock_irqsave(&cache_lock, flags);
560             __cache_delete(__cache_find(id));
561    -        mutex_unlock(&cache_lock);
562    +        spin_unlock_irqrestore(&cache_lock, flags);
563     }
564
565     int cache_find(int id, char *name)
566     {
567             struct object *obj;
568             int ret = -ENOENT;
569    +        unsigned long flags;
570
571    -        mutex_lock(&cache_lock);
572    +        spin_lock_irqsave(&cache_lock, flags);
573             obj = __cache_find(id);
574             if (obj) {
575                     ret = 0;
576                     strcpy(name, obj->name);
577             }
578    -        mutex_unlock(&cache_lock);
579    +        spin_unlock_irqrestore(&cache_lock, flags);
580             return ret;
581     }
582
583Da notare che spin_lock_irqsave() disabiliterà le interruzioni
584se erano attive, altrimenti non farà niente (quando siamo già in un contesto
585d'interruzione); dunque queste funzioni possono essere chiamante in
586sicurezza da qualsiasi contesto.
587
588Sfortunatamente, cache_add() invoca kmalloc() con
589l'opzione ``GFP_KERNEL`` che è permessa solo in contesto utente. Ho supposto
590che cache_add() venga chiamata dal contesto utente, altrimenti
591questa opzione deve diventare un parametro di cache_add().
592
593Esporre gli oggetti al di fuori del file
594----------------------------------------
595
596Se i vostri oggetti contengono più informazioni, potrebbe non essere
597sufficiente copiare i dati avanti e indietro: per esempio, altre parti del
598codice potrebbero avere un puntatore a questi oggetti piuttosto che cercarli
599ogni volta. Questo introduce due problemi.
600
601Il primo problema è che utilizziamo ``cache_lock`` per proteggere gli oggetti:
602dobbiamo renderlo dinamico così che il resto del codice possa usarlo. Questo
603rende la sincronizzazione più complicata dato che non avviene più in un unico
604posto.
605
606Il secondo problema è il problema del ciclo di vita: se un'altra struttura
607mantiene un puntatore ad un oggetto, presumibilmente si aspetta che questo
608puntatore rimanga valido. Sfortunatamente, questo è garantito solo mentre
609si trattiene il *lock*, altrimenti qualcuno potrebbe chiamare
610cache_delete() o peggio, aggiungere un oggetto che riutilizza lo
611stesso indirizzo.
612
613Dato che c'è un solo *lock*, non potete trattenerlo a vita: altrimenti
614nessun altro potrà eseguire il proprio lavoro.
615
616La soluzione a questo problema è l'uso di un contatore di riferimenti:
617chiunque punti ad un oggetto deve incrementare il contatore, e decrementarlo
618quando il puntatore non viene più usato. Quando il contatore raggiunge lo zero
619significa che non è più usato e l'oggetto può essere rimosso.
620
621Ecco il codice::
622
623    --- cache.c.interrupt   2003-12-09 14:25:43.000000000 +1100
624    +++ cache.c.refcnt  2003-12-09 14:33:05.000000000 +1100
625    @@ -7,6 +7,7 @@
626     struct object
627     {
628             struct list_head list;
629    +        unsigned int refcnt;
630             int id;
631             char name[32];
632             int popularity;
633    @@ -17,6 +18,35 @@
634     static unsigned int cache_num = 0;
635     #define MAX_CACHE_SIZE 10
636
637    +static void __object_put(struct object *obj)
638    +{
639    +        if (--obj->refcnt == 0)
640    +                kfree(obj);
641    +}
642    +
643    +static void __object_get(struct object *obj)
644    +{
645    +        obj->refcnt++;
646    +}
647    +
648    +void object_put(struct object *obj)
649    +{
650    +        unsigned long flags;
651    +
652    +        spin_lock_irqsave(&cache_lock, flags);
653    +        __object_put(obj);
654    +        spin_unlock_irqrestore(&cache_lock, flags);
655    +}
656    +
657    +void object_get(struct object *obj)
658    +{
659    +        unsigned long flags;
660    +
661    +        spin_lock_irqsave(&cache_lock, flags);
662    +        __object_get(obj);
663    +        spin_unlock_irqrestore(&cache_lock, flags);
664    +}
665    +
666     /* Must be holding cache_lock */
667     static struct object *__cache_find(int id)
668     {
669    @@ -35,6 +65,7 @@
670     {
671             BUG_ON(!obj);
672             list_del(&obj->list);
673    +        __object_put(obj);
674             cache_num--;
675     }
676
677    @@ -63,6 +94,7 @@
678             strscpy(obj->name, name, sizeof(obj->name));
679             obj->id = id;
680             obj->popularity = 0;
681    +        obj->refcnt = 1; /* The cache holds a reference */
682
683             spin_lock_irqsave(&cache_lock, flags);
684             __cache_add(obj);
685    @@ -79,18 +111,15 @@
686             spin_unlock_irqrestore(&cache_lock, flags);
687     }
688
689    -int cache_find(int id, char *name)
690    +struct object *cache_find(int id)
691     {
692             struct object *obj;
693    -        int ret = -ENOENT;
694             unsigned long flags;
695
696             spin_lock_irqsave(&cache_lock, flags);
697             obj = __cache_find(id);
698    -        if (obj) {
699    -                ret = 0;
700    -                strcpy(name, obj->name);
701    -        }
702    +        if (obj)
703    +                __object_get(obj);
704             spin_unlock_irqrestore(&cache_lock, flags);
705    -        return ret;
706    +        return obj;
707     }
708
709Abbiamo incapsulato il contatore di riferimenti nelle tipiche funzioni
710di 'get' e 'put'. Ora possiamo ritornare l'oggetto da cache_find()
711col vantaggio che l'utente può dormire trattenendo l'oggetto (per esempio,
712copy_to_user() per copiare il nome verso lo spazio utente).
713
714Un altro punto da notare è che ho detto che il contatore dovrebbe incrementarsi
715per ogni puntatore ad un oggetto: quindi il contatore di riferimenti è 1
716quando l'oggetto viene inserito nella memoria. In altre versione il framework
717non trattiene un riferimento per se, ma diventa più complicato.
718
719Usare operazioni atomiche per il contatore di riferimenti
720~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
721
722In sostanza, :c:type:`atomic_t` viene usato come contatore di riferimenti.
723Ci sono un certo numbero di operazioni atomiche definite
724in ``include/asm/atomic.h``: queste sono garantite come atomiche su qualsiasi
725processore del sistema, quindi non sono necessari i *lock*. In questo caso è
726più semplice rispetto all'uso degli spinlock, benché l'uso degli spinlock
727sia più elegante per casi non banali. Le funzioni atomic_inc() e
728atomic_dec_and_test() vengono usate al posto dei tipici operatori di
729incremento e decremento, e i *lock* non sono più necessari per proteggere il
730contatore stesso.
731
732::
733
734    --- cache.c.refcnt  2003-12-09 15:00:35.000000000 +1100
735    +++ cache.c.refcnt-atomic   2003-12-11 15:49:42.000000000 +1100
736    @@ -7,7 +7,7 @@
737     struct object
738     {
739             struct list_head list;
740    -        unsigned int refcnt;
741    +        atomic_t refcnt;
742             int id;
743             char name[32];
744             int popularity;
745    @@ -18,33 +18,15 @@
746     static unsigned int cache_num = 0;
747     #define MAX_CACHE_SIZE 10
748
749    -static void __object_put(struct object *obj)
750    -{
751    -        if (--obj->refcnt == 0)
752    -                kfree(obj);
753    -}
754    -
755    -static void __object_get(struct object *obj)
756    -{
757    -        obj->refcnt++;
758    -}
759    -
760     void object_put(struct object *obj)
761     {
762    -        unsigned long flags;
763    -
764    -        spin_lock_irqsave(&cache_lock, flags);
765    -        __object_put(obj);
766    -        spin_unlock_irqrestore(&cache_lock, flags);
767    +        if (atomic_dec_and_test(&obj->refcnt))
768    +                kfree(obj);
769     }
770
771     void object_get(struct object *obj)
772     {
773    -        unsigned long flags;
774    -
775    -        spin_lock_irqsave(&cache_lock, flags);
776    -        __object_get(obj);
777    -        spin_unlock_irqrestore(&cache_lock, flags);
778    +        atomic_inc(&obj->refcnt);
779     }
780
781     /* Must be holding cache_lock */
782    @@ -65,7 +47,7 @@
783     {
784             BUG_ON(!obj);
785             list_del(&obj->list);
786    -        __object_put(obj);
787    +        object_put(obj);
788             cache_num--;
789     }
790
791    @@ -94,7 +76,7 @@
792             strscpy(obj->name, name, sizeof(obj->name));
793             obj->id = id;
794             obj->popularity = 0;
795    -        obj->refcnt = 1; /* The cache holds a reference */
796    +        atomic_set(&obj->refcnt, 1); /* The cache holds a reference */
797
798             spin_lock_irqsave(&cache_lock, flags);
799             __cache_add(obj);
800    @@ -119,7 +101,7 @@
801             spin_lock_irqsave(&cache_lock, flags);
802             obj = __cache_find(id);
803             if (obj)
804    -                __object_get(obj);
805    +                object_get(obj);
806             spin_unlock_irqrestore(&cache_lock, flags);
807             return obj;
808     }
809
810Proteggere l'oggetto stesso
811---------------------------
812
813In questo esempio, assumiamo che gli oggetti (ad eccezione del contatore
814di riferimenti) non cambino mai dopo la loro creazione. Se vogliamo permettere
815al nome di cambiare abbiamo tre possibilità:
816
817-  Si può togliere static da ``cache_lock`` e dire agli utenti che devono
818   trattenere il *lock* prima di modificare il nome di un oggetto.
819
820-  Si può fornire una funzione cache_obj_rename() che prende il
821   *lock* e cambia il nome per conto del chiamante; si dirà poi agli utenti
822   di usare questa funzione.
823
824-  Si può decidere che ``cache_lock`` protegge solo la memoria stessa, ed
825   un altro *lock* è necessario per la protezione del nome.
826
827Teoricamente, possiamo avere un *lock* per ogni campo e per ogni oggetto.
828In pratica, le varianti più comuni sono:
829
830-  un *lock* che protegge l'infrastruttura (la lista ``cache`` di questo
831   esempio) e gli oggetti. Questo è quello che abbiamo fatto finora.
832
833-  un *lock* che protegge l'infrastruttura (inclusi i puntatori alla lista
834   negli oggetti), e un *lock* nell'oggetto per proteggere il resto
835   dell'oggetto stesso.
836
837-  *lock* multipli per proteggere l'infrastruttura (per esempio un *lock*
838   per ogni lista), possibilmente con un *lock* per oggetto.
839
840Qui di seguito un'implementazione con "un lock per oggetto":
841
842::
843
844    --- cache.c.refcnt-atomic   2003-12-11 15:50:54.000000000 +1100
845    +++ cache.c.perobjectlock   2003-12-11 17:15:03.000000000 +1100
846    @@ -6,11 +6,17 @@
847
848     struct object
849     {
850    +        /* These two protected by cache_lock. */
851             struct list_head list;
852    +        int popularity;
853    +
854             atomic_t refcnt;
855    +
856    +        /* Doesn't change once created. */
857             int id;
858    +
859    +        spinlock_t lock; /* Protects the name */
860             char name[32];
861    -        int popularity;
862     };
863
864     static DEFINE_SPINLOCK(cache_lock);
865    @@ -77,6 +84,7 @@
866             obj->id = id;
867             obj->popularity = 0;
868             atomic_set(&obj->refcnt, 1); /* The cache holds a reference */
869    +        spin_lock_init(&obj->lock);
870
871             spin_lock_irqsave(&cache_lock, flags);
872             __cache_add(obj);
873
874Da notare che ho deciso che il contatore di popolarità dovesse essere
875protetto da ``cache_lock`` piuttosto che dal *lock* dell'oggetto; questo
876perché è logicamente parte dell'infrastruttura (come
877:c:type:`struct list_head <list_head>` nell'oggetto). In questo modo,
878in __cache_add(), non ho bisogno di trattenere il *lock* di ogni
879oggetto mentre si cerca il meno popolare.
880
881Ho anche deciso che il campo id è immutabile, quindi non ho bisogno di
882trattenere il lock dell'oggetto quando si usa __cache_find()
883per leggere questo campo; il *lock* dell'oggetto è usato solo dal chiamante
884che vuole leggere o scrivere il campo name.
885
886Inoltre, da notare che ho aggiunto un commento che descrive i dati che sono
887protetti dal *lock*. Questo è estremamente importante in quanto descrive il
888comportamento del codice, che altrimenti sarebbe di difficile comprensione
889leggendo solamente il codice. E come dice Alan Cox: “Lock data, not code”.
890
891Problemi comuni
892===============
893
894Stallo: semplice ed avanzato
895----------------------------
896
897Esiste un tipo di  baco dove un pezzo di codice tenta di trattenere uno
898spinlock due volte: questo rimarrà in attesa attiva per sempre aspettando che
899il *lock* venga rilasciato (in Linux spinlocks, rwlocks e mutex non sono
900ricorsivi).
901Questo è facile da diagnosticare: non è uno di quei problemi che ti tengono
902sveglio 5 notti a parlare da solo.
903
904Un caso un pochino più complesso; immaginate d'avere una spazio condiviso
905fra un softirq ed il contesto utente. Se usate spin_lock() per
906proteggerlo, il contesto utente potrebbe essere interrotto da un softirq
907mentre trattiene il lock, da qui il softirq rimarrà in attesa attiva provando
908ad acquisire il *lock* già trattenuto nel contesto utente.
909
910Questi casi sono chiamati stalli (*deadlock*), e come mostrato qui sopra,
911può succedere anche con un solo processore (Ma non sui sistemi
912monoprocessore perché gli spinlock spariscano quando il kernel è compilato
913con ``CONFIG_SMP``\ =n. Nonostante ciò, nel secondo caso avrete comunque
914una corruzione dei dati).
915
916Questi casi sono facili da diagnosticare; sui sistemi multi-processore
917il supervisione (*watchdog*) o l'opzione di compilazione ``DEBUG_SPINLOCK``
918(``include/linux/spinlock.h``) permettono di scovare immediatamente quando
919succedono.
920
921Esiste un caso più complesso che è conosciuto come l'abbraccio della morte;
922questo coinvolge due o più *lock*. Diciamo che avete un vettore di hash in cui
923ogni elemento è uno spinlock a cui è associata una lista di elementi con lo
924stesso hash. In un gestore di interruzioni software, dovete modificare un
925oggetto e spostarlo su un altro hash; quindi dovrete trattenete lo spinlock
926del vecchio hash e di quello nuovo, quindi rimuovere l'oggetto dal vecchio ed
927inserirlo nel nuovo.
928
929Qui abbiamo due problemi. Primo, se il vostro codice prova a spostare un
930oggetto all'interno della stessa lista, otterrete uno stallo visto che
931tenterà di trattenere lo stesso *lock* due volte. Secondo, se la stessa
932interruzione software su un altro processore sta tentando di spostare
933un altro oggetto nella direzione opposta, potrebbe accadere quanto segue:
934
935+---------------------------------+---------------------------------+
936| CPU 1                           | CPU 2                           |
937+=================================+=================================+
938| Trattiene *lock* A -> OK        | Trattiene *lock* B -> OK        |
939+---------------------------------+---------------------------------+
940| Trattiene *lock* B -> attesa    | Trattiene *lock* A -> attesa    |
941+---------------------------------+---------------------------------+
942
943Table: Conseguenze
944
945Entrambe i processori rimarranno in attesa attiva sul *lock* per sempre,
946aspettando che l'altro lo rilasci. Sembra e puzza come un blocco totale.
947
948Prevenire gli stalli
949--------------------
950
951I libri di testo vi diranno che se trattenete i *lock* sempre nello stesso
952ordine non avrete mai un simile stallo. La pratica vi dirà che questo
953approccio non funziona all'ingrandirsi del sistema: quando creo un nuovo
954*lock* non ne capisco abbastanza del kernel per dire in quale dei 5000 *lock*
955si incastrerà.
956
957I *lock* migliori sono quelli incapsulati: non vengono esposti nei file di
958intestazione, e non vengono mai trattenuti fuori dallo stesso file. Potete
959rileggere questo codice e vedere che non ci sarà mai uno stallo perché
960non tenterà mai di trattenere un altro *lock* quando lo ha già.
961Le persone che usano il vostro codice non devono nemmeno sapere che voi
962state usando dei *lock*.
963
964Un classico problema deriva dall'uso di *callback* e di *hook*: se li
965chiamate mentre trattenete un *lock*, rischiate uno stallo o un abbraccio
966della morte (chi lo sa cosa farà una *callback*?).
967
968Ossessiva prevenzione degli stalli
969~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
970
971Gli stalli sono un problema, ma non così terribile come la corruzione dei dati.
972Un pezzo di codice trattiene un *lock* di lettura, cerca in una lista,
973fallisce nel trovare quello che vuole, quindi rilascia il *lock* di lettura,
974trattiene un *lock* di scrittura ed inserisce un oggetto; questo genere di
975codice presenta una corsa critica.
976
977corsa fra temporizzatori: un passatempo del kernel
978--------------------------------------------------
979
980I temporizzatori potrebbero avere dei problemi con le corse critiche.
981Considerate una collezione di oggetti (liste, hash, eccetera) dove ogni oggetto
982ha un temporizzatore che sta per distruggerlo.
983
984Se volete eliminare l'intera collezione (diciamo quando rimuovete un modulo),
985potreste fare come segue::
986
987            /* THIS CODE BAD BAD BAD BAD: IF IT WAS ANY WORSE IT WOULD USE
988               HUNGARIAN NOTATION */
989            spin_lock_bh(&list_lock);
990
991            while (list) {
992                    struct foo *next = list->next;
993                    del_timer(&list->timer);
994                    kfree(list);
995                    list = next;
996            }
997
998            spin_unlock_bh(&list_lock);
999
1000Primo o poi, questo esploderà su un sistema multiprocessore perché un
1001temporizzatore potrebbe essere già partiro prima di spin_lock_bh(),
1002e prenderà il *lock* solo dopo spin_unlock_bh(), e cercherà
1003di eliminare il suo oggetto (che però è già stato eliminato).
1004
1005Questo può essere evitato controllando il valore di ritorno di
1006del_timer(): se ritorna 1, il temporizzatore è stato già
1007rimosso. Se 0, significa (in questo caso) che il temporizzatore è in
1008esecuzione, quindi possiamo fare come segue::
1009
1010            retry:
1011                    spin_lock_bh(&list_lock);
1012
1013                    while (list) {
1014                            struct foo *next = list->next;
1015                            if (!del_timer(&list->timer)) {
1016                                    /* Give timer a chance to delete this */
1017                                    spin_unlock_bh(&list_lock);
1018                                    goto retry;
1019                            }
1020                            kfree(list);
1021                            list = next;
1022                    }
1023
1024                    spin_unlock_bh(&list_lock);
1025
1026Un altro problema è l'eliminazione dei temporizzatori che si riavviano
1027da soli (chiamando add_timer() alla fine della loro esecuzione).
1028Dato che questo è un problema abbastanza comune con una propensione
1029alle corse critiche, dovreste usare del_timer_sync()
1030(``include/linux/timer.h``) per gestire questo caso. Questa ritorna il
1031numero di volte che il temporizzatore è stato interrotto prima che
1032fosse in grado di fermarlo senza che si riavviasse.
1033
1034Velocità della sincronizzazione
1035===============================
1036
1037Ci sono tre cose importanti da tenere in considerazione quando si valuta
1038la velocità d'esecuzione di un pezzo di codice che necessita di
1039sincronizzazione. La prima è la concorrenza: quante cose rimangono in attesa
1040mentre qualcuno trattiene un *lock*. La seconda è il tempo necessario per
1041acquisire (senza contese) e rilasciare un *lock*. La terza è di usare meno
1042*lock* o di più furbi. Immagino che i *lock* vengano usati regolarmente,
1043altrimenti, non sareste interessati all'efficienza.
1044
1045La concorrenza dipende da quanto a lungo un *lock* è trattenuto: dovreste
1046trattenere un *lock* solo il tempo minimo necessario ma non un istante in più.
1047Nella memoria dell'esempio precedente, creiamo gli oggetti senza trattenere
1048il *lock*, poi acquisiamo il *lock* quando siamo pronti per inserirlo nella
1049lista.
1050
1051Il tempo di acquisizione di un *lock* dipende da quanto danno fa
1052l'operazione sulla *pipeline* (ovvero stalli della *pipeline*) e quant'è
1053probabile che il processore corrente sia stato anche l'ultimo ad acquisire
1054il *lock* (in pratica, il *lock* è nella memoria cache del processore
1055corrente?): su sistemi multi-processore questa probabilità precipita
1056rapidamente. Consideriamo un processore Intel Pentium III a 700Mhz: questo
1057esegue un'istruzione in 0.7ns, un incremento atomico richiede 58ns, acquisire
1058un *lock* che è nella memoria cache del processore richiede 160ns, e un
1059trasferimento dalla memoria cache di un altro processore richiede altri
1060170/360ns (Leggetevi l'articolo di Paul McKenney's `Linux Journal RCU
1061article <http://www.linuxjournal.com/article.php?sid=6993>`__).
1062
1063Questi due obiettivi sono in conflitto: trattenere un *lock* per il minor
1064tempo possibile potrebbe richiedere la divisione in più *lock* per diverse
1065parti (come nel nostro ultimo esempio con un *lock* per ogni oggetto),
1066ma questo aumenta il numero di acquisizioni di *lock*, ed il risultato
1067spesso è che tutto è più lento che con un singolo *lock*. Questo è un altro
1068argomento in favore della semplicità quando si parla di sincronizzazione.
1069
1070Il terzo punto è discusso di seguito: ci sono alcune tecniche per ridurre
1071il numero di sincronizzazioni che devono essere fatte.
1072
1073Read/Write Lock Variants
1074------------------------
1075
1076Sia gli spinlock che i mutex hanno una variante per la lettura/scrittura
1077(read/write): ``rwlock_t`` e :c:type:`struct rw_semaphore <rw_semaphore>`.
1078Queste dividono gli utenti in due categorie: i lettori e gli scrittori.
1079Se state solo leggendo i dati, potete acquisire il *lock* di lettura, ma
1080per scrivere avrete bisogno del *lock* di scrittura. Molti possono trattenere
1081il *lock* di lettura, ma solo uno scrittore alla volta può trattenere
1082quello di scrittura.
1083
1084Se il vostro codice si divide chiaramente in codice per lettori e codice
1085per scrittori (come nel nostro esempio), e il *lock* dei lettori viene
1086trattenuto per molto tempo, allora l'uso di questo tipo di *lock* può aiutare.
1087Questi sono leggermente più lenti rispetto alla loro versione normale, quindi
1088nella pratica l'uso di ``rwlock_t`` non ne vale la pena.
1089
1090Evitare i *lock*: Read Copy Update
1091--------------------------------------------
1092
1093Esiste un metodo di sincronizzazione per letture e scritture detto
1094Read Copy Update. Con l'uso della tecnica RCU, i lettori possono scordarsi
1095completamente di trattenere i *lock*; dato che nel nostro esempio ci
1096aspettiamo d'avere più lettore che scrittori (altrimenti questa memoria
1097sarebbe uno spreco) possiamo dire che questo meccanismo permette
1098un'ottimizzazione.
1099
1100Come facciamo a sbarazzarci dei *lock* di lettura? Sbarazzarsi dei *lock* di
1101lettura significa che uno scrittore potrebbe cambiare la lista sotto al naso
1102dei lettori. Questo è abbastanza semplice: possiamo leggere una lista
1103concatenata se lo scrittore aggiunge elementi alla fine e con certe
1104precauzioni. Per esempio, aggiungendo ``new`` ad una lista concatenata
1105chiamata ``list``::
1106
1107            new->next = list->next;
1108            wmb();
1109            list->next = new;
1110
1111La funzione wmb() è una barriera di sincronizzazione delle
1112scritture. Questa garantisce che la prima operazione (impostare l'elemento
1113``next`` del nuovo elemento) venga completata e vista da tutti i processori
1114prima che venga eseguita la seconda operazione (che sarebbe quella di mettere
1115il nuovo elemento nella lista). Questo è importante perché i moderni
1116compilatori ed i moderni processori possono, entrambe, riordinare le istruzioni
1117se non vengono istruiti altrimenti: vogliamo che i lettori non vedano
1118completamente il nuovo elemento; oppure che lo vedano correttamente e quindi
1119il puntatore ``next`` deve puntare al resto della lista.
1120
1121Fortunatamente, c'è una funzione che fa questa operazione sulle liste
1122:c:type:`struct list_head <list_head>`: list_add_rcu()
1123(``include/linux/list.h``).
1124
1125Rimuovere un elemento dalla lista è anche più facile: sostituiamo il puntatore
1126al vecchio elemento con quello del suo successore, e i lettori vedranno
1127l'elemento o lo salteranno.
1128
1129::
1130
1131            list->next = old->next;
1132
1133La funzione list_del_rcu() (``include/linux/list.h``) fa esattamente
1134questo (la versione normale corrompe il vecchio oggetto, e non vogliamo che
1135accada).
1136
1137Anche i lettori devono stare attenti: alcuni processori potrebbero leggere
1138attraverso il puntatore ``next`` il contenuto dell'elemento successivo
1139troppo presto, ma non accorgersi che il contenuto caricato è sbagliato quando
1140il puntatore ``next`` viene modificato alla loro spalle. Ancora una volta
1141c'è una funzione che viene in vostro aiuto list_for_each_entry_rcu()
1142(``include/linux/list.h``). Ovviamente, gli scrittori possono usare
1143list_for_each_entry() dato che non ci possono essere due scrittori
1144in contemporanea.
1145
1146Il nostro ultimo dilemma è il seguente: quando possiamo realmente distruggere
1147l'elemento rimosso? Ricordate, un lettore potrebbe aver avuto accesso a questo
1148elemento proprio ora: se eliminiamo questo elemento ed il puntatore ``next``
1149cambia, il lettore salterà direttamente nella spazzatura e scoppierà. Dobbiamo
1150aspettare finché tutti i lettori che stanno attraversando la lista abbiano
1151finito. Utilizziamo call_rcu() per registrare una funzione di
1152richiamo che distrugga l'oggetto quando tutti i lettori correnti hanno
1153terminato. In alternative, potrebbe essere usata la funzione
1154synchronize_rcu() che blocca l'esecuzione finché tutti i lettori
1155non terminano di ispezionare la lista.
1156
1157Ma come fa l'RCU a sapere quando i lettori sono finiti? Il meccanismo è
1158il seguente: innanzi tutto i lettori accedono alla lista solo fra la coppia
1159rcu_read_lock()/rcu_read_unlock() che disabilita la
1160prelazione così che i lettori non vengano sospesi mentre stanno leggendo
1161la lista.
1162
1163Poi, l'RCU aspetta finché tutti i processori non abbiano dormito almeno
1164una volta; a questo punto, dato che i lettori non possono dormire, possiamo
1165dedurre che un qualsiasi lettore che abbia consultato la lista durante la
1166rimozione abbia già terminato, quindi la *callback* viene eseguita. Il vero
1167codice RCU è un po' più ottimizzato di così, ma questa è l'idea di fondo.
1168
1169::
1170
1171    --- cache.c.perobjectlock   2003-12-11 17:15:03.000000000 +1100
1172    +++ cache.c.rcupdate    2003-12-11 17:55:14.000000000 +1100
1173    @@ -1,15 +1,18 @@
1174     #include <linux/list.h>
1175     #include <linux/slab.h>
1176     #include <linux/string.h>
1177    +#include <linux/rcupdate.h>
1178     #include <linux/mutex.h>
1179     #include <asm/errno.h>
1180
1181     struct object
1182     {
1183    -        /* These two protected by cache_lock. */
1184    +        /* This is protected by RCU */
1185             struct list_head list;
1186             int popularity;
1187
1188    +        struct rcu_head rcu;
1189    +
1190             atomic_t refcnt;
1191
1192             /* Doesn't change once created. */
1193    @@ -40,7 +43,7 @@
1194     {
1195             struct object *i;
1196
1197    -        list_for_each_entry(i, &cache, list) {
1198    +        list_for_each_entry_rcu(i, &cache, list) {
1199                     if (i->id == id) {
1200                             i->popularity++;
1201                             return i;
1202    @@ -49,19 +52,25 @@
1203             return NULL;
1204     }
1205
1206    +/* Final discard done once we know no readers are looking. */
1207    +static void cache_delete_rcu(void *arg)
1208    +{
1209    +        object_put(arg);
1210    +}
1211    +
1212     /* Must be holding cache_lock */
1213     static void __cache_delete(struct object *obj)
1214     {
1215             BUG_ON(!obj);
1216    -        list_del(&obj->list);
1217    -        object_put(obj);
1218    +        list_del_rcu(&obj->list);
1219             cache_num--;
1220    +        call_rcu(&obj->rcu, cache_delete_rcu);
1221     }
1222
1223     /* Must be holding cache_lock */
1224     static void __cache_add(struct object *obj)
1225     {
1226    -        list_add(&obj->list, &cache);
1227    +        list_add_rcu(&obj->list, &cache);
1228             if (++cache_num > MAX_CACHE_SIZE) {
1229                     struct object *i, *outcast = NULL;
1230                     list_for_each_entry(i, &cache, list) {
1231    @@ -104,12 +114,11 @@
1232     struct object *cache_find(int id)
1233     {
1234             struct object *obj;
1235    -        unsigned long flags;
1236
1237    -        spin_lock_irqsave(&cache_lock, flags);
1238    +        rcu_read_lock();
1239             obj = __cache_find(id);
1240             if (obj)
1241                     object_get(obj);
1242    -        spin_unlock_irqrestore(&cache_lock, flags);
1243    +        rcu_read_unlock();
1244             return obj;
1245     }
1246
1247Da notare che i lettori modificano il campo popularity nella funzione
1248__cache_find(), e ora non trattiene alcun *lock*. Una soluzione
1249potrebbe essere quella di rendere la variabile ``atomic_t``, ma per l'uso
1250che ne abbiamo fatto qui, non ci interessano queste corse critiche perché un
1251risultato approssimativo è comunque accettabile, quindi non l'ho cambiato.
1252
1253Il risultato è che la funzione cache_find() non ha bisogno di alcuna
1254sincronizzazione con le altre funzioni, quindi è veloce su un sistema
1255multi-processore tanto quanto lo sarebbe su un sistema mono-processore.
1256
1257Esiste un'ulteriore ottimizzazione possibile: vi ricordate il codice originale
1258della nostra memoria dove non c'erano contatori di riferimenti e il chiamante
1259semplicemente tratteneva il *lock* prima di accedere ad un oggetto? Questo è
1260ancora possibile: se trattenete un *lock* nessuno potrà cancellare l'oggetto,
1261quindi non avete bisogno di incrementare e decrementare il contatore di
1262riferimenti.
1263
1264Ora, dato che il '*lock* di lettura' di un RCU non fa altro che disabilitare
1265la prelazione, un chiamante che ha sempre la prelazione disabilitata fra le
1266chiamate cache_find() e object_put() non necessita
1267di incrementare e decrementare il contatore di riferimenti. Potremmo
1268esporre la funzione __cache_find() dichiarandola non-static,
1269e quel chiamante potrebbe usare direttamente questa funzione.
1270
1271Il beneficio qui sta nel fatto che il contatore di riferimenti no
1272viene scritto: l'oggetto non viene alterato in alcun modo e quindi diventa
1273molto più veloce su sistemi molti-processore grazie alla loro memoria cache.
1274
1275
1276Dati per processore
1277-------------------
1278
1279Un'altra tecnica comunemente usata per evitare la sincronizzazione è quella
1280di duplicare le informazioni per ogni processore. Per esempio, se volete
1281avere un contatore di qualcosa, potreste utilizzare uno spinlock ed un
1282singolo contatore. Facile e pulito.
1283
1284Se questo dovesse essere troppo lento (solitamente non lo è, ma se avete
1285dimostrato che lo è devvero), potreste usare un contatore per ogni processore
1286e quindi non sarebbe più necessaria la mutua esclusione. Vedere
1287DEFINE_PER_CPU(), get_cpu_var() e put_cpu_var()
1288(``include/linux/percpu.h``).
1289
1290Il tipo di dato ``local_t``, la funzione cpu_local_inc() e tutte
1291le altre funzioni associate, sono di particolare utilità per semplici contatori
1292per-processore; su alcune architetture sono anche più efficienti
1293(``include/asm/local.h``).
1294
1295Da notare che non esiste un modo facile ed affidabile per ottenere il valore
1296di un simile contatore senza introdurre altri *lock*. In alcuni casi questo
1297non è un problema.
1298
1299Dati che sono usati prevalentemente dai gestori d'interruzioni
1300--------------------------------------------------------------
1301
1302Se i dati vengono utilizzati sempre dallo stesso gestore d'interruzioni,
1303allora i *lock* non vi servono per niente: il kernel già vi garantisce che
1304il gestore d'interruzione non verrà eseguito in contemporanea su diversi
1305processori.
1306
1307Manfred Spraul fa notare che potreste comunque comportarvi così anche
1308se i dati vengono occasionalmente utilizzati da un contesto utente o
1309da un'interruzione software. Il gestore d'interruzione non utilizza alcun
1310*lock*, e tutti gli altri accessi verranno fatti così::
1311
1312        spin_lock(&lock);
1313        disable_irq(irq);
1314        ...
1315        enable_irq(irq);
1316        spin_unlock(&lock);
1317
1318La funzione disable_irq() impedisce al gestore d'interruzioni
1319d'essere eseguito (e aspetta che finisca nel caso fosse in esecuzione su
1320un altro processore). Lo spinlock, invece, previene accessi simultanei.
1321Naturalmente, questo è più lento della semplice chiamata
1322spin_lock_irq(), quindi ha senso solo se questo genere di accesso
1323è estremamente raro.
1324
1325
1326Quali funzioni possono essere chiamate in modo sicuro dalle interruzioni?
1327=========================================================================
1328
1329Molte funzioni del kernel dormono (in sostanza, chiamano schedule())
1330direttamente od indirettamente: non potete chiamarle se trattenere uno
1331spinlock o avete la prelazione disabilitata, mai. Questo significa che
1332dovete necessariamente essere nel contesto utente: chiamarle da un
1333contesto d'interruzione è illegale.
1334
1335Alcune funzioni che dormono
1336---------------------------
1337
1338Le più comuni sono elencate qui di seguito, ma solitamente dovete leggere
1339il codice per scoprire se altre chiamate sono sicure. Se chiunque altro
1340le chiami dorme, allora dovreste poter dormire anche voi. In particolar
1341modo, le funzioni di registrazione e deregistrazione solitamente si
1342aspettano d'essere chiamante da un contesto utente e quindi che possono
1343dormire.
1344
1345-  Accessi allo spazio utente:
1346
1347   -  copy_from_user()
1348
1349   -  copy_to_user()
1350
1351   -  get_user()
1352
1353   -  put_user()
1354
1355-  kmalloc(GFP_KERNEL) <kmalloc>`
1356
1357-  mutex_lock_interruptible() and
1358   mutex_lock()
1359
1360   C'è anche mutex_trylock() che però non dorme.
1361   Comunque, non deve essere usata in un contesto d'interruzione dato
1362   che la sua implementazione non è sicura in quel contesto.
1363   Anche mutex_unlock() non dorme mai. Non può comunque essere
1364   usata in un contesto d'interruzione perché un mutex deve essere rilasciato
1365   dallo stesso processo che l'ha acquisito.
1366
1367Alcune funzioni che non dormono
1368-------------------------------
1369
1370Alcune funzioni possono essere chiamate tranquillamente da qualsiasi
1371contesto, o trattenendo un qualsiasi *lock*.
1372
1373-  printk()
1374
1375-  kfree()
1376
1377-  add_timer() e del_timer()
1378
1379Riferimento per l'API dei Mutex
1380===============================
1381
1382.. kernel-doc:: include/linux/mutex.h
1383   :internal:
1384
1385.. kernel-doc:: kernel/locking/mutex.c
1386   :export:
1387
1388Riferimento per l'API dei Futex
1389===============================
1390
1391.. kernel-doc:: kernel/futex/core.c
1392   :internal:
1393
1394.. kernel-doc:: kernel/futex/futex.h
1395   :internal:
1396
1397.. kernel-doc:: kernel/futex/pi.c
1398   :internal:
1399
1400.. kernel-doc:: kernel/futex/requeue.c
1401   :internal:
1402
1403.. kernel-doc:: kernel/futex/waitwake.c
1404   :internal:
1405
1406Approfondimenti
1407===============
1408
1409-  ``Documentation/locking/spinlocks.rst``: la guida di Linus Torvalds agli
1410   spinlock del kernel.
1411
1412-  Unix Systems for Modern Architectures: Symmetric Multiprocessing and
1413   Caching for Kernel Programmers.
1414
1415   L'introduzione alla sincronizzazione a livello di kernel di Curt Schimmel
1416   è davvero ottima (non è scritta per Linux, ma approssimativamente si adatta
1417   a tutte le situazioni). Il libro è costoso, ma vale ogni singolo spicciolo
1418   per capire la sincronizzazione nei sistemi multi-processore.
1419   [ISBN: 0201633388]
1420
1421Ringraziamenti
1422==============
1423
1424Grazie a Telsa Gwynne per aver formattato questa guida in DocBook, averla
1425pulita e aggiunto un po' di stile.
1426
1427Grazie a Martin Pool, Philipp Rumpf, Stephen Rothwell, Paul Mackerras,
1428Ruedi Aschwanden, Alan Cox, Manfred Spraul, Tim Waugh, Pete Zaitcev,
1429James Morris, Robert Love, Paul McKenney, John Ashby per aver revisionato,
1430corretto, maledetto e commentato.
1431
1432Grazie alla congrega per non aver avuto alcuna influenza su questo documento.
1433
1434Glossario
1435=========
1436
1437prelazione
1438  Prima del kernel 2.5, o quando ``CONFIG_PREEMPT`` non è impostato, i processi
1439  in contesto utente non si avvicendano nell'esecuzione (in pratica, il
1440  processo userà il processore fino al proprio termine, a meno che non ci siano
1441  delle interruzioni). Con l'aggiunta di ``CONFIG_PREEMPT`` nella versione
1442  2.5.4 questo è cambiato: quando si è in contesto utente, processi con una
1443  priorità maggiore possono subentrare nell'esecuzione: gli spinlock furono
1444  cambiati per disabilitare la prelazioni, anche su sistemi monoprocessore.
1445
1446bh
1447  Bottom Half: per ragioni storiche, le funzioni che contengono '_bh' nel
1448  loro nome ora si riferiscono a qualsiasi interruzione software; per esempio,
1449  spin_lock_bh() blocca qualsiasi interuzione software sul processore
1450  corrente. I *Bottom Halves* sono deprecati, e probabilmente verranno
1451  sostituiti dai tasklet. In un dato momento potrà esserci solo un
1452  *bottom half* in esecuzione.
1453
1454contesto d'interruzione
1455  Non è il contesto utente: qui si processano le interruzioni hardware e
1456  software. La macro in_interrupt() ritorna vero.
1457
1458contesto utente
1459  Il kernel che esegue qualcosa per conto di un particolare processo (per
1460  esempio una chiamata di sistema) o di un thread del kernel. Potete
1461  identificare il processo con la macro ``current``. Da non confondere
1462  con lo spazio utente. Può essere interrotto sia da interruzioni software
1463  che hardware.
1464
1465interruzione hardware
1466  Richiesta di interruzione hardware. in_hardirq() ritorna vero in un
1467  gestore d'interruzioni hardware.
1468
1469interruzione software / softirq
1470  Gestore di interruzioni software: in_hardirq() ritorna falso;
1471  in_softirq() ritorna vero. I tasklet e le softirq sono entrambi
1472  considerati 'interruzioni software'.
1473
1474  In soldoni, un softirq è uno delle 32 interruzioni software che possono
1475  essere eseguite su più processori in contemporanea. A volte si usa per
1476  riferirsi anche ai tasklet (in pratica tutte le interruzioni software).
1477
1478monoprocessore / UP
1479  (Uni-Processor) un solo processore, ovvero non è SMP. (``CONFIG_SMP=n``).
1480
1481multi-processore / SMP
1482  (Symmetric Multi-Processor) kernel compilati per sistemi multi-processore
1483  (``CONFIG_SMP=y``).
1484
1485spazio utente
1486  Un processo che esegue il proprio codice fuori dal kernel.
1487
1488tasklet
1489  Un'interruzione software registrabile dinamicamente che ha la garanzia
1490  d'essere eseguita solo su un processore alla volta.
1491
1492timer
1493  Un'interruzione software registrabile dinamicamente che viene eseguita
1494  (circa) in un determinato momento. Quando è in esecuzione è come un tasklet
1495  (infatti, sono chiamati da ``TIMER_SOFTIRQ``).
1496