1.. include:: ../disclaimer-ita.rst 2 3.. c:namespace:: it_IT 4 5:Original: :ref:`Documentation/kernel-hacking/locking.rst <kernel_hacking_lock>` 6:Translator: Federico Vaga <federico.vaga@vaga.pv.it> 7 8.. _it_kernel_hacking_lock: 9 10========================================== 11L'inaffidabile guida alla sincronizzazione 12========================================== 13 14:Author: Rusty Russell 15 16Introduzione 17============ 18 19Benvenuto, alla notevole ed inaffidabile guida ai problemi di sincronizzazione 20(locking) nel kernel. Questo documento descrive il sistema di sincronizzazione 21nel kernel Linux 2.6. 22 23Dato il largo utilizzo del multi-threading e della prelazione nel kernel 24Linux, chiunque voglia dilettarsi col kernel deve conoscere i concetti 25fondamentali della concorrenza e della sincronizzazione nei sistemi 26multi-processore. 27 28Il problema con la concorrenza 29============================== 30 31(Saltatelo se sapete già cos'è una corsa critica). 32 33In un normale programma, potete incrementare un contatore nel seguente modo: 34 35:: 36 37 contatore++; 38 39Questo è quello che vi aspettereste che accada sempre: 40 41 42.. table:: Risultati attesi 43 44 +------------------------------------+------------------------------------+ 45 | Istanza 1 | Istanza 2 | 46 +====================================+====================================+ 47 | leggi contatore (5) | | 48 +------------------------------------+------------------------------------+ 49 | aggiungi 1 (6) | | 50 +------------------------------------+------------------------------------+ 51 | scrivi contatore (6) | | 52 +------------------------------------+------------------------------------+ 53 | | leggi contatore (6) | 54 +------------------------------------+------------------------------------+ 55 | | aggiungi 1 (7) | 56 +------------------------------------+------------------------------------+ 57 | | scrivi contatore (7) | 58 +------------------------------------+------------------------------------+ 59 60Questo è quello che potrebbe succedere in realtà: 61 62.. table:: Possibile risultato 63 64 +------------------------------------+------------------------------------+ 65 | Istanza 1 | Istanza 2 | 66 +====================================+====================================+ 67 | leggi contatore (5) | | 68 +------------------------------------+------------------------------------+ 69 | | leggi contatore (5) | 70 +------------------------------------+------------------------------------+ 71 | aggiungi 1 (6) | | 72 +------------------------------------+------------------------------------+ 73 | | aggiungi 1 (6) | 74 +------------------------------------+------------------------------------+ 75 | scrivi contatore (6) | | 76 +------------------------------------+------------------------------------+ 77 | | scrivi contatore (6) | 78 +------------------------------------+------------------------------------+ 79 80 81Corse critiche e sezioni critiche 82--------------------------------- 83 84Questa sovrapposizione, ovvero quando un risultato dipende dal tempo che 85intercorre fra processi diversi, è chiamata corsa critica. La porzione 86di codice che contiene questo problema è chiamata sezione critica. 87In particolar modo da quando Linux ha incominciato a girare su 88macchine multi-processore, le sezioni critiche sono diventate uno dei 89maggiori problemi di progettazione ed implementazione del kernel. 90 91La prelazione può sortire gli stessi effetti, anche se c'è una sola CPU: 92interrompendo un processo nella sua sezione critica otterremo comunque 93la stessa corsa critica. In questo caso, il thread che si avvicenda 94nell'esecuzione potrebbe eseguire anch'esso la sezione critica. 95 96La soluzione è quella di riconoscere quando avvengono questi accessi 97simultanei, ed utilizzare i *lock* per accertarsi che solo un'istanza 98per volta possa entrare nella sezione critica. Il kernel offre delle buone 99funzioni a questo scopo. E poi ci sono quelle meno buone, ma farò finta 100che non esistano. 101 102Sincronizzazione nel kernel Linux 103================================= 104 105Se dovessi darvi un suggerimento sulla sincronizzazione: **mantenetela 106semplice**. 107 108Siate riluttanti nell'introduzione di nuovi *lock*. 109 110I due principali tipi di *lock* nel kernel: spinlock e mutex 111------------------------------------------------------------ 112 113Ci sono due tipi principali di *lock* nel kernel. Il tipo fondamentale è lo 114spinlock (``include/asm/spinlock.h``), un semplice *lock* che può essere 115trattenuto solo da un processo: se non si può trattenere lo spinlock, allora 116rimane in attesa attiva (in inglese *spinning*) finché non ci riesce. 117Gli spinlock sono molto piccoli e rapidi, possono essere utilizzati ovunque. 118 119Il secondo tipo è il mutex (``include/linux/mutex.h``): è come uno spinlock, 120ma potreste bloccarvi trattenendolo. Se non potete trattenere un mutex 121il vostro processo si auto-sospenderà; verrà riattivato quando il mutex 122verrà rilasciato. Questo significa che il processore potrà occuparsi d'altro 123mentre il vostro processo è in attesa. Esistono molti casi in cui non potete 124permettervi di sospendere un processo (vedere 125`Quali funzioni possono essere chiamate in modo sicuro dalle interruzioni?`_) 126e quindi dovrete utilizzare gli spinlock. 127 128Nessuno di questi *lock* è ricorsivo: vedere 129`Stallo: semplice ed avanzato`_ 130 131I *lock* e i kernel per sistemi monoprocessore 132---------------------------------------------- 133 134Per i kernel compilati senza ``CONFIG_SMP`` e senza ``CONFIG_PREEMPT`` 135gli spinlock non esistono. Questa è un'ottima scelta di progettazione: 136quando nessun altro processo può essere eseguito in simultanea, allora 137non c'è la necessità di avere un *lock*. 138 139Se il kernel è compilato senza ``CONFIG_SMP`` ma con ``CONFIG_PREEMPT``, 140allora gli spinlock disabilitano la prelazione; questo è sufficiente a 141prevenire le corse critiche. Nella maggior parte dei casi, possiamo considerare 142la prelazione equivalente ad un sistema multi-processore senza preoccuparci 143di trattarla indipendentemente. 144 145Dovreste verificare sempre la sincronizzazione con le opzioni ``CONFIG_SMP`` e 146``CONFIG_PREEMPT`` abilitate, anche quando non avete un sistema 147multi-processore, questo vi permetterà di identificare alcuni problemi 148di sincronizzazione. 149 150Come vedremo di seguito, i mutex continuano ad esistere perché sono necessari 151per la sincronizzazione fra processi in contesto utente. 152 153Sincronizzazione in contesto utente 154----------------------------------- 155 156Se avete una struttura dati che verrà utilizzata solo dal contesto utente, 157allora, per proteggerla, potete utilizzare un semplice mutex 158(``include/linux/mutex.h``). Questo è il caso più semplice: inizializzate il 159mutex; invocate mutex_lock_interruptible() per trattenerlo e 160mutex_unlock() per rilasciarlo. C'è anche mutex_lock() 161ma questa dovrebbe essere evitata perché non ritorna in caso di segnali. 162 163Per esempio: ``net/netfilter/nf_sockopt.c`` permette la registrazione 164di nuove chiamate per setsockopt() e getsockopt() 165usando la funzione nf_register_sockopt(). La registrazione e 166la rimozione vengono eseguite solamente quando il modulo viene caricato 167o scaricato (e durante l'avvio del sistema, qui non abbiamo concorrenza), 168e la lista delle funzioni registrate viene consultata solamente quando 169setsockopt() o getsockopt() sono sconosciute al sistema. 170In questo caso ``nf_sockopt_mutex`` è perfetto allo scopo, in particolar modo 171visto che setsockopt e getsockopt potrebbero dormire. 172 173Sincronizzazione fra il contesto utente e i softirq 174--------------------------------------------------- 175 176Se un softirq condivide dati col contesto utente, avete due problemi. 177Primo, il contesto utente corrente potrebbe essere interroto da un softirq, 178e secondo, la sezione critica potrebbe essere eseguita da un altro 179processore. Questo è quando spin_lock_bh() 180(``include/linux/spinlock.h``) viene utilizzato. Questo disabilita i softirq 181sul processore e trattiene il *lock*. Invece, spin_unlock_bh() fa 182l'opposto. (Il suffisso '_bh' è un residuo storico che fa riferimento al 183"Bottom Halves", il vecchio nome delle interruzioni software. In un mondo 184perfetto questa funzione si chiamerebbe 'spin_lock_softirq()'). 185 186Da notare che in questo caso potete utilizzare anche spin_lock_irq() 187o spin_lock_irqsave(), queste fermano anche le interruzioni hardware: 188vedere `Contesto di interruzione hardware`_. 189 190Questo funziona alla perfezione anche sui sistemi monoprocessore: gli spinlock 191svaniscono e questa macro diventa semplicemente local_bh_disable() 192(``include/linux/interrupt.h``), la quale impedisce ai softirq d'essere 193eseguiti. 194 195Sincronizzazione fra contesto utente e i tasklet 196------------------------------------------------ 197 198Questo caso è uguale al precedente, un tasklet viene eseguito da un softirq. 199 200Sincronizzazione fra contesto utente e i timer 201---------------------------------------------- 202 203Anche questo caso è uguale al precedente, un timer viene eseguito da un 204softirq. 205Dal punto di vista della sincronizzazione, tasklet e timer sono identici. 206 207Sincronizzazione fra tasklet e timer 208------------------------------------ 209 210Qualche volta un tasklet od un timer potrebbero condividere i dati con 211un altro tasklet o timer 212 213Lo stesso tasklet/timer 214~~~~~~~~~~~~~~~~~~~~~~~ 215 216Dato che un tasklet non viene mai eseguito contemporaneamente su due 217processori, non dovete preoccuparvi che sia rientrante (ovvero eseguito 218più volte in contemporanea), perfino su sistemi multi-processore. 219 220Differenti tasklet/timer 221~~~~~~~~~~~~~~~~~~~~~~~~ 222 223Se un altro tasklet/timer vuole condividere dati col vostro tasklet o timer, 224allora avrete bisogno entrambe di spin_lock() e 225spin_unlock(). Qui spin_lock_bh() è inutile, siete già 226in un tasklet ed avete la garanzia che nessun altro verrà eseguito sullo 227stesso processore. 228 229Sincronizzazione fra softirq 230---------------------------- 231 232Spesso un softirq potrebbe condividere dati con se stesso o un tasklet/timer. 233 234Lo stesso softirq 235~~~~~~~~~~~~~~~~~ 236 237Lo stesso softirq può essere eseguito su un diverso processore: allo scopo 238di migliorare le prestazioni potete utilizzare dati riservati ad ogni 239processore (vedere `Dati per processore`_). Se siete arrivati 240fino a questo punto nell'uso dei softirq, probabilmente tenete alla scalabilità 241delle prestazioni abbastanza da giustificarne la complessità aggiuntiva. 242 243Dovete utilizzare spin_lock() e spin_unlock() per 244proteggere i dati condivisi. 245 246Diversi Softirqs 247~~~~~~~~~~~~~~~~ 248 249Dovete utilizzare spin_lock() e spin_unlock() per 250proteggere i dati condivisi, che siano timer, tasklet, diversi softirq o 251lo stesso o altri softirq: uno qualsiasi di essi potrebbe essere in esecuzione 252su un diverso processore. 253 254.. _`it_hardirq-context`: 255 256Contesto di interruzione hardware 257================================= 258 259Solitamente le interruzioni hardware comunicano con un tasklet o un softirq. 260Spesso questo si traduce nel mettere in coda qualcosa da fare che verrà 261preso in carico da un softirq. 262 263Sincronizzazione fra interruzioni hardware e softirq/tasklet 264------------------------------------------------------------ 265 266Se un gestore di interruzioni hardware condivide dati con un softirq, allora 267avrete due preoccupazioni. Primo, il softirq può essere interrotto da 268un'interruzione hardware, e secondo, la sezione critica potrebbe essere 269eseguita da un'interruzione hardware su un processore diverso. Questo è il caso 270dove spin_lock_irq() viene utilizzato. Disabilita le interruzioni 271sul processore che l'esegue, poi trattiene il lock. spin_unlock_irq() 272fa l'opposto. 273 274Il gestore d'interruzione hardware non ha bisogno di usare spin_lock_irq() 275perché i softirq non possono essere eseguiti quando il gestore d'interruzione 276hardware è in esecuzione: per questo si può usare spin_lock(), che è un po' 277più veloce. L'unica eccezione è quando un altro gestore d'interruzioni 278hardware utilizza lo stesso *lock*: spin_lock_irq() impedirà a questo 279secondo gestore di interrompere quello in esecuzione. 280 281Questo funziona alla perfezione anche sui sistemi monoprocessore: gli spinlock 282svaniscono e questa macro diventa semplicemente local_irq_disable() 283(``include/asm/smp.h``), la quale impedisce a softirq/tasklet/BH d'essere 284eseguiti. 285 286spin_lock_irqsave() (``include/linux/spinlock.h``) è una variante che 287salva lo stato delle interruzioni in una variabile, questa verrà poi passata 288a spin_unlock_irqrestore(). Questo significa che lo stesso codice 289potrà essere utilizzato in un'interruzione hardware (dove le interruzioni sono 290già disabilitate) e in un softirq (dove la disabilitazione delle interruzioni 291è richiesta). 292 293Da notare che i softirq (e quindi tasklet e timer) sono eseguiti al ritorno 294da un'interruzione hardware, quindi spin_lock_irq() interrompe 295anche questi. Tenuto conto di questo si può dire che 296spin_lock_irqsave() è la funzione di sincronizzazione più generica 297e potente. 298 299Sincronizzazione fra due gestori d'interruzioni hardware 300-------------------------------------------------------- 301 302Condividere dati fra due gestori di interruzione hardware è molto raro, ma se 303succede, dovreste usare spin_lock_irqsave(): è una specificità 304dell'architettura il fatto che tutte le interruzioni vengano interrotte 305quando si eseguono di gestori di interruzioni. 306 307Bigino della sincronizzazione 308============================= 309 310Pete Zaitcev ci offre il seguente riassunto: 311 312- Se siete in un contesto utente (una qualsiasi chiamata di sistema) 313 e volete sincronizzarvi con altri processi, usate i mutex. Potete trattenere 314 il mutex e dormire (``copy_from_user(`` o ``kmalloc(x,GFP_KERNEL)``). 315 316- Altrimenti (== i dati possono essere manipolati da un'interruzione) usate 317 spin_lock_irqsave() e spin_unlock_irqrestore(). 318 319- Evitate di trattenere uno spinlock per più di 5 righe di codice incluse 320 le chiamate a funzione (ad eccezione di quell per l'accesso come 321 readb()). 322 323Tabella dei requisiti minimi 324---------------------------- 325 326La tabella seguente illustra i requisiti **minimi** per la sincronizzazione fra 327diversi contesti. In alcuni casi, lo stesso contesto può essere eseguito solo 328da un processore per volta, quindi non ci sono requisiti per la 329sincronizzazione (per esempio, un thread può essere eseguito solo su un 330processore alla volta, ma se deve condividere dati con un altro thread, allora 331la sincronizzazione è necessaria). 332 333Ricordatevi il suggerimento qui sopra: potete sempre usare 334spin_lock_irqsave(), che è un sovrainsieme di tutte le altre funzioni 335per spinlock. 336 337============== ============= ============= ========= ========= ========= ========= ======= ======= ============== ============== 338. IRQ Handler A IRQ Handler B Softirq A Softirq B Tasklet A Tasklet B Timer A Timer B User Context A User Context B 339============== ============= ============= ========= ========= ========= ========= ======= ======= ============== ============== 340IRQ Handler A None 341IRQ Handler B SLIS None 342Softirq A SLI SLI SL 343Softirq B SLI SLI SL SL 344Tasklet A SLI SLI SL SL None 345Tasklet B SLI SLI SL SL SL None 346Timer A SLI SLI SL SL SL SL None 347Timer B SLI SLI SL SL SL SL SL None 348User Context A SLI SLI SLBH SLBH SLBH SLBH SLBH SLBH None 349User Context B SLI SLI SLBH SLBH SLBH SLBH SLBH SLBH MLI None 350============== ============= ============= ========= ========= ========= ========= ======= ======= ============== ============== 351 352Table: Tabella dei requisiti per la sincronizzazione 353 354+--------+----------------------------+ 355| SLIS | spin_lock_irqsave | 356+--------+----------------------------+ 357| SLI | spin_lock_irq | 358+--------+----------------------------+ 359| SL | spin_lock | 360+--------+----------------------------+ 361| SLBH | spin_lock_bh | 362+--------+----------------------------+ 363| MLI | mutex_lock_interruptible | 364+--------+----------------------------+ 365 366Table: Legenda per la tabella dei requisiti per la sincronizzazione 367 368Le funzioni *trylock* 369===================== 370 371Ci sono funzioni che provano a trattenere un *lock* solo una volta e 372ritornano immediatamente comunicato il successo od il fallimento 373dell'operazione. Posso essere usate quando non serve accedere ai dati 374protetti dal *lock* quando qualche altro thread lo sta già facendo 375trattenendo il *lock*. Potrete acquisire il *lock* più tardi se vi 376serve accedere ai dati protetti da questo *lock*. 377 378La funzione spin_trylock() non ritenta di acquisire il *lock*, 379se ci riesce al primo colpo ritorna un valore diverso da zero, altrimenti 380se fallisce ritorna 0. Questa funzione può essere utilizzata in un qualunque 381contesto, ma come spin_lock(): dovete disabilitare i contesti che 382potrebbero interrompervi e quindi trattenere lo spinlock. 383 384La funzione mutex_trylock() invece di sospendere il vostro processo 385ritorna un valore diverso da zero se è possibile trattenere il lock al primo 386colpo, altrimenti se fallisce ritorna 0. Nonostante non dorma, questa funzione 387non può essere usata in modo sicuro in contesti di interruzione hardware o 388software. 389 390Esempi più comuni 391================= 392 393Guardiamo un semplice esempio: una memoria che associa nomi a numeri. 394La memoria tiene traccia di quanto spesso viene utilizzato ogni oggetto; 395quando è piena, l'oggetto meno usato viene eliminato. 396 397Tutto in contesto utente 398------------------------ 399 400Nel primo esempio, supponiamo che tutte le operazioni avvengano in contesto 401utente (in soldoni, da una chiamata di sistema), quindi possiamo dormire. 402Questo significa che possiamo usare i mutex per proteggere la nostra memoria 403e tutti gli oggetti che contiene. Ecco il codice:: 404 405 #include <linux/list.h> 406 #include <linux/slab.h> 407 #include <linux/string.h> 408 #include <linux/mutex.h> 409 #include <asm/errno.h> 410 411 struct object 412 { 413 struct list_head list; 414 int id; 415 char name[32]; 416 int popularity; 417 }; 418 419 /* Protects the cache, cache_num, and the objects within it */ 420 static DEFINE_MUTEX(cache_lock); 421 static LIST_HEAD(cache); 422 static unsigned int cache_num = 0; 423 #define MAX_CACHE_SIZE 10 424 425 /* Must be holding cache_lock */ 426 static struct object *__cache_find(int id) 427 { 428 struct object *i; 429 430 list_for_each_entry(i, &cache, list) 431 if (i->id == id) { 432 i->popularity++; 433 return i; 434 } 435 return NULL; 436 } 437 438 /* Must be holding cache_lock */ 439 static void __cache_delete(struct object *obj) 440 { 441 BUG_ON(!obj); 442 list_del(&obj->list); 443 kfree(obj); 444 cache_num--; 445 } 446 447 /* Must be holding cache_lock */ 448 static void __cache_add(struct object *obj) 449 { 450 list_add(&obj->list, &cache); 451 if (++cache_num > MAX_CACHE_SIZE) { 452 struct object *i, *outcast = NULL; 453 list_for_each_entry(i, &cache, list) { 454 if (!outcast || i->popularity < outcast->popularity) 455 outcast = i; 456 } 457 __cache_delete(outcast); 458 } 459 } 460 461 int cache_add(int id, const char *name) 462 { 463 struct object *obj; 464 465 if ((obj = kmalloc(sizeof(*obj), GFP_KERNEL)) == NULL) 466 return -ENOMEM; 467 468 strscpy(obj->name, name, sizeof(obj->name)); 469 obj->id = id; 470 obj->popularity = 0; 471 472 mutex_lock(&cache_lock); 473 __cache_add(obj); 474 mutex_unlock(&cache_lock); 475 return 0; 476 } 477 478 void cache_delete(int id) 479 { 480 mutex_lock(&cache_lock); 481 __cache_delete(__cache_find(id)); 482 mutex_unlock(&cache_lock); 483 } 484 485 int cache_find(int id, char *name) 486 { 487 struct object *obj; 488 int ret = -ENOENT; 489 490 mutex_lock(&cache_lock); 491 obj = __cache_find(id); 492 if (obj) { 493 ret = 0; 494 strcpy(name, obj->name); 495 } 496 mutex_unlock(&cache_lock); 497 return ret; 498 } 499 500Da notare che ci assicuriamo sempre di trattenere cache_lock quando 501aggiungiamo, rimuoviamo od ispezioniamo la memoria: sia la struttura 502della memoria che il suo contenuto sono protetti dal *lock*. Questo 503caso è semplice dato che copiamo i dati dall'utente e non permettiamo 504mai loro di accedere direttamente agli oggetti. 505 506C'è una piccola ottimizzazione qui: nella funzione cache_add() 507impostiamo i campi dell'oggetto prima di acquisire il *lock*. Questo è 508sicuro perché nessun altro potrà accedervi finché non lo inseriremo 509nella memoria. 510 511Accesso dal contesto utente 512--------------------------- 513 514Ora consideriamo il caso in cui cache_find() può essere invocata 515dal contesto d'interruzione: sia hardware che software. Un esempio potrebbe 516essere un timer che elimina oggetti dalla memoria. 517 518Qui di seguito troverete la modifica nel formato *patch*: le righe ``-`` 519sono quelle rimosse, mentre quelle ``+`` sono quelle aggiunte. 520 521:: 522 523 --- cache.c.usercontext 2003-12-09 13:58:54.000000000 +1100 524 +++ cache.c.interrupt 2003-12-09 14:07:49.000000000 +1100 525 @@ -12,7 +12,7 @@ 526 int popularity; 527 }; 528 529 -static DEFINE_MUTEX(cache_lock); 530 +static DEFINE_SPINLOCK(cache_lock); 531 static LIST_HEAD(cache); 532 static unsigned int cache_num = 0; 533 #define MAX_CACHE_SIZE 10 534 @@ -55,6 +55,7 @@ 535 int cache_add(int id, const char *name) 536 { 537 struct object *obj; 538 + unsigned long flags; 539 540 if ((obj = kmalloc(sizeof(*obj), GFP_KERNEL)) == NULL) 541 return -ENOMEM; 542 @@ -63,30 +64,33 @@ 543 obj->id = id; 544 obj->popularity = 0; 545 546 - mutex_lock(&cache_lock); 547 + spin_lock_irqsave(&cache_lock, flags); 548 __cache_add(obj); 549 - mutex_unlock(&cache_lock); 550 + spin_unlock_irqrestore(&cache_lock, flags); 551 return 0; 552 } 553 554 void cache_delete(int id) 555 { 556 - mutex_lock(&cache_lock); 557 + unsigned long flags; 558 + 559 + spin_lock_irqsave(&cache_lock, flags); 560 __cache_delete(__cache_find(id)); 561 - mutex_unlock(&cache_lock); 562 + spin_unlock_irqrestore(&cache_lock, flags); 563 } 564 565 int cache_find(int id, char *name) 566 { 567 struct object *obj; 568 int ret = -ENOENT; 569 + unsigned long flags; 570 571 - mutex_lock(&cache_lock); 572 + spin_lock_irqsave(&cache_lock, flags); 573 obj = __cache_find(id); 574 if (obj) { 575 ret = 0; 576 strcpy(name, obj->name); 577 } 578 - mutex_unlock(&cache_lock); 579 + spin_unlock_irqrestore(&cache_lock, flags); 580 return ret; 581 } 582 583Da notare che spin_lock_irqsave() disabiliterà le interruzioni 584se erano attive, altrimenti non farà niente (quando siamo già in un contesto 585d'interruzione); dunque queste funzioni possono essere chiamante in 586sicurezza da qualsiasi contesto. 587 588Sfortunatamente, cache_add() invoca kmalloc() con 589l'opzione ``GFP_KERNEL`` che è permessa solo in contesto utente. Ho supposto 590che cache_add() venga chiamata dal contesto utente, altrimenti 591questa opzione deve diventare un parametro di cache_add(). 592 593Esporre gli oggetti al di fuori del file 594---------------------------------------- 595 596Se i vostri oggetti contengono più informazioni, potrebbe non essere 597sufficiente copiare i dati avanti e indietro: per esempio, altre parti del 598codice potrebbero avere un puntatore a questi oggetti piuttosto che cercarli 599ogni volta. Questo introduce due problemi. 600 601Il primo problema è che utilizziamo ``cache_lock`` per proteggere gli oggetti: 602dobbiamo renderlo dinamico così che il resto del codice possa usarlo. Questo 603rende la sincronizzazione più complicata dato che non avviene più in un unico 604posto. 605 606Il secondo problema è il problema del ciclo di vita: se un'altra struttura 607mantiene un puntatore ad un oggetto, presumibilmente si aspetta che questo 608puntatore rimanga valido. Sfortunatamente, questo è garantito solo mentre 609si trattiene il *lock*, altrimenti qualcuno potrebbe chiamare 610cache_delete() o peggio, aggiungere un oggetto che riutilizza lo 611stesso indirizzo. 612 613Dato che c'è un solo *lock*, non potete trattenerlo a vita: altrimenti 614nessun altro potrà eseguire il proprio lavoro. 615 616La soluzione a questo problema è l'uso di un contatore di riferimenti: 617chiunque punti ad un oggetto deve incrementare il contatore, e decrementarlo 618quando il puntatore non viene più usato. Quando il contatore raggiunge lo zero 619significa che non è più usato e l'oggetto può essere rimosso. 620 621Ecco il codice:: 622 623 --- cache.c.interrupt 2003-12-09 14:25:43.000000000 +1100 624 +++ cache.c.refcnt 2003-12-09 14:33:05.000000000 +1100 625 @@ -7,6 +7,7 @@ 626 struct object 627 { 628 struct list_head list; 629 + unsigned int refcnt; 630 int id; 631 char name[32]; 632 int popularity; 633 @@ -17,6 +18,35 @@ 634 static unsigned int cache_num = 0; 635 #define MAX_CACHE_SIZE 10 636 637 +static void __object_put(struct object *obj) 638 +{ 639 + if (--obj->refcnt == 0) 640 + kfree(obj); 641 +} 642 + 643 +static void __object_get(struct object *obj) 644 +{ 645 + obj->refcnt++; 646 +} 647 + 648 +void object_put(struct object *obj) 649 +{ 650 + unsigned long flags; 651 + 652 + spin_lock_irqsave(&cache_lock, flags); 653 + __object_put(obj); 654 + spin_unlock_irqrestore(&cache_lock, flags); 655 +} 656 + 657 +void object_get(struct object *obj) 658 +{ 659 + unsigned long flags; 660 + 661 + spin_lock_irqsave(&cache_lock, flags); 662 + __object_get(obj); 663 + spin_unlock_irqrestore(&cache_lock, flags); 664 +} 665 + 666 /* Must be holding cache_lock */ 667 static struct object *__cache_find(int id) 668 { 669 @@ -35,6 +65,7 @@ 670 { 671 BUG_ON(!obj); 672 list_del(&obj->list); 673 + __object_put(obj); 674 cache_num--; 675 } 676 677 @@ -63,6 +94,7 @@ 678 strscpy(obj->name, name, sizeof(obj->name)); 679 obj->id = id; 680 obj->popularity = 0; 681 + obj->refcnt = 1; /* The cache holds a reference */ 682 683 spin_lock_irqsave(&cache_lock, flags); 684 __cache_add(obj); 685 @@ -79,18 +111,15 @@ 686 spin_unlock_irqrestore(&cache_lock, flags); 687 } 688 689 -int cache_find(int id, char *name) 690 +struct object *cache_find(int id) 691 { 692 struct object *obj; 693 - int ret = -ENOENT; 694 unsigned long flags; 695 696 spin_lock_irqsave(&cache_lock, flags); 697 obj = __cache_find(id); 698 - if (obj) { 699 - ret = 0; 700 - strcpy(name, obj->name); 701 - } 702 + if (obj) 703 + __object_get(obj); 704 spin_unlock_irqrestore(&cache_lock, flags); 705 - return ret; 706 + return obj; 707 } 708 709Abbiamo incapsulato il contatore di riferimenti nelle tipiche funzioni 710di 'get' e 'put'. Ora possiamo ritornare l'oggetto da cache_find() 711col vantaggio che l'utente può dormire trattenendo l'oggetto (per esempio, 712copy_to_user() per copiare il nome verso lo spazio utente). 713 714Un altro punto da notare è che ho detto che il contatore dovrebbe incrementarsi 715per ogni puntatore ad un oggetto: quindi il contatore di riferimenti è 1 716quando l'oggetto viene inserito nella memoria. In altre versione il framework 717non trattiene un riferimento per se, ma diventa più complicato. 718 719Usare operazioni atomiche per il contatore di riferimenti 720~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 721 722In sostanza, :c:type:`atomic_t` viene usato come contatore di riferimenti. 723Ci sono un certo numbero di operazioni atomiche definite 724in ``include/asm/atomic.h``: queste sono garantite come atomiche su qualsiasi 725processore del sistema, quindi non sono necessari i *lock*. In questo caso è 726più semplice rispetto all'uso degli spinlock, benché l'uso degli spinlock 727sia più elegante per casi non banali. Le funzioni atomic_inc() e 728atomic_dec_and_test() vengono usate al posto dei tipici operatori di 729incremento e decremento, e i *lock* non sono più necessari per proteggere il 730contatore stesso. 731 732:: 733 734 --- cache.c.refcnt 2003-12-09 15:00:35.000000000 +1100 735 +++ cache.c.refcnt-atomic 2003-12-11 15:49:42.000000000 +1100 736 @@ -7,7 +7,7 @@ 737 struct object 738 { 739 struct list_head list; 740 - unsigned int refcnt; 741 + atomic_t refcnt; 742 int id; 743 char name[32]; 744 int popularity; 745 @@ -18,33 +18,15 @@ 746 static unsigned int cache_num = 0; 747 #define MAX_CACHE_SIZE 10 748 749 -static void __object_put(struct object *obj) 750 -{ 751 - if (--obj->refcnt == 0) 752 - kfree(obj); 753 -} 754 - 755 -static void __object_get(struct object *obj) 756 -{ 757 - obj->refcnt++; 758 -} 759 - 760 void object_put(struct object *obj) 761 { 762 - unsigned long flags; 763 - 764 - spin_lock_irqsave(&cache_lock, flags); 765 - __object_put(obj); 766 - spin_unlock_irqrestore(&cache_lock, flags); 767 + if (atomic_dec_and_test(&obj->refcnt)) 768 + kfree(obj); 769 } 770 771 void object_get(struct object *obj) 772 { 773 - unsigned long flags; 774 - 775 - spin_lock_irqsave(&cache_lock, flags); 776 - __object_get(obj); 777 - spin_unlock_irqrestore(&cache_lock, flags); 778 + atomic_inc(&obj->refcnt); 779 } 780 781 /* Must be holding cache_lock */ 782 @@ -65,7 +47,7 @@ 783 { 784 BUG_ON(!obj); 785 list_del(&obj->list); 786 - __object_put(obj); 787 + object_put(obj); 788 cache_num--; 789 } 790 791 @@ -94,7 +76,7 @@ 792 strscpy(obj->name, name, sizeof(obj->name)); 793 obj->id = id; 794 obj->popularity = 0; 795 - obj->refcnt = 1; /* The cache holds a reference */ 796 + atomic_set(&obj->refcnt, 1); /* The cache holds a reference */ 797 798 spin_lock_irqsave(&cache_lock, flags); 799 __cache_add(obj); 800 @@ -119,7 +101,7 @@ 801 spin_lock_irqsave(&cache_lock, flags); 802 obj = __cache_find(id); 803 if (obj) 804 - __object_get(obj); 805 + object_get(obj); 806 spin_unlock_irqrestore(&cache_lock, flags); 807 return obj; 808 } 809 810Proteggere l'oggetto stesso 811--------------------------- 812 813In questo esempio, assumiamo che gli oggetti (ad eccezione del contatore 814di riferimenti) non cambino mai dopo la loro creazione. Se vogliamo permettere 815al nome di cambiare abbiamo tre possibilità: 816 817- Si può togliere static da ``cache_lock`` e dire agli utenti che devono 818 trattenere il *lock* prima di modificare il nome di un oggetto. 819 820- Si può fornire una funzione cache_obj_rename() che prende il 821 *lock* e cambia il nome per conto del chiamante; si dirà poi agli utenti 822 di usare questa funzione. 823 824- Si può decidere che ``cache_lock`` protegge solo la memoria stessa, ed 825 un altro *lock* è necessario per la protezione del nome. 826 827Teoricamente, possiamo avere un *lock* per ogni campo e per ogni oggetto. 828In pratica, le varianti più comuni sono: 829 830- un *lock* che protegge l'infrastruttura (la lista ``cache`` di questo 831 esempio) e gli oggetti. Questo è quello che abbiamo fatto finora. 832 833- un *lock* che protegge l'infrastruttura (inclusi i puntatori alla lista 834 negli oggetti), e un *lock* nell'oggetto per proteggere il resto 835 dell'oggetto stesso. 836 837- *lock* multipli per proteggere l'infrastruttura (per esempio un *lock* 838 per ogni lista), possibilmente con un *lock* per oggetto. 839 840Qui di seguito un'implementazione con "un lock per oggetto": 841 842:: 843 844 --- cache.c.refcnt-atomic 2003-12-11 15:50:54.000000000 +1100 845 +++ cache.c.perobjectlock 2003-12-11 17:15:03.000000000 +1100 846 @@ -6,11 +6,17 @@ 847 848 struct object 849 { 850 + /* These two protected by cache_lock. */ 851 struct list_head list; 852 + int popularity; 853 + 854 atomic_t refcnt; 855 + 856 + /* Doesn't change once created. */ 857 int id; 858 + 859 + spinlock_t lock; /* Protects the name */ 860 char name[32]; 861 - int popularity; 862 }; 863 864 static DEFINE_SPINLOCK(cache_lock); 865 @@ -77,6 +84,7 @@ 866 obj->id = id; 867 obj->popularity = 0; 868 atomic_set(&obj->refcnt, 1); /* The cache holds a reference */ 869 + spin_lock_init(&obj->lock); 870 871 spin_lock_irqsave(&cache_lock, flags); 872 __cache_add(obj); 873 874Da notare che ho deciso che il contatore di popolarità dovesse essere 875protetto da ``cache_lock`` piuttosto che dal *lock* dell'oggetto; questo 876perché è logicamente parte dell'infrastruttura (come 877:c:type:`struct list_head <list_head>` nell'oggetto). In questo modo, 878in __cache_add(), non ho bisogno di trattenere il *lock* di ogni 879oggetto mentre si cerca il meno popolare. 880 881Ho anche deciso che il campo id è immutabile, quindi non ho bisogno di 882trattenere il lock dell'oggetto quando si usa __cache_find() 883per leggere questo campo; il *lock* dell'oggetto è usato solo dal chiamante 884che vuole leggere o scrivere il campo name. 885 886Inoltre, da notare che ho aggiunto un commento che descrive i dati che sono 887protetti dal *lock*. Questo è estremamente importante in quanto descrive il 888comportamento del codice, che altrimenti sarebbe di difficile comprensione 889leggendo solamente il codice. E come dice Alan Cox: “Lock data, not code”. 890 891Problemi comuni 892=============== 893 894Stallo: semplice ed avanzato 895---------------------------- 896 897Esiste un tipo di baco dove un pezzo di codice tenta di trattenere uno 898spinlock due volte: questo rimarrà in attesa attiva per sempre aspettando che 899il *lock* venga rilasciato (in Linux spinlocks, rwlocks e mutex non sono 900ricorsivi). 901Questo è facile da diagnosticare: non è uno di quei problemi che ti tengono 902sveglio 5 notti a parlare da solo. 903 904Un caso un pochino più complesso; immaginate d'avere una spazio condiviso 905fra un softirq ed il contesto utente. Se usate spin_lock() per 906proteggerlo, il contesto utente potrebbe essere interrotto da un softirq 907mentre trattiene il lock, da qui il softirq rimarrà in attesa attiva provando 908ad acquisire il *lock* già trattenuto nel contesto utente. 909 910Questi casi sono chiamati stalli (*deadlock*), e come mostrato qui sopra, 911può succedere anche con un solo processore (Ma non sui sistemi 912monoprocessore perché gli spinlock spariscano quando il kernel è compilato 913con ``CONFIG_SMP``\ =n. Nonostante ciò, nel secondo caso avrete comunque 914una corruzione dei dati). 915 916Questi casi sono facili da diagnosticare; sui sistemi multi-processore 917il supervisione (*watchdog*) o l'opzione di compilazione ``DEBUG_SPINLOCK`` 918(``include/linux/spinlock.h``) permettono di scovare immediatamente quando 919succedono. 920 921Esiste un caso più complesso che è conosciuto come l'abbraccio della morte; 922questo coinvolge due o più *lock*. Diciamo che avete un vettore di hash in cui 923ogni elemento è uno spinlock a cui è associata una lista di elementi con lo 924stesso hash. In un gestore di interruzioni software, dovete modificare un 925oggetto e spostarlo su un altro hash; quindi dovrete trattenete lo spinlock 926del vecchio hash e di quello nuovo, quindi rimuovere l'oggetto dal vecchio ed 927inserirlo nel nuovo. 928 929Qui abbiamo due problemi. Primo, se il vostro codice prova a spostare un 930oggetto all'interno della stessa lista, otterrete uno stallo visto che 931tenterà di trattenere lo stesso *lock* due volte. Secondo, se la stessa 932interruzione software su un altro processore sta tentando di spostare 933un altro oggetto nella direzione opposta, potrebbe accadere quanto segue: 934 935+---------------------------------+---------------------------------+ 936| CPU 1 | CPU 2 | 937+=================================+=================================+ 938| Trattiene *lock* A -> OK | Trattiene *lock* B -> OK | 939+---------------------------------+---------------------------------+ 940| Trattiene *lock* B -> attesa | Trattiene *lock* A -> attesa | 941+---------------------------------+---------------------------------+ 942 943Table: Conseguenze 944 945Entrambe i processori rimarranno in attesa attiva sul *lock* per sempre, 946aspettando che l'altro lo rilasci. Sembra e puzza come un blocco totale. 947 948Prevenire gli stalli 949-------------------- 950 951I libri di testo vi diranno che se trattenete i *lock* sempre nello stesso 952ordine non avrete mai un simile stallo. La pratica vi dirà che questo 953approccio non funziona all'ingrandirsi del sistema: quando creo un nuovo 954*lock* non ne capisco abbastanza del kernel per dire in quale dei 5000 *lock* 955si incastrerà. 956 957I *lock* migliori sono quelli incapsulati: non vengono esposti nei file di 958intestazione, e non vengono mai trattenuti fuori dallo stesso file. Potete 959rileggere questo codice e vedere che non ci sarà mai uno stallo perché 960non tenterà mai di trattenere un altro *lock* quando lo ha già. 961Le persone che usano il vostro codice non devono nemmeno sapere che voi 962state usando dei *lock*. 963 964Un classico problema deriva dall'uso di *callback* e di *hook*: se li 965chiamate mentre trattenete un *lock*, rischiate uno stallo o un abbraccio 966della morte (chi lo sa cosa farà una *callback*?). 967 968Ossessiva prevenzione degli stalli 969~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 970 971Gli stalli sono un problema, ma non così terribile come la corruzione dei dati. 972Un pezzo di codice trattiene un *lock* di lettura, cerca in una lista, 973fallisce nel trovare quello che vuole, quindi rilascia il *lock* di lettura, 974trattiene un *lock* di scrittura ed inserisce un oggetto; questo genere di 975codice presenta una corsa critica. 976 977corsa fra temporizzatori: un passatempo del kernel 978-------------------------------------------------- 979 980I temporizzatori potrebbero avere dei problemi con le corse critiche. 981Considerate una collezione di oggetti (liste, hash, eccetera) dove ogni oggetto 982ha un temporizzatore che sta per distruggerlo. 983 984Se volete eliminare l'intera collezione (diciamo quando rimuovete un modulo), 985potreste fare come segue:: 986 987 /* THIS CODE BAD BAD BAD BAD: IF IT WAS ANY WORSE IT WOULD USE 988 HUNGARIAN NOTATION */ 989 spin_lock_bh(&list_lock); 990 991 while (list) { 992 struct foo *next = list->next; 993 timer_delete(&list->timer); 994 kfree(list); 995 list = next; 996 } 997 998 spin_unlock_bh(&list_lock); 999 1000Primo o poi, questo esploderà su un sistema multiprocessore perché un 1001temporizzatore potrebbe essere già partiro prima di spin_lock_bh(), 1002e prenderà il *lock* solo dopo spin_unlock_bh(), e cercherà 1003di eliminare il suo oggetto (che però è già stato eliminato). 1004 1005Questo può essere evitato controllando il valore di ritorno di 1006timer_delete(): se ritorna 1, il temporizzatore è stato già 1007rimosso. Se 0, significa (in questo caso) che il temporizzatore è in 1008esecuzione, quindi possiamo fare come segue:: 1009 1010 retry: 1011 spin_lock_bh(&list_lock); 1012 1013 while (list) { 1014 struct foo *next = list->next; 1015 if (!timer_delete(&list->timer)) { 1016 /* Give timer a chance to delete this */ 1017 spin_unlock_bh(&list_lock); 1018 goto retry; 1019 } 1020 kfree(list); 1021 list = next; 1022 } 1023 1024 spin_unlock_bh(&list_lock); 1025 1026Un altro problema è l'eliminazione dei temporizzatori che si riavviano 1027da soli (chiamando add_timer() alla fine della loro esecuzione). 1028Dato che questo è un problema abbastanza comune con una propensione 1029alle corse critiche, dovreste usare timer_delete_sync() 1030(``include/linux/timer.h``) per gestire questo caso. 1031 1032Velocità della sincronizzazione 1033=============================== 1034 1035Ci sono tre cose importanti da tenere in considerazione quando si valuta 1036la velocità d'esecuzione di un pezzo di codice che necessita di 1037sincronizzazione. La prima è la concorrenza: quante cose rimangono in attesa 1038mentre qualcuno trattiene un *lock*. La seconda è il tempo necessario per 1039acquisire (senza contese) e rilasciare un *lock*. La terza è di usare meno 1040*lock* o di più furbi. Immagino che i *lock* vengano usati regolarmente, 1041altrimenti, non sareste interessati all'efficienza. 1042 1043La concorrenza dipende da quanto a lungo un *lock* è trattenuto: dovreste 1044trattenere un *lock* solo il tempo minimo necessario ma non un istante in più. 1045Nella memoria dell'esempio precedente, creiamo gli oggetti senza trattenere 1046il *lock*, poi acquisiamo il *lock* quando siamo pronti per inserirlo nella 1047lista. 1048 1049Il tempo di acquisizione di un *lock* dipende da quanto danno fa 1050l'operazione sulla *pipeline* (ovvero stalli della *pipeline*) e quant'è 1051probabile che il processore corrente sia stato anche l'ultimo ad acquisire 1052il *lock* (in pratica, il *lock* è nella memoria cache del processore 1053corrente?): su sistemi multi-processore questa probabilità precipita 1054rapidamente. Consideriamo un processore Intel Pentium III a 700Mhz: questo 1055esegue un'istruzione in 0.7ns, un incremento atomico richiede 58ns, acquisire 1056un *lock* che è nella memoria cache del processore richiede 160ns, e un 1057trasferimento dalla memoria cache di un altro processore richiede altri 1058170/360ns (Leggetevi l'articolo di Paul McKenney's `Linux Journal RCU 1059article <http://www.linuxjournal.com/article.php?sid=6993>`__). 1060 1061Questi due obiettivi sono in conflitto: trattenere un *lock* per il minor 1062tempo possibile potrebbe richiedere la divisione in più *lock* per diverse 1063parti (come nel nostro ultimo esempio con un *lock* per ogni oggetto), 1064ma questo aumenta il numero di acquisizioni di *lock*, ed il risultato 1065spesso è che tutto è più lento che con un singolo *lock*. Questo è un altro 1066argomento in favore della semplicità quando si parla di sincronizzazione. 1067 1068Il terzo punto è discusso di seguito: ci sono alcune tecniche per ridurre 1069il numero di sincronizzazioni che devono essere fatte. 1070 1071Read/Write Lock Variants 1072------------------------ 1073 1074Sia gli spinlock che i mutex hanno una variante per la lettura/scrittura 1075(read/write): ``rwlock_t`` e :c:type:`struct rw_semaphore <rw_semaphore>`. 1076Queste dividono gli utenti in due categorie: i lettori e gli scrittori. 1077Se state solo leggendo i dati, potete acquisire il *lock* di lettura, ma 1078per scrivere avrete bisogno del *lock* di scrittura. Molti possono trattenere 1079il *lock* di lettura, ma solo uno scrittore alla volta può trattenere 1080quello di scrittura. 1081 1082Se il vostro codice si divide chiaramente in codice per lettori e codice 1083per scrittori (come nel nostro esempio), e il *lock* dei lettori viene 1084trattenuto per molto tempo, allora l'uso di questo tipo di *lock* può aiutare. 1085Questi sono leggermente più lenti rispetto alla loro versione normale, quindi 1086nella pratica l'uso di ``rwlock_t`` non ne vale la pena. 1087 1088Evitare i *lock*: Read Copy Update 1089-------------------------------------------- 1090 1091Esiste un metodo di sincronizzazione per letture e scritture detto 1092Read Copy Update. Con l'uso della tecnica RCU, i lettori possono scordarsi 1093completamente di trattenere i *lock*; dato che nel nostro esempio ci 1094aspettiamo d'avere più lettore che scrittori (altrimenti questa memoria 1095sarebbe uno spreco) possiamo dire che questo meccanismo permette 1096un'ottimizzazione. 1097 1098Come facciamo a sbarazzarci dei *lock* di lettura? Sbarazzarsi dei *lock* di 1099lettura significa che uno scrittore potrebbe cambiare la lista sotto al naso 1100dei lettori. Questo è abbastanza semplice: possiamo leggere una lista 1101concatenata se lo scrittore aggiunge elementi alla fine e con certe 1102precauzioni. Per esempio, aggiungendo ``new`` ad una lista concatenata 1103chiamata ``list``:: 1104 1105 new->next = list->next; 1106 wmb(); 1107 list->next = new; 1108 1109La funzione wmb() è una barriera di sincronizzazione delle 1110scritture. Questa garantisce che la prima operazione (impostare l'elemento 1111``next`` del nuovo elemento) venga completata e vista da tutti i processori 1112prima che venga eseguita la seconda operazione (che sarebbe quella di mettere 1113il nuovo elemento nella lista). Questo è importante perché i moderni 1114compilatori ed i moderni processori possono, entrambe, riordinare le istruzioni 1115se non vengono istruiti altrimenti: vogliamo che i lettori non vedano 1116completamente il nuovo elemento; oppure che lo vedano correttamente e quindi 1117il puntatore ``next`` deve puntare al resto della lista. 1118 1119Fortunatamente, c'è una funzione che fa questa operazione sulle liste 1120:c:type:`struct list_head <list_head>`: list_add_rcu() 1121(``include/linux/list.h``). 1122 1123Rimuovere un elemento dalla lista è anche più facile: sostituiamo il puntatore 1124al vecchio elemento con quello del suo successore, e i lettori vedranno 1125l'elemento o lo salteranno. 1126 1127:: 1128 1129 list->next = old->next; 1130 1131La funzione list_del_rcu() (``include/linux/list.h``) fa esattamente 1132questo (la versione normale corrompe il vecchio oggetto, e non vogliamo che 1133accada). 1134 1135Anche i lettori devono stare attenti: alcuni processori potrebbero leggere 1136attraverso il puntatore ``next`` il contenuto dell'elemento successivo 1137troppo presto, ma non accorgersi che il contenuto caricato è sbagliato quando 1138il puntatore ``next`` viene modificato alla loro spalle. Ancora una volta 1139c'è una funzione che viene in vostro aiuto list_for_each_entry_rcu() 1140(``include/linux/list.h``). Ovviamente, gli scrittori possono usare 1141list_for_each_entry() dato che non ci possono essere due scrittori 1142in contemporanea. 1143 1144Il nostro ultimo dilemma è il seguente: quando possiamo realmente distruggere 1145l'elemento rimosso? Ricordate, un lettore potrebbe aver avuto accesso a questo 1146elemento proprio ora: se eliminiamo questo elemento ed il puntatore ``next`` 1147cambia, il lettore salterà direttamente nella spazzatura e scoppierà. Dobbiamo 1148aspettare finché tutti i lettori che stanno attraversando la lista abbiano 1149finito. Utilizziamo call_rcu() per registrare una funzione di 1150richiamo che distrugga l'oggetto quando tutti i lettori correnti hanno 1151terminato. In alternative, potrebbe essere usata la funzione 1152synchronize_rcu() che blocca l'esecuzione finché tutti i lettori 1153non terminano di ispezionare la lista. 1154 1155Ma come fa l'RCU a sapere quando i lettori sono finiti? Il meccanismo è 1156il seguente: innanzi tutto i lettori accedono alla lista solo fra la coppia 1157rcu_read_lock()/rcu_read_unlock() che disabilita la 1158prelazione così che i lettori non vengano sospesi mentre stanno leggendo 1159la lista. 1160 1161Poi, l'RCU aspetta finché tutti i processori non abbiano dormito almeno 1162una volta; a questo punto, dato che i lettori non possono dormire, possiamo 1163dedurre che un qualsiasi lettore che abbia consultato la lista durante la 1164rimozione abbia già terminato, quindi la *callback* viene eseguita. Il vero 1165codice RCU è un po' più ottimizzato di così, ma questa è l'idea di fondo. 1166 1167:: 1168 1169 --- cache.c.perobjectlock 2003-12-11 17:15:03.000000000 +1100 1170 +++ cache.c.rcupdate 2003-12-11 17:55:14.000000000 +1100 1171 @@ -1,15 +1,18 @@ 1172 #include <linux/list.h> 1173 #include <linux/slab.h> 1174 #include <linux/string.h> 1175 +#include <linux/rcupdate.h> 1176 #include <linux/mutex.h> 1177 #include <asm/errno.h> 1178 1179 struct object 1180 { 1181 - /* These two protected by cache_lock. */ 1182 + /* This is protected by RCU */ 1183 struct list_head list; 1184 int popularity; 1185 1186 + struct rcu_head rcu; 1187 + 1188 atomic_t refcnt; 1189 1190 /* Doesn't change once created. */ 1191 @@ -40,7 +43,7 @@ 1192 { 1193 struct object *i; 1194 1195 - list_for_each_entry(i, &cache, list) { 1196 + list_for_each_entry_rcu(i, &cache, list) { 1197 if (i->id == id) { 1198 i->popularity++; 1199 return i; 1200 @@ -49,19 +52,25 @@ 1201 return NULL; 1202 } 1203 1204 +/* Final discard done once we know no readers are looking. */ 1205 +static void cache_delete_rcu(void *arg) 1206 +{ 1207 + object_put(arg); 1208 +} 1209 + 1210 /* Must be holding cache_lock */ 1211 static void __cache_delete(struct object *obj) 1212 { 1213 BUG_ON(!obj); 1214 - list_del(&obj->list); 1215 - object_put(obj); 1216 + list_del_rcu(&obj->list); 1217 cache_num--; 1218 + call_rcu(&obj->rcu, cache_delete_rcu); 1219 } 1220 1221 /* Must be holding cache_lock */ 1222 static void __cache_add(struct object *obj) 1223 { 1224 - list_add(&obj->list, &cache); 1225 + list_add_rcu(&obj->list, &cache); 1226 if (++cache_num > MAX_CACHE_SIZE) { 1227 struct object *i, *outcast = NULL; 1228 list_for_each_entry(i, &cache, list) { 1229 @@ -104,12 +114,11 @@ 1230 struct object *cache_find(int id) 1231 { 1232 struct object *obj; 1233 - unsigned long flags; 1234 1235 - spin_lock_irqsave(&cache_lock, flags); 1236 + rcu_read_lock(); 1237 obj = __cache_find(id); 1238 if (obj) 1239 object_get(obj); 1240 - spin_unlock_irqrestore(&cache_lock, flags); 1241 + rcu_read_unlock(); 1242 return obj; 1243 } 1244 1245Da notare che i lettori modificano il campo popularity nella funzione 1246__cache_find(), e ora non trattiene alcun *lock*. Una soluzione 1247potrebbe essere quella di rendere la variabile ``atomic_t``, ma per l'uso 1248che ne abbiamo fatto qui, non ci interessano queste corse critiche perché un 1249risultato approssimativo è comunque accettabile, quindi non l'ho cambiato. 1250 1251Il risultato è che la funzione cache_find() non ha bisogno di alcuna 1252sincronizzazione con le altre funzioni, quindi è veloce su un sistema 1253multi-processore tanto quanto lo sarebbe su un sistema mono-processore. 1254 1255Esiste un'ulteriore ottimizzazione possibile: vi ricordate il codice originale 1256della nostra memoria dove non c'erano contatori di riferimenti e il chiamante 1257semplicemente tratteneva il *lock* prima di accedere ad un oggetto? Questo è 1258ancora possibile: se trattenete un *lock* nessuno potrà cancellare l'oggetto, 1259quindi non avete bisogno di incrementare e decrementare il contatore di 1260riferimenti. 1261 1262Ora, dato che il '*lock* di lettura' di un RCU non fa altro che disabilitare 1263la prelazione, un chiamante che ha sempre la prelazione disabilitata fra le 1264chiamate cache_find() e object_put() non necessita 1265di incrementare e decrementare il contatore di riferimenti. Potremmo 1266esporre la funzione __cache_find() dichiarandola non-static, 1267e quel chiamante potrebbe usare direttamente questa funzione. 1268 1269Il beneficio qui sta nel fatto che il contatore di riferimenti no 1270viene scritto: l'oggetto non viene alterato in alcun modo e quindi diventa 1271molto più veloce su sistemi molti-processore grazie alla loro memoria cache. 1272 1273 1274Dati per processore 1275------------------- 1276 1277Un'altra tecnica comunemente usata per evitare la sincronizzazione è quella 1278di duplicare le informazioni per ogni processore. Per esempio, se volete 1279avere un contatore di qualcosa, potreste utilizzare uno spinlock ed un 1280singolo contatore. Facile e pulito. 1281 1282Se questo dovesse essere troppo lento (solitamente non lo è, ma se avete 1283dimostrato che lo è devvero), potreste usare un contatore per ogni processore 1284e quindi non sarebbe più necessaria la mutua esclusione. Vedere 1285DEFINE_PER_CPU(), get_cpu_var() e put_cpu_var() 1286(``include/linux/percpu.h``). 1287 1288Il tipo di dato ``local_t``, la funzione cpu_local_inc() e tutte 1289le altre funzioni associate, sono di particolare utilità per semplici contatori 1290per-processore; su alcune architetture sono anche più efficienti 1291(``include/asm/local.h``). 1292 1293Da notare che non esiste un modo facile ed affidabile per ottenere il valore 1294di un simile contatore senza introdurre altri *lock*. In alcuni casi questo 1295non è un problema. 1296 1297Dati che sono usati prevalentemente dai gestori d'interruzioni 1298-------------------------------------------------------------- 1299 1300Se i dati vengono utilizzati sempre dallo stesso gestore d'interruzioni, 1301allora i *lock* non vi servono per niente: il kernel già vi garantisce che 1302il gestore d'interruzione non verrà eseguito in contemporanea su diversi 1303processori. 1304 1305Manfred Spraul fa notare che potreste comunque comportarvi così anche 1306se i dati vengono occasionalmente utilizzati da un contesto utente o 1307da un'interruzione software. Il gestore d'interruzione non utilizza alcun 1308*lock*, e tutti gli altri accessi verranno fatti così:: 1309 1310 mutex_lock(&lock); 1311 disable_irq(irq); 1312 ... 1313 enable_irq(irq); 1314 mutex_unlock(&lock); 1315 1316La funzione disable_irq() impedisce al gestore d'interruzioni 1317d'essere eseguito (e aspetta che finisca nel caso fosse in esecuzione su 1318un altro processore). Lo spinlock, invece, previene accessi simultanei. 1319Naturalmente, questo è più lento della semplice chiamata 1320spin_lock_irq(), quindi ha senso solo se questo genere di accesso 1321è estremamente raro. 1322 1323 1324Quali funzioni possono essere chiamate in modo sicuro dalle interruzioni? 1325========================================================================= 1326 1327Molte funzioni del kernel dormono (in sostanza, chiamano schedule()) 1328direttamente od indirettamente: non potete chiamarle se trattenere uno 1329spinlock o avete la prelazione disabilitata, mai. Questo significa che 1330dovete necessariamente essere nel contesto utente: chiamarle da un 1331contesto d'interruzione è illegale. 1332 1333Alcune funzioni che dormono 1334--------------------------- 1335 1336Le più comuni sono elencate qui di seguito, ma solitamente dovete leggere 1337il codice per scoprire se altre chiamate sono sicure. Se chiunque altro 1338le chiami dorme, allora dovreste poter dormire anche voi. In particolar 1339modo, le funzioni di registrazione e deregistrazione solitamente si 1340aspettano d'essere chiamante da un contesto utente e quindi che possono 1341dormire. 1342 1343- Accessi allo spazio utente: 1344 1345 - copy_from_user() 1346 1347 - copy_to_user() 1348 1349 - get_user() 1350 1351 - put_user() 1352 1353- kmalloc(GFP_KERNEL) <kmalloc>` 1354 1355- mutex_lock_interruptible() and 1356 mutex_lock() 1357 1358 C'è anche mutex_trylock() che però non dorme. 1359 Comunque, non deve essere usata in un contesto d'interruzione dato 1360 che la sua implementazione non è sicura in quel contesto. 1361 Anche mutex_unlock() non dorme mai. Non può comunque essere 1362 usata in un contesto d'interruzione perché un mutex deve essere rilasciato 1363 dallo stesso processo che l'ha acquisito. 1364 1365Alcune funzioni che non dormono 1366------------------------------- 1367 1368Alcune funzioni possono essere chiamate tranquillamente da qualsiasi 1369contesto, o trattenendo un qualsiasi *lock*. 1370 1371- printk() 1372 1373- kfree() 1374 1375- add_timer() e timer_delete() 1376 1377Riferimento per l'API dei Mutex 1378=============================== 1379 1380.. kernel-doc:: include/linux/mutex.h 1381 :internal: 1382 1383.. kernel-doc:: kernel/locking/mutex.c 1384 :export: 1385 1386Riferimento per l'API dei Futex 1387=============================== 1388 1389.. kernel-doc:: kernel/futex/core.c 1390 :internal: 1391 1392.. kernel-doc:: kernel/futex/futex.h 1393 :internal: 1394 1395.. kernel-doc:: kernel/futex/pi.c 1396 :internal: 1397 1398.. kernel-doc:: kernel/futex/requeue.c 1399 :internal: 1400 1401.. kernel-doc:: kernel/futex/waitwake.c 1402 :internal: 1403 1404Approfondimenti 1405=============== 1406 1407- ``Documentation/locking/spinlocks.rst``: la guida di Linus Torvalds agli 1408 spinlock del kernel. 1409 1410- Unix Systems for Modern Architectures: Symmetric Multiprocessing and 1411 Caching for Kernel Programmers. 1412 1413 L'introduzione alla sincronizzazione a livello di kernel di Curt Schimmel 1414 è davvero ottima (non è scritta per Linux, ma approssimativamente si adatta 1415 a tutte le situazioni). Il libro è costoso, ma vale ogni singolo spicciolo 1416 per capire la sincronizzazione nei sistemi multi-processore. 1417 [ISBN: 0201633388] 1418 1419Ringraziamenti 1420============== 1421 1422Grazie a Telsa Gwynne per aver formattato questa guida in DocBook, averla 1423pulita e aggiunto un po' di stile. 1424 1425Grazie a Martin Pool, Philipp Rumpf, Stephen Rothwell, Paul Mackerras, 1426Ruedi Aschwanden, Alan Cox, Manfred Spraul, Tim Waugh, Pete Zaitcev, 1427James Morris, Robert Love, Paul McKenney, John Ashby per aver revisionato, 1428corretto, maledetto e commentato. 1429 1430Grazie alla congrega per non aver avuto alcuna influenza su questo documento. 1431 1432Glossario 1433========= 1434 1435prelazione 1436 Prima del kernel 2.5, o quando ``CONFIG_PREEMPT`` non è impostato, i processi 1437 in contesto utente non si avvicendano nell'esecuzione (in pratica, il 1438 processo userà il processore fino al proprio termine, a meno che non ci siano 1439 delle interruzioni). Con l'aggiunta di ``CONFIG_PREEMPT`` nella versione 1440 2.5.4 questo è cambiato: quando si è in contesto utente, processi con una 1441 priorità maggiore possono subentrare nell'esecuzione: gli spinlock furono 1442 cambiati per disabilitare la prelazioni, anche su sistemi monoprocessore. 1443 1444bh 1445 Bottom Half: per ragioni storiche, le funzioni che contengono '_bh' nel 1446 loro nome ora si riferiscono a qualsiasi interruzione software; per esempio, 1447 spin_lock_bh() blocca qualsiasi interuzione software sul processore 1448 corrente. I *Bottom Halves* sono deprecati, e probabilmente verranno 1449 sostituiti dai tasklet. In un dato momento potrà esserci solo un 1450 *bottom half* in esecuzione. 1451 1452contesto d'interruzione 1453 Non è il contesto utente: qui si processano le interruzioni hardware e 1454 software. La macro in_interrupt() ritorna vero. 1455 1456contesto utente 1457 Il kernel che esegue qualcosa per conto di un particolare processo (per 1458 esempio una chiamata di sistema) o di un thread del kernel. Potete 1459 identificare il processo con la macro ``current``. Da non confondere 1460 con lo spazio utente. Può essere interrotto sia da interruzioni software 1461 che hardware. 1462 1463interruzione hardware 1464 Richiesta di interruzione hardware. in_hardirq() ritorna vero in un 1465 gestore d'interruzioni hardware. 1466 1467interruzione software / softirq 1468 Gestore di interruzioni software: in_hardirq() ritorna falso; 1469 in_softirq() ritorna vero. I tasklet e le softirq sono entrambi 1470 considerati 'interruzioni software'. 1471 1472 In soldoni, un softirq è uno delle 32 interruzioni software che possono 1473 essere eseguite su più processori in contemporanea. A volte si usa per 1474 riferirsi anche ai tasklet (in pratica tutte le interruzioni software). 1475 1476monoprocessore / UP 1477 (Uni-Processor) un solo processore, ovvero non è SMP. (``CONFIG_SMP=n``). 1478 1479multi-processore / SMP 1480 (Symmetric Multi-Processor) kernel compilati per sistemi multi-processore 1481 (``CONFIG_SMP=y``). 1482 1483spazio utente 1484 Un processo che esegue il proprio codice fuori dal kernel. 1485 1486tasklet 1487 Un'interruzione software registrabile dinamicamente che ha la garanzia 1488 d'essere eseguita solo su un processore alla volta. 1489 1490timer 1491 Un'interruzione software registrabile dinamicamente che viene eseguita 1492 (circa) in un determinato momento. Quando è in esecuzione è come un tasklet 1493 (infatti, sono chiamati da ``TIMER_SOFTIRQ``). 1494