Specie 1

March 20, 2018 | Author: Anonymous | Category: Ingegneria, Informatica, Data Mining
Share Embed


Short Description

Download Specie 1...

Description

Corso di Laurea Specialistica in Biologia Sanitaria, Universita' di Padova C.I. di Metodi statistici per la Biologia, Informatica e Laboratorio di Informatica (Mod. B) Docente: Dr. Stefania Bortoluzzi Materiale del corso: http://telethon.bio.unipd.it/bioinfo/AA2006-2007/HomeStatBioinfo.html

VI ESERCITAZIONE Analisi di dati d'espressione genica. Espressione genica differenziale e coespressione. Metodi: Cluster analisi, distanza Euclidea, correlazione di Pearson, Test per l'espressione differenziale. Programmi: EXCEL, SPSS, IDEG6 Durante l’ultimo decennio l’automatizzazione di diverse metodologie sperimentali per la misurazione su larga scala del livello d’espressione di geni ha permesso di produrre una gran quantita’ di dati d’espressione, riguardanti i trascrittomi di diversi organismi in diverse condizioni. Sia che i dati siano stati prodotti a partire da analisi di librerie di cDNA, con la SAGE oppure con microarray, essi sono generalmente rappresentabili come matrici “n * m” con n geni e m condizioni. Il numero dei geni puo’ variare da alcune centinaia al set completo dei geni di un organismo, mentre le condizioni possono essere riferite a diversi tessuti (ad es. cuore, cervello e fegato umani), a tessuti in condizione normale o patologica (ad es. polmone sano e tumore al polmone), oppure a cellule coltivate sottoposte a diversi trattamenti. Le matrici di dati d’espressione sono generalmente il prodotto finale di studi sperimentali ma rappresentano il punto di partenza per la comprensione del significato biologico dei risultati di questi studi. Per questa ragione la ricerca negli ultimi anni si e’ notevolmente concentrata sullo sviluppo e sull’applicazione di metodi statistici per l’analisi dei dati d’espressione genica. Un gruppo di metodologie utile allo scopo e’ noto sotto il nome di cluster analisi, utile ad identificare appunto raggruppamenti nei dati, in riferimento ad opportune misure di similarita’. Attraverso l’applicazione della cluster analisi a dati d’espressione genica e’ possibile ad esempio identificare gruppi di geni co-espressi, ovvero con pattern d’espressione simili. Un altro genere di analisi statistica applicabile ai dati d’espressione e’ l’analisi dell’espressione differenziale, utile all’identificazione di geni significativamente differenzialmente espressi in specifiche condizioni rispetto ad altre. DATI 

matrice di dati d’espressione di 98 geni (UniGene clusters) in 17 tessuti umani differenziati

1

Scaricare il file di excel con la tabella originale contenente i dati sperimentali;

4329 11381 4046 5717 5842 6484 15032 21453 23686 11627 20774 26964 27430 6275 13535 33815 14763

testis_n

retina_n

prostate_n

pineal_gland_n

pancreas_n

muscle_n

melanocyte_n

marrow_n

lung_n

liver_n

hyppocampus_n

hypothalamus_n

hypophisis_n

1

0

0

0

0

0

2095 24

0

0

48

3

0

0

0

2

Hs.399996 glucagon 0 Human heat shock protein 86 Hs.381246 mRNA, 5'end. 0 calmodulin 2 (phosphorylase Hs.425808 kinase, delta) 2 eukaryotic translation Hs.422118 elongation factor 1 alpha 1 66 heat shock 90kDa protein 1, Hs.356531 alpha 28

0

0

0

0

0

0

0

0

0

0

0

1496 0

0

0

0

0

1

3

31

4

0

16

635

143

3

137

141

1

299

6

6

7

1

4

14

20

81

23

860

12

11

59

41

13

38

9

69

34

15

25

43

8

9

36

93

84

7

27

237

16

90

169

48

8

3

3

25

20

25

14

182

49

7

82

81

14

270

56

193

Hs.287820 fibronectin 1 glyceraldehyde-3-phosphate Hs.169476 dehydrogenase

2

437

0

1

1

4

0

58

32

296

10

96

5

0

3

2

5

7

30

37

14

4

26

35

19

2

49

13

73

33

41

5

356

2



0

colon_n

Hs.184411 albumin

cerebellum_n

Descr

bone_n

adipose_n

Hs



2

Utilizzando Excel, calcolare i totali di riga e di colonna.

3

Normalizzare i dati per colonna, tenendo conto del numero totale di ESTs per profilo. Per ogni valore, calcolare:

xij(norm) = xij / Nj * 10000 4

Fare un istogramma a barre dei livelli d’espressione dei primi cinque geni nei diversi tessuti, cosi’ da evidenziare quanto difficoltoso sia dare un’interpretazione descrittiva delle somiglianze e differenze tra i pattern d’espressione di anche pochissimi geni.

Cluster analysis 5

Dopo aver resi univoci e piu’ brevi di 8 caratteri i nomi delle variabili, salvare la matrice come un unico foglio di calcolo (dati.xls), da utilizzare per la cluster analisi con SPSS. Ad es.: adi

bon

cer

col



gene1

0

0,878

0

0



gene2

0

0

0

0

gene3

0

0

2,471

5,247



gene4

4,620

6,150

2,471

6,996















6

Utilizzando SPSS, importare il file preparato, sistemare eventualmente i tipi ed i nomi delle variabili.

7

Eseguire l’analisi cluster utilizzando la Distanza Euclidea e il metodo gerarchico (legame medio tra gruppi), selezionando anche la visualizzazione della matrice di distanze e del dendrogramma. Copiare tutti i risultati in un file di Word, sistemare il dendrogramma in modo da renderlo continuo (carattere 6).

8

Eseguire l’analisi cluster utilizzando la Correlazione di Pearson e il metodo gerarchico (legame medio tra gruppi), selezionando anche la visualizzazione della matrice di distanze e del dendrogramma. Copiare tutti i risultati in un file di Word, sistemare il dendrogramma in modo da renderlo continuo (carattere 6).

9

Interpretazione i risultati. Tracciare la posizione relativa dei geni 21 e 40 nei due dendrogrammi ottenuti utilizzando distanze diverse:

10

Quali sono le differenze nelle posizioni relative? Riguardare la matrice dei dati originali per cercare di capire a cosa sono imputabili.

11

Selezionare le righe della matrice corrispondenti ai geni 21 e 40 e fare un grafico a linee per descrivere la similarita’ dei loro pattern d’espressione nei tessuti considerati.

12

CONSEGNARE UNA RELAZIONE CONTENENTE: 

Riassunto dei contenuti dell’esercitazione (massimo 150 parole).



Risposte ai punti in grassetto.

VADEMECUM

Cluster analisi Le metodologie di analisi dei raggruppamenti si applicano a dati del genere “casi * variabili”, codificati in matrici. Generalmente le variabili costituiscono le colonne della matrice e i casi le righe. Ad es. una matrice “siti oceanografici campionati * specie” potrebbe contenere il numero di individui di una certa specie ritrovati in campioni pescati in diversi punti geografici: Sito 1

Sito 2



Sito M

Specie 1

x11

x12



x1m

Specie 2

x21

x22



x2m











Specie n

xn1

xn2



xnm

Lo scopo dell’analisi e’ generalmente quello di evidenziare, all’interno di gruppi numerosi e diversificati, sottogruppi di dati maggiormente omogenei. E’ possibile raggruppare le variabili in base ai casi (ad es. cercare gruppi di siti oceanografici piu’ omogenei per il contenuto di specie e/o la proporzione osservata di queste) oppure raggruppare i casi in base alle variabili (ad es. ricercare gruppi di specie che co-occorrono spesso negli stessi siti). Operativamente, e’ necessario definire innanzitutto una misura di similarita’ (o di distanza) che si utilizzera’ per calcolare un matrice di similarita’ (o di distanza), contenente i valori risultanti per tutti i possibili confronti a coppie. In seguito, sara’ necessario definire un metodo per generare raggruppamenti a partire dalla matrice. Infine, i risultati potranno essere visualizzati attraverso un dendrogramma (rappresentazione grafica ad albero). caso2 caso95 caso16 caso10 caso17 caso55 caso85 caso50

2 95 16 10 17 55 85 50

         

Esistono moltissime misure di similarita’ diverse. L’applicazione di misure diverse agli stessi dati permette di ottenere matrici di similarita’ anche molto diverse tra di loro. E’ necessario scegliere la misura di distanza piu’ appropriata alla domanda biologica a cui e’ associata una specifica analisi. Consideriamo brevemente la differenza tra due misure di distanza molto utilizzate, la Distanza Euclidea Quadratica e la Correlazione di Pearson. Distanza Euclidea Quadratica. Si definisce come la sommatoria delle distanze al quadrato fra tutte le variabili di due differenti gruppi:

d(x,y) = i (xi –yi)2 Correlazione di Pearson. Misura la similarita’ tra due profili (Pearson Correlation distance: d = 1 – r):

Anche le metodologie di linking sono le piu’ varie ed influenzano molto i risultati finali. Grossolanamente, i metodi di linking possono essere cassificati in gerarchici e non gerarchici a seconda che i legami o le partizioni generati nelle fasi precoci dell’analisi rimangano sempre fissati oppure possano essere rimaneggiati in seguito. Nell'ambito della modalita' gerarchica esistono due tipi di raggruppamenti: quello agglomerativo, che riunisce gli elementi piu' vicini fino a formare un unico grande cluster, e quello divisivo, che parte da un unico grande cluster fino a formare un cluster per ogni singolo caso. I casi ed i cluster si riuniscono in base a criteri che vengono adottati in ogni passo della aggregazione e si basano sulla matrice delle distanze o delle somiglianze fra i casi. Il modello piu' semplice e' quello del collegamento singolo: i primi casi ad essere uniti in cluster sono quelli che hanno le distanze piu' piccole. In questo caso la distanza fra un cluster ed un caso singolo viene calcolata come la piu' piccola distanza fra il caso ed uno dei casi del cluster, mentre la distanza tra due casi non uniti in cluster rimane invece sempre la stessa. Un altro sistema e’ metodo del collegamento medio fra i gruppi (average linkage between groups method, UPGMA), che definisce la distanza fra i cluster come la distanza media fra tutte le coppie di punti dei quali uno appartiene ad un cluster e l'altro appartiene all'altro cluster.

View more...

Comments

Copyright © 2017 DOCUMEN Inc.