Motywy regulacyjne w sekwencjach DNA
Short Description
Download Motywy regulacyjne w sekwencjach DNA...
Description
11/1/2016
1
C: PROBLEM: MOTYWY REGULACYJNE W SEKWENCJACH DNA METODA: ALGORYTMY PRZESZUKIWANIA WYCZERPUJĄCE I Z OGRANICZENIAMI
Łańcuch konsensusu a łańcuch mediany
Wprowadzenie biologiczne
2
D. Makowiec: C: motywy regulacyjne DNA
Geny to relatywnie rzadkie sekwencje: -mamy O(1 000 000 000) par nukleotydów w genomie -mamy O(10 000) genów w genomie - jest O(1000) par nukleotydów w genie Zatem w przybliżeniu jedynie 1% kodu DNA zawiera sekwencje kodujące geny (bo: 10^3 * 10^4/10^9)
3’ • Obszary regulacyjne ( promocji) są ulokowane 100-1000 bp przed sekwencją kodującą. • Specjalne białka ( Transciption Factors, TF, enzymy transkrypcyjne) przyklejają się do odpowiadających im sekwencji DNA, znajdujących się w danym obszarze regulacyjnym genu (Transcription Factor Binding Sites, TFBS) • Przyklejenie tego specjalnego białka powoduje odseparowanie nici DNA , co umożliwia rozpoczęcie procesu transkrypcji przez polimerazę RNA • Sekwencje DNA tworzące TFBS nazywamy MOTYWAMI.
1
11/1/2016
Wprowadzenie biologiczne
D. Makowiec: C: motywy regulacyjne DNA
3
Przykład:
TCGGGGATTTCC : motyw regulacyjny genów odpornościowych muszki owocówki. •
Pewne białka są wytwarzane przez organizm jedynie w określonych warunkach, na przykład przy infekcji. •
Sekwencja TCGGGGATTTCC (zwana NK-B binding site) to miejsce przywiązywania się białka (enzym transkrypcyjny NF- B), które to aktywuje lub zwalnia polimerazę RNA do transkrypcji genu, który za motywem się rozpoczyna.
Motywy regulacyjne to krótkie sekwencje nukleotydów, ułożone zwykle przed początkiem genu, które kontrolują ekspresję genów. Szukanie motywu ( nieformalnie) to problem odnalezienia sekwencji regulujących, gdy nie ma bez wiedzy wstępnej, jak sekwencja wygląda. Ale przypuszczamy, że te sekwencje powinny występować stosunkowo często.
Jak odróżnić motyw od losowego bałaganu?
D. Makowiec: C: motywy regulacyjne DNA
4
Umiesz odszukać wstawione motywy do każdej losowo wygenerowanej sekwencji?
atgaccgggatactgatagaagaaaggttgggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacaataaaacggcggga tgagtatccctgggatgacttaaaataatggagtggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcaaaaaaagggattgtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatataataaaggaagggcttatag gtcaatcatgttcttgtgaatggatttaacaataagggctgggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtataaacaaggagggccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttaaaaaatagggagccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatactaaaaaggagcggaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttactaaaaaggagcgga
2
11/1/2016
Jak odróżnić motyw od losowego bałaganu?
5
D. Makowiec: C: motywy regulacyjne DNA
W drugą stronę : dane mamy losowe sekwencje nukleotydów
atgaccgggatactgataccgtatttggcctaggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatactgggcataaggtaca tgagtatccctgggatgacttttgggaacactatagtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgaccttgtaagtgttttccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatggcccacttagtccacttatag gtcaatcatgttcttgtgaatggatttttaactgagggcatagaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtactgatggaaactttcaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttggtttcgaaaatgctctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatttcaacgtatgccgaaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttctgggtactgatagca
Jak odróżnić motyw od losowego bałaganu?
D. Makowiec: C: motywy regulacyjne DNA
6
Wstawmy w nie motyw AAAAAAAAGGGGGGG
atgaccgggatactgatAAAAAAAAGGGGGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaataAAAAAAAAGGGGGGGa tgagtatccctgggatgacttAAAAAAAAGGGGGGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgAAAAAAAAGGGGGGGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAAAAAAAAGGGGGGGcttatag gtcaatcatgttcttgtgaatggatttAAAAAAAAGGGGGGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtAAAAAAAAGGGGGGGcaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttAAAAAAAAGGGGGGGctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatAAAAAAAAGGGGGGGaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttAAAAAAAAGGGGGGGa
3
11/1/2016
Jak odróżnić motyw od losowego bałaganu?
D. Makowiec: C: motywy regulacyjne DNA
7
A jeśli każdy motyw ma 4 mutacje?
atgaccgggatactgatAgAAgAAAGGttGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacAAtAAAAcGGcGGGa tgagtatccctgggatgacttAAAAtAAtGGaGtGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcAAAAAAAGGGattGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAtAAtAAAGGaaGGGcttatag gtcaatcatgttcttgtgaatggatttAAcAAtAAGGGctGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtAtAAAcAAGGaGGGccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttAAAAAAtAGGGaGccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatActAAAAAGGaGcGGaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttActAAAAAGGaGcGGa
Jak odróżnić motyw od losowego bałaganu?
D. Makowiec: C: motywy regulacyjne DNA
8
Dlaczego odnalezienie motywu jest trudne?
atgaccgggatactgatAgAAgAAAGGttGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacAAtAAAAcGGcGGGa tgagtatccctgggatgacttAAAAtAAtGGaGtGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcAAAAAAAGGGattGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAtAAtAAAGGaaGGGcttatag gtcaatcatgttcttgtgaatggatttAAcAAtAAGGGctGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtAtAAAcAAGGaGGGccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttAAAAAAtAGGGaGccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatActAAAAAGGaGcGGaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttActAAAAAGGaGcGGa AgAAgAAAGGttGGG ..|..|||.|..||| cAAtAAAAcGGcGGG
4
11/1/2016
Jak odróżnić motyw od losowego bałaganu?
D. Makowiec: C: motywy regulacyjne DNA
9
Dlaczego odnalezienie motywu jest trudne? • rozważany motyw składa się z 15-tu nukleotydów ( 15-merów) czyli motyw jest jednym z 4^15 możliwych 15-merów. • rozważamy 10 sekwencji DNA , każda składa się z 83 nukleotydów.
Zatem mamy do rozważenie 10 *(83 -15 +1) = 640 możliwych 15-merów.
Ale prawdopodobieństwo wystąpienia danego 15-meru jest 640 /4^15 640/1 073 741 824 = 5.960 10^-7. A więc powtórzenie 15-meru jest nieprawdopodobne i dlatego możemy spodziewać się sukcesu. Szukać będziemy l-merów , sekwencji o ustalonej długości l, które w danym zestawie sekwencji DNA występują stosunkowo często.
Jak odróżnić motyw od losowego bałaganu?
• • •
•
Motyw może mutować na mniej znaczących pozycjach Przedstawione tutaj 5 motywów ma mutacje w pozycji 3 i 5 Taka reprezentacja to tzw. logo motywu (sekwencja nukleotydów wraz z ich mutacjami) , ilustruje część zachowaną i obszar zmian motywu Poniżej przykład logo innego motywu (wysokości liter odpowiadają częstościom mutacji)
D. Makowiec: C: motywy regulacyjne DNA
T T T T T
G G G G G
10
GGGGA AGAGA GGGGA AGAGA AGGGA
5
11/1/2016
Pojęcia niezbędne do zdefiniowania problemu motywu
D. Makowiec: C: motywy regulacyjne DNA
11
Szukamy jednego motywu o długości l (u nas 8) w zestawie t (u nas 7) sekwencji DNA
Przestrzenią poszukiwań dla zestawu t sekwencji nukleotydowych o długości n jest tablica ( t wierszy x n kolumn )
Wektor pozycji startowych rozważanych l-merów 1. Aktualnie rozważany wektor pozycji startowych wstawek w łańcuchach (8,19,3,5,31,27,15)
Pojęcia niezbędne do zdefiniowania problemu motywu
D. Makowiec: C: motywy regulacyjne DNA
12
2. Macierz dopasowania dla danego s: Zmienność macierzy dopasowania
3. Macierz profilu P(s) dla danego s:
4. Uzgodniony łańcuch profilu dla s
Zestaw nukleotydów najczęściej występujących
6
11/1/2016
Pojęcia niezbędne do zdefiniowania problemu motywu
D. Makowiec: C: motywy regulacyjne DNA
13
Jak ocenić jakość uzyskanego łańcucha konsensusu?
P( s) M P(s) ( j)
5 5 6 4
5 5
6 6
Nasz zestaw DNA dla s daje : Score(s,DNA)=5 +5+ 6+ 4 +5 + 5+6+ 6 =42
największa wartość w j-tej kolumnie P(s) 5. Wynik dla łańcucha konsensu z punktu startowego s dla zadanego zestawu DNA
Score( s, DNA)
M
j 1,...,l
Ocena Score
Problem znalezienia motywu: definicja
lt lt 4
P(s)
( j)
najlepsze dopasowanie najgorsze dopasowanie
Max dla naszego problemu to 8*7 =56 min to: 8*7/4=28
D. Makowiec: C: motywy regulacyjne DNA
14
Złożoność obliczeniowa
(n l 1)t (nt )
7
11/1/2016
Problem łańcucha medianowego
D. Makowiec: C: motywy regulacyjne DNA
15
Problem potraktowany INACZEJ 6. Odległość Hamminga pomiędzy l –merami w i v to ilość pozycji, w których l-mery w i v się różnią
7 Odległość pomiędzy w i l-merami zestawu DNA z pozycji s=(s1, s2,…, st)
8. Odległość pomiędzy w i l-merami zestawu DNA to minimalna odległość zaobserwowana w analizowanym zbiorze DNA od zadanego lmeru w
d H ( w, v) d H ( w, s )
d
j 1,..,t
H
( w, s j )
TotalDist ( w, DNA) min d H ( w, s ) s Proste!
9. Łańcuch mediany to taki l-mer w* , dla którego TotalDistance(w,DNA) dla danego zestawu DNA jest najmniejszy
Problem łańcucha medianowego
w* min TotalDist ( w, DNA) w
D. Makowiec: C: motywy regulacyjne DNA
16
4l * tn ( 4l tn)
8
11/1/2016
Problem łańcucha medianowego
D. Makowiec: C: motywy regulacyjne DNA
17
równoważność łańcuch konsensusu
max Score( s, DNA) s
a
M
j 1,...,l
P(s)
( j)
łańcuch medianowy
≡
w* min TotalDist ( w, DNA) w
d H (( ATGCAACT ), s ) 1 1 1 1 1 3 2 1 1 1 1 14 Score( s, DNA) 5 5 6 4 5 5 6 6 42
Jeśli w to łańcuch konsensusu , to
A w drugą stronę?
Podsumowanie:
D. Makowiec: C: motywy regulacyjne DNA
problem znalezienia motywu
Ilość możliwości:
(n-l+1)t
18
problem wyznaczenia łańcucha mediany
4l n t
9
11/1/2016
Przeszukiwanie w zupełnym drzewie binarnym
D. Makowiec: C: motywy regulacyjne DNA
19
’-’ Informacja pusta Kolejność Kolejność odwiedzanych odwiedzanych Poziom drzewa wierzchołków wierzchołków
Pierwsze litery rozdzielone
Drugie litery rozdzielone
Trzecie litery rozdzielone
Czwarte litery rozdzielone
Liście to zestaw wszystkich możliwych słów czteroliterowych zbudowanych z liter ’1’ i ’2’ Powiększamy zestaw przeszukiwanej informacji (liści) o informacje o wszystkich przodkach. Całe drzewo będzie przeglądane. Czy to się opłaci? Tak, pod warunkiem, że będziemy umieli właściwie oszacować wartość przodków.
Przeszukiwanie w zupełnym drzewie binarnym
D. Makowiec: C: motywy regulacyjne DNA
Kolejność Kolejność Kolejność odwiedzanych odwiedzanych odwiedzanych wierzchołków wierzchołków wierzchołków
20
Zadać pytanie ojcu takie, by było wiadomo czy warto interesować się jego synami
?
Pokażemy, jak wykorzystać tą obserwację, aby OGRANICZYĆ ZNACZĄCO przeszukiwaną przestrzeń
Porządek z prawej kolumny jest identyczny z kolejnością odwiedzania wierzchołków w pełnym drzewie binarnym przy zastosowaniu algorytmu PREORDER: najpierw ojciec, potem dzieci
10
11/1/2016
Przeszukiwanie w zupełnym drzewie binarnym
D. Makowiec: C: motywy regulacyjne DNA
21
Rozwiązanie iteracyjne dla PREORDER: Mamy alfabet k - literowy Budujemy kolejne L literowe słowa
Przy zadanym słowie a=(a1,..aL) , jakie słowo (liść) będzie następne Jeśli drzewo przyglądamy w porządku preorder ?
i - poziom drzewa
Kolejno przesuwamy się w głąb drzewa
lepiej
Odwiedzamy liście
Startując ze słowa a=(1,…,1) wyliczamy wszystkie kolejne słowa
NextVertex(a,i,L,k)
Przeszukiwanie w zupełnym drzewie binarnym
D. Makowiec: C: motywy regulacyjne DNA
22
Wszystkie możliwe sekwencje startowe
Mamy alfabet k = n-l+1 literowy odwiedzamy wierzchołki drzewa słów o długości L = t
11
11/1/2016
Przeszukiwanie w zupełnym drzewie binarnym
Pomysł: optymistyczne Score dla węzła wewnetrznego
D. Makowiec: C: motywy regulacyjne DNA
23
Dane są t= 3 DNA, o długości n=1 2 Szukamy motywu o długości l=10
Drzewo o nieinteresujących poddrzewach: ignorujemy poddrzewa każdego węzła, którego liście nie ma szansy, aby dostać wyższe Score niż najlepszy liść wierzchołków już odwiedzonych.
Przeszukiwanie w zupełnym drzewie binarnym
D. Makowiec: C: motywy regulacyjne DNA
24
12
11/1/2016
Praca domowa D
D. Makowiec: C: motywy regulacyjne DNA
25
1. Wyznacz macierz dopasowania (aligment), macierz profilu (profile) i łańcuch konsensusu (consensus) dla 5-merów o początkach w s= ( 1, 6, 4, 2, 4, 3,5) dla poniższych sekwencji DNA: CGGGGCTATGCAA TTTGAGGGTGCCC GGATGCAACTGGG AAGGATGCAAGCA AATTTTCTAAAAAG CTGGCAACTGGGA TACATGATCTGCAA • Podaj wynik Score(s) dla opisanego przypadku. • Oblicz TotalDistance dla następujących słów: CTAT i ATGA
2. Niech słowo a=242, o długości L=3, jest zbudowane z liter k=4-literowego alfabetu. Uzyskaj sześć kolejnych słów zgodnie z konstrukcją NextVertex(a,i,L,k)
13
View more...
Comments