Motywy regulacyjne w sekwencjach DNA

March 20, 2018 | Author: Anonymous | Category: Nauka, Biologia, Komórka, DNA
Share Embed


Short Description

Download Motywy regulacyjne w sekwencjach DNA...

Description

11/1/2016

1

C: PROBLEM: MOTYWY REGULACYJNE W SEKWENCJACH DNA METODA: ALGORYTMY PRZESZUKIWANIA WYCZERPUJĄCE I Z OGRANICZENIAMI

Łańcuch konsensusu a łańcuch mediany

Wprowadzenie biologiczne

2

D. Makowiec: C: motywy regulacyjne DNA

Geny to relatywnie rzadkie sekwencje: -mamy O(1 000 000 000) par nukleotydów w genomie -mamy O(10 000) genów w genomie - jest O(1000) par nukleotydów w genie Zatem w przybliżeniu jedynie 1% kodu DNA zawiera sekwencje kodujące geny (bo: 10^3 * 10^4/10^9)

3’ • Obszary regulacyjne ( promocji) są ulokowane 100-1000 bp przed sekwencją kodującą. • Specjalne białka ( Transciption Factors, TF, enzymy transkrypcyjne) przyklejają się do odpowiadających im sekwencji DNA, znajdujących się w danym obszarze regulacyjnym genu (Transcription Factor Binding Sites, TFBS) • Przyklejenie tego specjalnego białka powoduje odseparowanie nici DNA , co umożliwia rozpoczęcie procesu transkrypcji przez polimerazę RNA • Sekwencje DNA tworzące TFBS nazywamy MOTYWAMI.

1

11/1/2016

Wprowadzenie biologiczne

D. Makowiec: C: motywy regulacyjne DNA

3

Przykład:

TCGGGGATTTCC : motyw regulacyjny genów odpornościowych muszki owocówki. •

Pewne białka są wytwarzane przez organizm jedynie w określonych warunkach, na przykład przy infekcji. •

Sekwencja TCGGGGATTTCC (zwana NK-B binding site) to miejsce przywiązywania się białka (enzym transkrypcyjny NF- B), które to aktywuje lub zwalnia polimerazę RNA do transkrypcji genu, który za motywem się rozpoczyna.

Motywy regulacyjne to krótkie sekwencje nukleotydów, ułożone zwykle przed początkiem genu, które kontrolują ekspresję genów. Szukanie motywu ( nieformalnie) to problem odnalezienia sekwencji regulujących, gdy nie ma bez wiedzy wstępnej, jak sekwencja wygląda. Ale przypuszczamy, że te sekwencje powinny występować stosunkowo często.

Jak odróżnić motyw od losowego bałaganu?

D. Makowiec: C: motywy regulacyjne DNA

4

Umiesz odszukać wstawione motywy do każdej losowo wygenerowanej sekwencji?

atgaccgggatactgatagaagaaaggttgggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacaataaaacggcggga tgagtatccctgggatgacttaaaataatggagtggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcaaaaaaagggattgtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatataataaaggaagggcttatag gtcaatcatgttcttgtgaatggatttaacaataagggctgggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtataaacaaggagggccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttaaaaaatagggagccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatactaaaaaggagcggaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttactaaaaaggagcgga

2

11/1/2016

Jak odróżnić motyw od losowego bałaganu?

5

D. Makowiec: C: motywy regulacyjne DNA

W drugą stronę : dane mamy losowe sekwencje nukleotydów

atgaccgggatactgataccgtatttggcctaggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatactgggcataaggtaca tgagtatccctgggatgacttttgggaacactatagtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgaccttgtaagtgttttccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatggcccacttagtccacttatag gtcaatcatgttcttgtgaatggatttttaactgagggcatagaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtactgatggaaactttcaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttggtttcgaaaatgctctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatttcaacgtatgccgaaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttctgggtactgatagca

Jak odróżnić motyw od losowego bałaganu?

D. Makowiec: C: motywy regulacyjne DNA

6

Wstawmy w nie motyw AAAAAAAAGGGGGGG

atgaccgggatactgatAAAAAAAAGGGGGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaataAAAAAAAAGGGGGGGa tgagtatccctgggatgacttAAAAAAAAGGGGGGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgAAAAAAAAGGGGGGGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAAAAAAAAGGGGGGGcttatag gtcaatcatgttcttgtgaatggatttAAAAAAAAGGGGGGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtAAAAAAAAGGGGGGGcaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttAAAAAAAAGGGGGGGctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatAAAAAAAAGGGGGGGaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttAAAAAAAAGGGGGGGa

3

11/1/2016

Jak odróżnić motyw od losowego bałaganu?

D. Makowiec: C: motywy regulacyjne DNA

7

A jeśli każdy motyw ma 4 mutacje?

atgaccgggatactgatAgAAgAAAGGttGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacAAtAAAAcGGcGGGa tgagtatccctgggatgacttAAAAtAAtGGaGtGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcAAAAAAAGGGattGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAtAAtAAAGGaaGGGcttatag gtcaatcatgttcttgtgaatggatttAAcAAtAAGGGctGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtAtAAAcAAGGaGGGccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttAAAAAAtAGGGaGccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatActAAAAAGGaGcGGaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttActAAAAAGGaGcGGa

Jak odróżnić motyw od losowego bałaganu?

D. Makowiec: C: motywy regulacyjne DNA

8

Dlaczego odnalezienie motywu jest trudne?

atgaccgggatactgatAgAAgAAAGGttGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacAAtAAAAcGGcGGGa tgagtatccctgggatgacttAAAAtAAtGGaGtGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcAAAAAAAGGGattGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAtAAtAAAGGaaGGGcttatag gtcaatcatgttcttgtgaatggatttAAcAAtAAGGGctGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtAtAAAcAAGGaGGGccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttAAAAAAtAGGGaGccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatActAAAAAGGaGcGGaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttActAAAAAGGaGcGGa AgAAgAAAGGttGGG ..|..|||.|..||| cAAtAAAAcGGcGGG

4

11/1/2016

Jak odróżnić motyw od losowego bałaganu?

D. Makowiec: C: motywy regulacyjne DNA

9

Dlaczego odnalezienie motywu jest trudne? • rozważany motyw składa się z 15-tu nukleotydów ( 15-merów) czyli motyw jest jednym z 4^15 możliwych 15-merów. • rozważamy 10 sekwencji DNA , każda składa się z 83 nukleotydów.

Zatem mamy do rozważenie 10 *(83 -15 +1) = 640 możliwych 15-merów.

Ale prawdopodobieństwo wystąpienia danego 15-meru jest 640 /4^15 640/1 073 741 824 = 5.960 10^-7. A więc powtórzenie 15-meru jest nieprawdopodobne i dlatego możemy spodziewać się sukcesu. Szukać będziemy l-merów , sekwencji o ustalonej długości l, które w danym zestawie sekwencji DNA występują stosunkowo często.

Jak odróżnić motyw od losowego bałaganu?

• • •



Motyw może mutować na mniej znaczących pozycjach Przedstawione tutaj 5 motywów ma mutacje w pozycji 3 i 5 Taka reprezentacja to tzw. logo motywu (sekwencja nukleotydów wraz z ich mutacjami) , ilustruje część zachowaną i obszar zmian motywu Poniżej przykład logo innego motywu (wysokości liter odpowiadają częstościom mutacji)

D. Makowiec: C: motywy regulacyjne DNA

T T T T T

G G G G G

10

GGGGA AGAGA GGGGA AGAGA AGGGA

5

11/1/2016

Pojęcia niezbędne do zdefiniowania problemu motywu

D. Makowiec: C: motywy regulacyjne DNA

11

Szukamy jednego motywu o długości l (u nas 8) w zestawie t (u nas 7) sekwencji DNA

Przestrzenią poszukiwań dla zestawu t sekwencji nukleotydowych o długości n jest tablica ( t wierszy x n kolumn )

Wektor pozycji startowych rozważanych l-merów 1. Aktualnie rozważany wektor pozycji startowych wstawek w łańcuchach (8,19,3,5,31,27,15)

Pojęcia niezbędne do zdefiniowania problemu motywu

D. Makowiec: C: motywy regulacyjne DNA

12

2. Macierz dopasowania dla danego s: Zmienność macierzy dopasowania

3. Macierz profilu P(s) dla danego s:

4. Uzgodniony łańcuch profilu dla s

Zestaw nukleotydów najczęściej występujących

6

11/1/2016

Pojęcia niezbędne do zdefiniowania problemu motywu

D. Makowiec: C: motywy regulacyjne DNA

13

Jak ocenić jakość uzyskanego łańcucha konsensusu?

P( s) M P(s) ( j)

5 5 6 4

5 5

6 6

Nasz zestaw DNA dla s daje : Score(s,DNA)=5 +5+ 6+ 4 +5 + 5+6+ 6 =42

największa wartość w j-tej kolumnie P(s) 5. Wynik dla łańcucha konsensu z punktu startowego s dla zadanego zestawu DNA

Score( s, DNA) 

M

j 1,...,l

Ocena Score

Problem znalezienia motywu: definicja

lt lt 4

P(s)

( j)

najlepsze dopasowanie najgorsze dopasowanie

Max dla naszego problemu to 8*7 =56 min to: 8*7/4=28

D. Makowiec: C: motywy regulacyjne DNA

14

Złożoność obliczeniowa

(n  l  1)t  (nt )

7

11/1/2016

Problem łańcucha medianowego

D. Makowiec: C: motywy regulacyjne DNA

15

Problem potraktowany INACZEJ 6. Odległość Hamminga pomiędzy l –merami w i v to ilość pozycji, w których l-mery w i v się różnią

7 Odległość pomiędzy w i l-merami zestawu DNA z pozycji s=(s1, s2,…, st)

8. Odległość pomiędzy w i l-merami zestawu DNA to minimalna odległość zaobserwowana w analizowanym zbiorze DNA od zadanego lmeru w

d H ( w, v) d H ( w, s ) 

d

j 1,..,t

H

( w, s j )

TotalDist ( w, DNA)  min d H ( w, s ) s Proste!

9. Łańcuch mediany to taki l-mer w* , dla którego TotalDistance(w,DNA) dla danego zestawu DNA jest najmniejszy

Problem łańcucha medianowego

w*  min TotalDist ( w, DNA) w

D. Makowiec: C: motywy regulacyjne DNA

16

4l * tn  ( 4l tn)

8

11/1/2016

Problem łańcucha medianowego

D. Makowiec: C: motywy regulacyjne DNA

17

równoważność łańcuch konsensusu

max Score( s, DNA)  s

a

M

j 1,...,l

P(s)

( j)

łańcuch medianowy



w*  min TotalDist ( w, DNA) w

d H (( ATGCAACT ), s )  1  1  1  1  1  3  2  1  1  1  1  14 Score( s, DNA)  5  5  6  4  5  5  6  6  42

Jeśli w to łańcuch konsensusu , to

A w drugą stronę?

Podsumowanie:

D. Makowiec: C: motywy regulacyjne DNA

problem znalezienia motywu

Ilość możliwości:

(n-l+1)t

18

problem wyznaczenia łańcucha mediany

4l n t

9

11/1/2016

Przeszukiwanie w zupełnym drzewie binarnym

D. Makowiec: C: motywy regulacyjne DNA

19

’-’ Informacja pusta Kolejność Kolejność odwiedzanych odwiedzanych Poziom drzewa wierzchołków wierzchołków

Pierwsze litery rozdzielone

Drugie litery rozdzielone

Trzecie litery rozdzielone

Czwarte litery rozdzielone

Liście to zestaw wszystkich możliwych słów czteroliterowych zbudowanych z liter ’1’ i ’2’ Powiększamy zestaw przeszukiwanej informacji (liści) o informacje o wszystkich przodkach. Całe drzewo będzie przeglądane. Czy to się opłaci? Tak, pod warunkiem, że będziemy umieli właściwie oszacować wartość przodków.

Przeszukiwanie w zupełnym drzewie binarnym

D. Makowiec: C: motywy regulacyjne DNA

Kolejność Kolejność Kolejność odwiedzanych odwiedzanych odwiedzanych wierzchołków wierzchołków wierzchołków

20

Zadać pytanie ojcu takie, by było wiadomo czy warto interesować się jego synami

?

Pokażemy, jak wykorzystać tą obserwację, aby OGRANICZYĆ ZNACZĄCO przeszukiwaną przestrzeń

Porządek z prawej kolumny jest identyczny z kolejnością odwiedzania wierzchołków w pełnym drzewie binarnym przy zastosowaniu algorytmu PREORDER: najpierw ojciec, potem dzieci

10

11/1/2016

Przeszukiwanie w zupełnym drzewie binarnym

D. Makowiec: C: motywy regulacyjne DNA

21

Rozwiązanie iteracyjne dla PREORDER: Mamy alfabet k - literowy Budujemy kolejne L literowe słowa

Przy zadanym słowie a=(a1,..aL) , jakie słowo (liść) będzie następne Jeśli drzewo przyglądamy w porządku preorder ?

i - poziom drzewa

Kolejno przesuwamy się w głąb drzewa

lepiej

Odwiedzamy liście

Startując ze słowa a=(1,…,1) wyliczamy wszystkie kolejne słowa

NextVertex(a,i,L,k)

Przeszukiwanie w zupełnym drzewie binarnym

D. Makowiec: C: motywy regulacyjne DNA

22

Wszystkie możliwe sekwencje startowe

Mamy alfabet k = n-l+1 literowy odwiedzamy wierzchołki drzewa słów o długości L = t

11

11/1/2016

Przeszukiwanie w zupełnym drzewie binarnym

Pomysł: optymistyczne Score dla węzła wewnetrznego

D. Makowiec: C: motywy regulacyjne DNA

23

Dane są t= 3 DNA, o długości n=1 2 Szukamy motywu o długości l=10

Drzewo o nieinteresujących poddrzewach: ignorujemy poddrzewa każdego węzła, którego liście nie ma szansy, aby dostać wyższe Score niż najlepszy liść wierzchołków już odwiedzonych.

Przeszukiwanie w zupełnym drzewie binarnym

D. Makowiec: C: motywy regulacyjne DNA

24

12

11/1/2016

Praca domowa D

D. Makowiec: C: motywy regulacyjne DNA

25

1. Wyznacz macierz dopasowania (aligment), macierz profilu (profile) i łańcuch konsensusu (consensus) dla 5-merów o początkach w s= ( 1, 6, 4, 2, 4, 3,5) dla poniższych sekwencji DNA: CGGGGCTATGCAA TTTGAGGGTGCCC GGATGCAACTGGG AAGGATGCAAGCA AATTTTCTAAAAAG CTGGCAACTGGGA TACATGATCTGCAA • Podaj wynik Score(s) dla opisanego przypadku. • Oblicz TotalDistance dla następujących słów: CTAT i ATGA

2. Niech słowo a=242, o długości L=3, jest zbudowane z liter k=4-literowego alfabetu. Uzyskaj sześć kolejnych słów zgodnie z konstrukcją NextVertex(a,i,L,k)

13

View more...

Comments

Copyright © 2017 DOCUMEN Inc.