Needleman-Wunsch algoritması

Needleman-Wunsch algoritması biyoinformatikte, protein veya nükleotit dizilerini hizalamak için kullanılanılan bir algoritmadır. Saul B. Needleman ve Christian D. Wunsch tarafından geliştirilmiş olup, 1970'te yayınlanmıştır.[1] Algoritma, temel olarak, büyük sorunları (örneğin tam diziler) daha küçük sorunlara bölerek çözmeye çalışır; ve bu çözümleri de birleştirerek büyük sorunun çözümünü oluşturur.

Rehber

Algoritma, herhangi iki karakter dizisi için kullanılabilir. Bu rehberde, biz iki küçük DNA dizisi üzerinden gideceğiz.

GCATGCT
GATTACA

(Bunlar aynı DNA'nın iki zinciri değil, farklı DNA'lara ait dizilimlerdir.)

Tabloyu Oluşturun

Öncelikle şekil 1'deki gibi bir tablo çizin. İlk DNA dizisini tablonun ilk satırının üçüncü sütunundan başlayarak sağa doğru, ikinci DNA dizisini de tablonun üçüncü satırının ilk sütünundan başlayarak aşağıya doğru yazın.

Puanlama Sisteminizi Belirleyin

Sırada eşleşen veya eşleşmeyen karakterleri nasıl puanlandıracağımızı belirlemek var. Elimizdeki DNA dizilerine bakarak en iyi hizalamalardan birine bakalım:

GCATG-CU
G-ATTACA

Karakterlerin eşleştiğini, eşleşmediğini ve dizideki boşluklara("-") dikkat edin:

  • Eşleşme: İki karakterin aynı olması
  • Eşleşmeme: İki karakterin farklı olması
  • Boşluk: Bir karakterin, diğer dizideki boşluğa denk gelmesi

Bu üç durumu puanlandırmak için farklı yöntemler var (Puanlama Sistemleri bakınız); ancak şimdilik Needleman ve Wunsch tarafından da kullanılan basit yolu seçeceğiz: Eşleşme +1, Eşleşmeme -1, Boşluk -1 puan.

Tabloyu Doldurun

İkinci satırın, ikinci sütununa 0 yazarak başlayın. Satır satır ilerleyerek devam edin. Herhangi bir hücrenin puanı aşağıdaki şekilde belirlenir:

  • Soldaki hücrenin puanı ile Boşluk puanı (-1) toplanır.
  • Hücrenin bulunduğu satır ve sütun başlıklarındaki karakterleri karşılaştırarak eşleşme olup olmadığı belirlenir. Eşleşme varsa, sol-üst çaprazdaki hücrenin puanına Eşleşme puanı (+1); eşleşme yoksa, Eşleşmeme puanı(-1) toplanır.
  • Yukarıdaki hücrenin puanı ile Boşluk puanı (-1) toplanır.
  • Yukarıdaki üç yöntemden elde edilen puanlar karşılaştırılır, en yüksek olan hücreye yazılır. En yüksek puanın hangi hücre(ler)den elde edildiği oklarla gösterilir.

Okları İzleyin

Tablonun sağ-alt köşesindeki hücreden başlayarak sol-üst köşedeki 0'a ulaşana kadar okları izleyin. Çapraz oklar, eşleşme veya eşleşmemeyi; Sol ve yukarı oklar ise dizideki boşlukları belirtir. Sol oku izlediğinizde, tablonun tepesine yazılan dizide ilerlerken, soluna yazılan dizide aynı karakterde bekleriz; bu yüzden boşluk işaretini kullanırız.

Diziler        En İyi Hizalamalar
-------        ----------------------------------------
GATTACA        G-ATTACA        G-ATTACA        G-ATTACA
GCATGCT        GCATG-CT        GCA-TGCT        GCAT-GCT

Kaynakça

  1. Needleman, Saul B.; and Wunsch, Christian D. (1970). "A general method applicable to the search for similarities in the amino acid sequence of two proteins". Journal of Molecular Biology. 48 (3). ss. 443-53. doi:10.1016/0022-2836(70)90057-4. PMID 5420325.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.