Cách xây dựng cây phả hệ

Trình tự DNA của bạn có thể được sử dụng khá dễ dàng với phần mềm Blast và Mega – các chương trình này có thể giúp xây dựng cây phát sinh. Bạn có thể đặt câu hỏi như mối quan hệ tiến hóa giữa một tập hợp các chuỗi từ các loài khác nhau là gì? Hoặc có những dòng vi khuẩn nào xuất hiện?

BLAST

Như bất kỳ nhà sinh học học nào cũng có thể biết, bước đầu tiên của bạn đối với một chuỗi trình tự mới sẽ là sử dụng BLAST, công cụ Basic Local Alignment Search. Công cụ tiện lợi nhưng mạnh mẽ này sẽ lắp ghép trình tự của bạn với hàng triệu chuỗi được lưu trữ trong các cơ sở dữ liệu genomic và nucleotide. Công cụ này cho kết quả là các trình tự tương tự nhất với trình tự của bạn. Nó cũng cung cấp những hiểu biết chuyên sâu để có thể nhận dạng của các chuỗi đó. Kết quả bao gồm sự tương đồng giữa các loài và các mô tương tự nhau. Công cụ Blast rất quan trọng vì nó giúp xác nhận rằng các trình tự tương đồng và không phải là liên kết ngẫu nhiên.

Những điều cơ bản của việc sử dụng BLAST để tìm kiếm trình tự nucleotide sẽ được đề cập đến trong bài viết này. Dưới đây là một vài giới thiệu ngắn gọn có liên quan đến BLAST được tìm thấy trên trang web của NCBI:

  1. BLASTN: So sánh trình tự nucleotide của bạn với các trình tự nucleotide trong GenBank, kho của NCBI sẽ cho các trình tự nucleotide.
  2. BLASTX: So sánh sáu khung dịch mã khác nhau [mở khung đọc] của trình tự nucleotide của bạn tới chuỗi amino axit trong cơ sở dữ liệu Protein của NCBI. Đây là một cách tuyệt vời để tìm ra các sản phẩm và chức năng có thể có của chuỗi của bạn!
  3. MegaBLAST: So sánh trình tự của bạn với các trình tự nucleotide khác, tối ưu hóa để tìm các chuỗi tương tự nhau của các loài liên quan, điều này làm nên một mạng lưới chặt chẽ hơn.

Sắp xếp nhiều trình tự [MSA]

Nhiều sự tương đồng được phát hiện qua Blast có thể được liên kết bằng cách sử dụng các thuật toán như ClustalW hoặc MUSCLE. Tôi thích sử dụng MEGA [Molecular Evolutionary Genetics Analysis] vì nó chứa đựng rất nhiều chức năng.

Để bắt đầu sắp xếp các chuỗi của bạn, khởi chạy Alignment Explorer bằng cách chọn Align /Edit/Build Alignment. Nó nằm trên thanh khởi động của cửa sổ chính MEGA. Từ Menu chính của Alignment Explorer, chuyển đến Web-> Query GenBank. Điều này cho phép bạn thêm từng chuỗi một cho các liên kết của bạn vào visual explorer. Sau khi thêm tất cả các chuỗi, bạn tùy chọn để sắp xếp chúng bằng cách sử dụng một đến hai chương trình khác nhau thường được sử dụng – bạn có thể sử dụng phần mềm ClustalW hoặc MUSCLE.

Chọn ClustalW hoặc MUSCLE?

Hai chương trình có sự khác nhau trong cách hoạt động. ClustalW sử dụng một thuật toán tiến bộ cho sự liên kết. Nó sắp xếp hai dãy tại mỗi bước, sau đó sắp xếp liên kết với một dãy khác, v.v … MUSCLE là viết tắt của Multiple Sequence Comparison by Log-Expectation. Nó đạt được kết quả tốt hơn ClustalW qua các thông số quan trọng, các thông số này bao gồm độ chính xác của liên kết cũng như sự phức tạp về thời gian và không gian thấp hơn bằng cách sử dụng các liên kết tịnh tiến chứ không phải lặp đi lặp lại.

Vào Alignment, và chọn Align by Muscle. Với người dùng ban đầu, các giá trị cài sẵn có thể sử dụng, vì chúng phục vụ mục đích của hầu hết mọi người. Đầu ra của bạn nên để giống như hình ảnh dưới đây:

Lưu sắp xếp của bạn dưới dạng tệp .meg. Bằng cách này, bạn có thể sử dụng nó sau mà không cần phải dành nhiều thời gian thêm và sắp xếp các trình tự một lần nữa.

Xây dựng cây phân loại với MEGA Phiên bản 6

Bây giờ đến phần thú vị! MEGA có rất nhiều lựa chọn để xây dựng cây phát sinh, bao gồm cây UPGMA, Maximum Parsimony, Neighbor-Joining, và Maximum Likelihood. Đây là những cách tiếp cận khác nhau để xây dựng cây, mỗi lựa chọn có ưu và nhược điểm riêng, và phù hợp cho mục đích cụ thể của bạn. Đối với một phương pháp đã chọn, Mega sẽ giúp bạn tìm ra mô hình tốt nhất cho tỷ lệ thay thế trình tự DNA hoặc protein của bạn.

Để xây dựng một cây phát sinh, đóng các liên kết tìm kiếm và trở lại cửa sổ chính MEGA. Chúng ta sẽ xây dựng một cây kết Neighbor-Joining để xem nhanh các trình tự và quan hệ của chúng với nhau. Bạn luôn có thể quay lại và vẽ lại cây bằng các phương pháp khác!

Chọn Phylogeny- Construct/Test Neighbor-Joining Tree, và chọn lưu tập tin với đuôi .meg từ Alignment Explorer trong hộp thoại mở. Sau khi chọn và nhấp vào Computer, bạn sẽ nhận được một cây giống như sau:

Để dễ đọc hơn hãy nhấp vào nút ở trên [Display Only Topology] [hình ảnh bên dưới].

Tree Explorer

Cây này cho chúng ta rất nhiều thông tin về trình tự. Giờ đây rõ ràng là trình tự Zaire Ebolavirus từ Gueckedou ở Guinea, giống nhất với dòng Mayinga [chuỗi AF272001.1]. Cả hai giống này gần giống nhất với dòng của Gabon, tương tự như của Tai Forest hay Sudan. Đây là một thực tế đáng ngạc nhiên khi xem xét vị trí địa lý của chúng ở Châu Phi. Guinea nằm ở Bắc Phi và Gabon nằm qua Vịnh Guinea. Điều này cho thấy rằng dơi có thể là vật lây lan chủ yếu virus ebola giữa các vị trí này.

BLAST và MEGA sẽ giúp bạn bắt đầu phân tích bộ gen và hiểu được trình tự dữ liệu. Đây là một giới thiệu rất ngắn về sức mạnh của MEGA. Lưu ý, độ tin cậy của cây có thể được ước lượng bằng cách sử dụng phương pháp bootstrap.

Tham khảo

1. Stecher, G., Liu, L., Sanderford, M., Peterson, D., Tamura, K., & Kumar, S. MEGA-MD: molecular evolutionary genetics analysis software with mutational diagnosis of amino acid variation. Bioinformatics 30, no. 9 [2014]: doi:10.1093/bioinformatics/btu018.

Nguồn gốc bài viết: Bitesizebio

Người dịch: Trà My

Biên tập: Sinhhocvietnam.com


Trước đây cây phả hệ được dùng như biểu hiện quan hệ lịch sử của những nhóm sinh vật, thường là những loài và mỗi nhóm được gọi là taxon [số nhiều là taxa]. Charles Darwin giới thiệu ý tưởng “cây phả hệ” sự phát sinh giống loài [phylogeny], [tree of life] trong cuốn sách gây ảnh hưởng mạnh của mình mang tên “Nguồn gốc các loài – Origin of Species [1859]. Cho đến thập niên 70 thế kỹ 20 những quan hệ nầy chỉ dựa vào những đặc tính hình thái từ taxa hiện có và những di chỉ hóa thạch. Với sự xuất hiện của những trình tự phân tử, những dữ liệu mới phát triển đến mức độ khó tin tạo nên một bức tranh hoàn toàn mới trong phân loại học.

Hình 1. Cây phả hệ trong sổ tay ghi chép của Darwin

Cây phả hệ mô tả lịch sử tiến hóa của một nhóm các loài [species] với những đặc tính khác nhau nhưng cùng có mối quan hệ họ hàng với nhau và cùng hình thành từ một tổ tiên chung trong quá khứ. Có nhiều hướng nghiên cứu khác nhau để chứng minh đặc điểm phát sinh sinh loài này.

Chúng ta có thể hiểu đơn giản cây phả hệ bao gồm 2 yếu tố nốt [nodes] và nhánh [branches]. Một nhánh là đường nối liền 2 nốt. Nốt có thể ở bên ngoài hoặc bên trong. Như hình 2 : nốt F42nagami, F43 quat, F44hanhMK và M37duong là nốt ngoài. Nốt Mk8Camsan, M11Waly Tangerine…M4ClemenD là nốt trong.  

Hình 3 là cây cùng gốc [rooted tree] các đầu nhánh của nó tượng trưng cho 5 taxa [A, B, C, D, E], bao gốm gốc R với 4 nốt bên trong [R, X, Y, Z]. Một cây được gọi là cùng gốc nếu nó có một nốt đặc biệt – gốc – từ đó một đường dẫn hướng duy nhất đến mỗi taxon. Trong hình 3, R là gốc vì nó là nốt bên trong duy nhất từ đó có thể đến tấc cả những nốt khác. Trong hình 4 các taxa không có cùng gốc  tree.

Chỉ số bootstrap: là tần số xuất hiện của một nhóm [cluster] trên số lần giản đồ được thiết lập. Đơn vị tính là % [phần trăm]. Theo Felsenstein [1985] bootstrap là một công cụ hỗ trợ cho việc xây dựng cây phát sinh loài. Chỉ số bootstrap nói lên độ tin cậy của sự gần gủi các thành viên của nhóm của cây phả hệ, .

Chỉ số CI [Consistency Index]: là tỉ số đo tương thích giữa một cây bất kỳ nào đó trong tổng số các cây được phân tích có tổng số nhánh ít nhất. Giá trị CI biến động trong khoảng 1.0 [tương thích tối đa] tiệm cận đến 0 [ít tương thích nhất]. Giá trị CI càng lớn thì kết quả có mức độ tin cậy càng cao.

Chỉ số CI được tính bằng công thức:    CI = M/S

M: số lượng nhỏ nhất có thể có của sự thay đổi tính trạng [bậc] trong một cây phát sinh loài bất kỳ.

S: số lượng sự thay đổi tính trạng thật sự [bậc] trong cây phát sinh đang nói đến [cây phát sinh đã có ý nghĩa giải thích tất cả sự phân bố tính trạng của giống cần phân loại].

RI [Retention Index]: chỉ số thể hiện số lượng tính trạng tương đồng của 2 hay nhiều giống cùng tổ tiên trên cây phân loại.

Hình 2. Cây phả hệ các giống cam, quýt, tắc ở Việt Nam

A

                                           Z                    B

C

                               X                 Y

D

                    R

E

Hình 3. Một rooted tree

                     A                                                                     B

Hình 4. Hai cây không cùng gốc [unrooted tree]

Có 3 nhóm phương pháp thường được dùng để vẽ cấu trúc cây phát sinh sinh loài từ một ma trận.

– Distance methods – nhóm phương pháp khoảng cách: Khoảng cách chính là khoảng cách tiến hóa giữa các cặp đối tượng đang được so sánh.

– Maximum parsimony method – phương pháp hà tiện đến mức tối đa. Phương pháp này sẽ chọn lựa cây tiến hóa thỏa điều kiện là số lượng đặc tính bị biến đổi phải thấp nhất để giải thích những dữ liệu đã quan sát được. Phương pháp Hà tiện tối đa [Maximum parsimony] giả định cho rằng cây tiến hóa tốt nhất mổ tả tiến trình tiến hóa tốt nhất chính là cây mô tả được các loài ít thay đổi nhất tức là có ít đột biến nhất, cây vì thế có điểm thấp nhất [hà tiện] theo một tiêu chuẩn định sẵn [Hall, 2001].

– Maximum Likelihood methods – Nhóm phương pháp hợp lý cực đại nhóm phương pháp này dựa trên một hàm toán học tính toán xác suất khả năng một cây tiến hóa được tạo thành từ dữ liệu đã quan sát. Hàm này cho phép việc tích hợp các quá trình tiến hóa của đặc tính thành mô hình xác suất. Phương pháp hợp lý cực đại chọn lựa cây tiến hóa tối đa mà khi quan sát các dữ liệu dưới một mô hình nào đó có xác xuất tối đa [Hall, 2001].

.C A T

C T G

C A C

Video liên quan

Chủ Đề