ინფორმაცია

5: გენომის შეკრება და მთლიანი გენომის განლაგება - ბიოლოგია


5: გენომის შეკრება და მთლიანი გენომის განლაგება

ქრომოსომული დონის გენომის შეკრება გიგანტური პანდასთვის იძლევა ახალ შეხედულებებს კარნიორას ქრომოსომის ევოლუციის შესახებ

ქრომოსომის ევოლუცია არის სახეობების და სახეობების ევოლუციის მნიშვნელოვანი მამოძრავებელი ძალა. წინა კვლევებმა გამოავლინა ქრომოსომის გადალაგება სხვადასხვა კარნივორულ სახეობას შორის ქრომოსომული ფერწერის სტრატეგიების გამოყენებით. თუმცა, ამ კვლევებიდან რამდენიმე იყო ფოკუსირებული ქრომოსომის ევოლუციაზე ნუკლეოტიდის გარჩევადობით, ქრომოსომული დონის კარნივორას გენომის შეზღუდული ხელმისაწვდომობის გამო. მიუხედავად იმისა, რომ გიგანტური პანდას de novo გენომის ასამბლეა ხელმისაწვდომია, ახლანდელ მოკლე კითხვაზე დაფუძნებული შეკრებები შემოიფარგლება ზომიერი ზომის ხარაჩოებით, რაც ართულებს ქრომოსომების ევოლუციის შესწავლას.

შედეგები

აქ ჩვენ წარმოგიდგენთ ქრომოსომის დონის გიგანტურ პანდას გენომს, რომლის საერთო ზომაა 2.29 გბ. გიგანტური პანდას გენომის და გამოქვეყნებული ქრომოსომული დონის ძაღლებისა და კატების გენომებზე დაყრდნობით, ჩვენ ვატარებთ ექვს ფართომასშტაბიან წყვილ სინთეზურ განლაგებას და ვადგენთ ევოლუციურ შესვენების ადგილებს. საინტერესოა, რომ გენის ფუნქციური გამდიდრების ანალიზი გვიჩვენებს, რომ კარნივორას სამივე გენომისათვის ევოლუციური გარღვევის რეგიონებში განლაგებული ზოგიერთი გენი მნიშვნელოვნად გამდიდრებულია ბილიკებით ან ტერმინებით, რომლებიც დაკავშირებულია სუნის სენსორულ აღქმასთან. გარდა ამისა, ჩვენ აღმოვაჩინეთ, რომ ტკბილი რეცეპტორის გენი TAS1R2, რომელიც კატის გენომში ფსევდოგენია, მდებარეობს გიგანტური პანდას ევოლუციურ გარღვევის რეგიონში, რაც იმაზე მეტყველებს, რომ ინტერქრომოსომულმა გადაწყობამ შეიძლება როლი შეასრულოს კატაში TAS1R2 ფსევდოგენიზაცია.

დასკვნები

ჩვენ ვაჩვენებთ, რომ ამ კვლევაში გამოყენებული კომბინირებული სტრატეგიები შეიძლება გამოყენებულ იქნას ქრომოსომული დონის ეფექტური გენომის ასამბლეის შესაქმნელად. უფრო მეტიც, ჩვენი შედარებითი გენომიკური ანალიზი იძლევა ახალ წარმოდგენას კარნიოვას ქრომოსომის ევოლუციის შესახებ, რომელიც ქრომოსომის ევოლუციას უკავშირებს ფუნქციურ გენის ევოლუციას.


Აბსტრაქტული

MUMmer სისტემა და მასში შემავალი გენომის მიმდევრობის მიმდევარი გენომიკაში ერთ -ერთი ყველაზე ფართოდ გამოყენებული გასწორების პაკეტია. 2004 წელს MUMmer 3 ვერსიის ბოლო ძირითადი გამოშვებიდან, იგი გამოიყენება მრავალი სახის პრობლემის ჩათვლით, მათ შორის მთელი გენომის თანმიმდევრობის გასწორებაში, წაკითხვის მიახლოებაში მითითებულ გენომთან და ერთი და იმავე გენომის სხვადასხვა ასამბლეის შედარებაში. მიუხედავად მისი ფართო სარგებლობისა, MUMmer3– ს აქვს შეზღუდვები, რამაც შეიძლება გაართულოს მისი გამოყენება დიდი გენომებისთვის და ძალიან დიდი თანმიმდევრობით მონაცემთა ნაკრებებისთვის, რომლებიც დღეს გავრცელებულია. ამ სტატიაში ჩვენ აღწერს MUMmer4, MUMmer- ის არსებითად გაუმჯობესებულ ვერსიას, რომელიც ეხება გენომის ზომის შეზღუდვებს MUMmer- ის ბირთვში 32-ბიტიანი სუფიქსის ხის სტრუქტურის 48-ბიტიანი სუფიქსის მასივის შეცვლით და ეს უზრუნველყოფს გაუმჯობესებულ სიჩქარეს პარალელური დამუშავების გზით. შეკითხვის თანმიმდევრობა. 141Tbp შეყვანის ზომის თეორიული შეზღუდვით, MUMmer4– ს შეუძლია იმუშაოს ნებისმიერი ბიოლოგიურად რეალისტური სიგრძის შეყვანის თანმიმდევრობით. ჩვენ ვაჩვენებთ, რომ ამ გაუმჯობესების შედეგად, MUMmer4– ის nucmer პროგრამა ადვილად ახერხებს დიდი გენომების განლაგებას, ჩვენ ამას ვაჩვენებთ ადამიანისა და შიმპანზეების გენომების განლაგებით, რაც საშუალებას გვაძლევს გამოვთვალოთ, რომ ეს ორი სახეობა 98% იდენტურია მათი სიგრძის 96%. აქ აღწერილი გაუმჯობესებებით, MUMmer4 ასევე შეიძლება გამოყენებულ იქნას წაკითხვის საცნობარო გენომებთან ეფექტურად გასათანაბრებლად, თუმცა ის ნაკლებად მგრძნობიარე და ზუსტია ვიდრე წაკითხვის ერთგულ მიმდევრებს. MUMmer4– ის nucmer aligner– ს ახლა შეიძლება გამოვიძახოთ სკრიპტირების ენებიდან, როგორიცაა Perl, Python და Ruby. ეს გაუმჯობესებები MUMer4- ს აქცევს გენომის განლაგების ერთ -ერთ ყველაზე მრავალმხრივ ხელმისაწვდომ პაკეტად.

ციტირება: Marçais G, Delcher AL, Phillippy AM, Coston R, Salzberg SL, Zimin A (2018) MUMmer4: სწრაფი და მრავალმხრივი გენომის გასწორების სისტემა. PLoS Comput Biol 14 (1): e1005944. https://doi.org/10.1371/journal.pcbi.1005944

რედაქტორი: აარონ ე. დარლინგი, სიდნეის ტექნოლოგიური უნივერსიტეტი, ავსტრალია

მიღებული: 2017 წლის 15 აგვისტო მიღებულია: 2018 წლის 1 იანვარი გამოქვეყნებულია: 2018 წლის 26 იანვარი

ეს არის ღია წვდომის სტატია, ყოველგვარი საავტორო უფლებების გარეშე და შეიძლება თავისუფლად იყოს გამრავლებული, განაწილებული, გადაცემული, მოდიფიცირებული, აგებული ან სხვაგვარად გამოყენებული ვინმეს რაიმე კანონიერი მიზნით. ნამუშევარი ხელმისაწვდომია Creative Commons CC0 საზოგადოებრივი დომენის მიძღვნის ქვეშ.

მონაცემთა ხელმისაწვდომობა: ამ ნაშრომისთვის გამოყენებული მონაცემები ხელმისაწვდომია NCBI SRA https://www.ncbi.nlm.nih.gov/sra და Cold Spring Harbor Laboratory ვებ – გვერდიდან http://schatzlab.cshl.edu/data/ectools /.

დაფინანსება: ეს კვლევა ნაწილობრივ მხარი დაუჭირა აშშ-ს ჯანდაცვის ეროვნულმა ინსტიტუტმა სტივენ ზალცბერგს გრანტით R01 GM083873, ნაწილობრივ გორდონ და ბეტი მურის ფონდის მონაცემებით გამოწვეული აღმოჩენის ინიციატივით გრანტი GBMF4554 კარლ კინგსფორდისათვის და ნაწილობრივ ეროვნული სამეცნიერო ფონდის გრანტების მიერ. IOS-1238231 იან დვვორაკამდე, IOS-144893 ჰერბერტ ოლდვინკლს, კეითან მოკაიტისს, ალექსეი ზიმინს, ჯეიმს იორკს და მარსელა იპესს. დამფინანსებლები არ მონაწილეობდნენ კვლევის დიზაინში, მონაცემთა შეგროვებასა და ანალიზში, გამოქვეყნების გადაწყვეტილებაში ან ხელნაწერის მომზადებაში.

კონკურენტული ინტერესები: ავტორებმა განაცხადეს, რომ კონკურენტული ინტერესები არ არსებობს.

Ეს არის PLOS გამოთვლითი ბიოლოგია პროგრამული ქაღალდი.


შედეგები

ალგორითმის მიმოხილვა

როგორც შესავალშია აღწერილი, ამ ნაშრომის მთავარი ალგორითმული სიახლეა SibeliaZ-LCB ალგორითმი. SibeliaZ-LCB შეყვანის სახით იღებს დე ბრუინის გრაფიკს, რომელიც აგებულია აწყობილი გენომების კოლექციაზე. აწყობილი გენომი თავისთავად არის კონფიგურაციის თანმიმდევრობის ნაკრები. SibeliaZ-LCB ამოიცნობს და გამოაქვს შემავალი გენომების ჰომოლოგური ქვეგანყოფილების ყველა არა გადახურული ბლოკი. ბლოკი შეიძლება შედგებოდეს ორი ან მეტი თანმიმდევრობისგან ერთი ან მეტი გენომიდან. ამ ქვეგანყოფილებაში ჩვენ მივცემთ SibeliaZ-LCB– ს მაღალ დონეზე მიმოხილვას, რაც უფრო ოფიციალურ და დეტალურ ვერსიას დატოვებს „მეთოდებისთვის“.

SibeliaZ-LCB დიდწილად ეყრდნობა გენომების დე ბრუინის გრაფიკს. ამ გრაფიკში, წვეროები შეესაბამება -მერები (ფიქსირებული სიგრძის სტრიქონები ) შეყვანის. ა -მერი რომელიც რამდენჯერმე ჩნდება შეყვანისას წარმოდგენილია მხოლოდ ერთი კვანძის გამოყენებით. შემდეგ, -მერები, რომლებიც თანმიმდევრულად ჩნდება შეყვანის თანმიმდევრობით, უკავშირდება ზღვარს მარცხნიდან მარჯვნივ მარჯვნივ (მაგალითისთვის იხ. სურათი 1 ა). ამრიგად, თითოეული გენომი შეესაბამება გრაფაში არსებულ გზას, საიდანაც იგი გამოდის -მე რომ -მე კიდეების გამოყენებით.

გრაფიკი აგებულია სტრიქონებიდან "GCACGTCC" და "GCACTTCC", თან = 2. ორი სტრიქონი აისახება შესაბამისად ლურჯი და მეწამული გასეირნებით. ეს არის ორი გასეირნების კოლინარული ბლოკის მაგალითი. არის ოთხი ბუშტი. ბუშტი, რომელიც წარმოიქმნება წვეროებით "AC" და "TC" აღწერს ჩანაცვლებას ბლოკში, ხოლო სამი სხვა ბუშტი წარმოიქმნება პარალელური კიდეებით. ცისფერი და მეწამული სიარული ქმნის ზედიზედ ოთხი ბუშტის ჯაჭვს. უფრო რთული ბლოკის მაგალითი, სადაც ჩვენ შევიტანეთ მესამე თანმიმდევრობა "CACGTTCC" (ფირუზი). ჩვენ აღარ შეგვიძლია აღვწეროთ ბლოკი, როგორც ბუშტუკების ჯაჭვი, რადგან ისინი ერთმანეთთან გადახურულია და ქმნის ჩახლართულ სტრუქტურებს. სამაგიეროდ, ჩვენ განვიხილავთ იმ გზას, რომელიც მოცემულია გრაფაში (დატეხილი შავი), რომელიც იზიარებს მრავალ წვეროს სამი კოლინარული სიარულისას. ეს ტარების ბილიკი იზიარებს მრავალ წვერს სამ არსებულ სიარულთან და თითოეული სიარული ქმნის თავის ჯაჭვს მასთან. კარგი კოლინეარული ბლოკების მოძიების ამოცანა შეიძლება შემდგომ ჩამოყალიბდეს, როგორც სატარებელი ბილიკების პოვნა, რომლებიც ქმნიან კარგ ჯაჭვებს გენომურ სიარულებთან ერთად.

ამ გრაფაში ორი ჰომოლოგიური თანმიმდევრობა ქმნის ჯაჭვს: პარალელური კიდეების გადახლართვის თანმიმდევრობა, რომელიც შეესაბამება იდენტურ მიმდევრობებს და "ბუშტუკები", რომლებიც შეესაბამება მცირე ცვალებადობას, როგორიცაა ერთი ნუკლეოტიდის ვარიანტი ან ინდელი. თუმცა, ჯაჭვის კონცეფცია ძნელია გააფართოვოს ორზე მეტ ჰომოლოგიურ მიმდევრობას, რადგან გრაფიკში ჩახლართული ნიმუში ძნელია ზუსტად განსაზღვროს (იხ. სურათი 1 ბ მაგალითისთვის).

ამ გამოწვევის გადასაჭრელად, ჩვენ შემოგვთავაზებს იდეას, რომ თითოეულ ბლოკს აქვს „ტარების გზა“ დე ბრუინის გრაფიკში, რომელიც ბლოკს ერთად ინახავს. ძირითადი იდეა ისაა, რომ ბლოკის შემქმნელ ჰომოლოგიურ მიმდევრობებს ბევრი საერთო აქვს -მერები და მათი შესაბამისი გენომური ბილიკები გადიან თითქმის ერთსა და იმავე წვეროებს. სატარებელი გზა არის გზა, რომელიც გადის ყველაზე ხშირად მონახულებულ წვეროებში, რომელიც ძალიან ჰგავს კონცეფციის თანმიმდევრობის კონცეფციას. ბლოკიდან თითოეული გენომიკური გზა ქმნის ჯაჭვს ამ სატარებელი ბილიკით (იხ. სურათი 1 ბ მაგალითისთვის).

ჩვენ წინასწარ არ ვიცით ტარების ბილიკები, მაგრამ შეგვიძლია გამოვიყენოთ ისინი როგორც სახელმძღვანელო მექანიზმი ბლოკების მოსაძებნად. ჩვენ ვიწყებთ თვითნებური ზღვარით დიაგრამაში და ყველა სხვა გენომურ ბილიკში, რომლებიც ქმნიან ბუშტებს რა Ჩვენ ვაკეთებთ სატრანსპორტო ბილიკის საწყისი წერტილი და გამოიყენეთ იგი სხვა გენომურ ბილიკებთან ერთად, რათა დაიწყოთ მიმდევრობის შეგროვება ამ ბლოკის შესაბამისი ბლოკისა. ტარების გზის გასაგრძელებლად, ჩვენ ვუყურებთ კიდეებს, რომლებიც აფართოებენ გენომურ ბილიკებს მიმდინარე ბლოკში და ვიღებთ ყველაზე გავრცელებულს. ბლოკის გენომური გზების შემანარჩუნებელი მონაცემთა სტრუქტურები და ტარების გზა შემდეგ განახლდება და გაგრძელების პროცედურა მეორდება. სურათი 2 გვიჩვენებს ამ ალგორითმის მუშაობის მაგალითს.

თითოეული ქვეფიგურა გვიჩვენებს კოლინეარული ბლოკის შინაარსს და ტარების გზა. კოლინარული გასეირნება მყარია, ტარების ბილიკი გაფუჭებულია და დანარჩენი გრაფა წერტილოვანია. ქვეფიგურაცია აჩვენებს ამ ცვლადების მდგომარეობას ინიციალიზაციის ქვეფიგურაციების შემდეგ თითოეული ეტაპის დასრულების შემდეგ აჩვენეთ მდგომარეობა.

ჩვენ ვაგრძელებთ ამ პროცესს მანამ, სანამ ქულის მინიჭების ფუნქცია, რომელიც აღწერს რამდენად კარგად იტანს ბილიკი ბლოკს ნულამდე. იმ მომენტში, ჩვენ განვიხილავთ შესაძლებლობას, რომ ჩვენ შესაძლოა ბლოკის გადაჭარბებული გაფართოება მოვახდინოთ და ამის ნაცვლად ადრე დავამთავროთ. ამისათვის ჩვენ ვუყურებთ ყველა შუალედურ ბლოკს, რომელიც ჩვენ შევქმენით გაფართოების პროცესში და გამოვყავით ის, რომელსაც აქვს უმაღლესი ქულა. მას შემდეგ, რაც ბლოკი არის გამომავალი, ჩვენ გამოვყოფთ ყველა მის შემადგენელ კიდეებს, როგორც გამოიყენება ისე, რომ ისინი არ შეირჩეს მომავალი ბლოკის ნაწილად.

ამ გზით, SibeliaZ-LCB პოულობს ერთ ბლოკს. ამის შემდეგ, ჩვენ ვცდილობთ ვიპოვოთ სხვა ბლოკი სხვა თვითნებური ზღვარიდან დაწყებული. ეს პროცესი გრძელდება მანამ, სანამ გრაფის ყველა კიდე არ იქნება გამოყენებული ან არ იქნა გამოყენებული როგორც სატარებელი გზის პოტენციური შემქმნელი.

მონაცემთა ნაკრები, ინსტრუმენტები და შეფასების მეტრიკა

მთლიანი გენომის მიმდევართა შეფასება თავისთავად რთული პრობლემაა და, შესაბამისად, ჩვენ ავირჩიეთ Alignathon 1-ის კონკურსში ასახული პრაქტიკის ამოსავალი წერტილი. ისინი წარმოადგენენ რამოდენიმე მიდგომას მთელი გენომის მრავალჯერადი განლაგების ხარისხის შესაფასებლად. იდეალურ შემთხვევაში, უმჯობესია შევადაროთ ხელით შერჩეული ოქროს სტანდარტის თანხვედრა სამწუხაროდ, ასეთი ოქროს სტანდარტი არ არსებობს. ამრიგად, ჩვენ შევარჩიეთ ჩვენი შეფასების ფოკუსირება რეალურ მონაცემებზე.

ჩვენ შევაფასეთ SibeliaZ– ის რეალური გენომის გასწორების უნარი მისი გაშვებით რამდენიმე მონაცემთა ბაზაზე, რომელიც შედგება თაგვების გენომების სხვადასხვა რაოდენობისგან. ჩვენ ამოვიღეთ 16 თაგვის გენომი, რომელიც ხელმისაწვდომი იყო GenBank 30 -ში და შეაფასეს, როგორც "ქრომოსომის" შეკრების დონე. ისინი შედგება თაგვის საცნობარო გენომისა და 15 სხვადასხვა შტამისგან, რომლებიც შედგენილია უახლესი კვლევის ფარგლებში 12 (დამატებითი ცხრილი 1). გენომები განსხვავდება ზომით 2.6 -დან 2.8 გბტ -მდე და ხარაჩოების რაოდენობა (2977 -დან 7154 -მდე, გარდა მითითებისა, რომელსაც აქვს 377). მათი GenBank- ის გაწევრიანების ნომრები ჩამოთვლილია ცხრილში 1. ჩვენ შევქმენით ოთხი მონაცემთა ბაზა, რომლებიც ზომავს გაზსადენების მასშტაბურობის შესამოწმებლად შემავალი გენომების რაოდენობასთან დაკავშირებით. მონაცემთა ნაკრები შეიცავს გენომებს 1–2, 1–4, 1–8 და 1–16 დამატებითი ცხრილი 1 – დან, გენომი 1 არის საცნობარო გენომი.

სიზუსტის გასაზომად, ჩვენ გამოვიყენეთ რამოდენიმე საფუძვლიანი ჭეშმარიტება (აღწერილია) და გამოვიყენეთ სიზუსტის და გაწვევის მეტრიკა, რომელიც გამოიყენება Alignathon– ში და გამოიყენება mafTools პაკეტით 1. ამ მაჩვენებლებისთვის, გასწორება განიხილება, როგორც ექვივალენტობის ურთიერთობა. ჩვენ ვამბობთ, რომ შეყვანის გენომებში ორი პოზიცია ექვივალენტურია, თუ ისინი წარმოიშვებიან ერთიდაიგივე პოზიციიდან მათი უახლესი საერთო წინაპრის გენომში. ჩვენ აღვნიშნავთ იმით ყველა ეკვივალენტური პოზიციის წყვილის ნაკრები, რომლებიც მონაწილეობენ "ჭეშმარიტ" განლაგებაში. დაე აღნიშნავს თანაფარდობის ალგორითმის მიერ წარმოებულ ურთიერთობას. გასწორების სიზუსტე შემდეგ იხსენიება () = 1 − ∣ ∣ / ∣ ∣ და სიზუსტე () = 1 − ∣ ∣ / ∣ ∣, სადაც ⧹ აღნიშნავს მითითებულ განსხვავებას.

გაწვევის შესაფასებლად, ჩვენ შევადარეთ ჩვენი შედეგები ცილოვანი კოდირების გენების ანოტაციებს. ჩვენ ამოვიღეთ ყველა წყვილი ჰომოლოგიური ცილის კოდირების გენის თანმიმდევრობა ენსემბლიდან და შემდეგ გამოვთვალეთ მათ შორის წყვილი გლობალური განლაგება LAGAN 31-ის გამოყენებით. განლაგება შეიცავს როგორც ორთოლოგიურ, ასევე პარალოგენურ გენებს, თუმცა პარალოგენური წყვილების უმეტესობა მოდის კარგად ანოტირებული თაგვის საცნობარო გენომიდან. ჩვენ ამოვიღეთ პარალოგენური გენების წყვილი გადახურვის კოორდინატებით, რადგან ეს იყო სავარაუდო არასწორი ანოტაციები, რაც დადასტურებულია Ensembl helpdesk 32-ით. ჩვენ გავაფორმეთ ეს გაფილტრული განლაგებები, ისევე როგორც SibeliaZ– ის მიერ წარმოებული განლაგება, რომელიც ხელმისაწვდომია ჩვენი GitHub საცავიდან საჯაროდ ჩამოსატვირთად (იხილეთ სექცია „მონაცემთა ხელმისაწვდომობა“ ბმულებისთვის).

ჩვენ განვსაზღვრავთ განლაგების ნუკლეოტიდურ იდენტურობას, როგორც შესატყვისი ნუკლეოტიდების რაოდენობას გაყოფილი გასწორების სიგრძეზე, ხარვეზების ჩათვლით. ნუკლეოტიდური იდენტობების განაწილება, ასევე ანოტაციის გაშუქება ნაჩვენებია დამატებით ნახაზში 1. ჩვენს ანალიზში, ჩვენ დავადგინეთ გენების წყვილი მათი ნუკლეოტიდური იდენტობის მიხედვით.

ვინაიდან ცილის კოდირების გენები მხოლოდ გენომის მცირე ნაწილს საფრთხეს უქმნის, ჩვენ ასევე გამოვთვალეთ ყველა წყვილი ლოკალური განლაგება 1–2 და 1–4 გენომების 1 ქრომოსომებს შორის LASTZ 6– ის გამოყენებით, საიმედო ადგილობრივი მიმდევარი, რომელიც ცნობილია თავისი სიზუსტით. ჩვენ მხოლოდ გამოვთვალეთ განლაგება სხვადასხვა გენომის ქრომოსომებს შორის, ანუ, არ შედიოდა თვითგანლაგება, რაც გამორიცხავს დუბლირებას, როგორიცაა პარალოგენური გენები განლაგებიდან. ჩვენ გამოვიყენეთ LASTZ- ის ნაგულისხმევი პარამეტრები, გარდა იმისა, რომ ჩვენ გავაკეთეთ ნუკლეოტიდის იდენტობის გასწორება მინიმუმ 90%-ით. შემდეგ ჩვენ შევაფასეთ ჩვენი თანმიმდევრულობის გახსენება და სიზუსტე, მაგრამ შევზღუდეთ ჩვენი განლაგება ქრომოსომის 1 -ის თანმიმდევრობით. შემდეგ ჩვენ განვიხილეთ LASTZ- ის განლაგება, როგორც ძირითადი ჭეშმარიტება. LASTZ განლაგება შესაძლებელია გადმოტვირთოთ ჩვენი საცავის დამატებითი მონაცემების განყოფილებიდან. გაითვალისწინეთ, რომ ვინაიდან განლაგება წარმოდგენილია როგორც პოზიციების წყვილების ნაკრები, შესაძლებელია შეაფასოთ მთელი გენომის მრავალჯერადი განლაგება წყვილ-წყვილი ადგილობრივი განლაგების გამოყენებით.

სიზუსტის გასაზომად, ჩვენ ვიყენებთ LASTZ განლაგებებს ქრომოსომაზე 1. თუმცა, გამოთვლების სახით აკრძალულია LASTZ- თან ასეთი განლაგების გამოთვლა მთელი გენომისათვის. ამიტომ ჩვენ ასევე ვიყენებთ არაპირდაპირ გზას მთელი გენომის სიზუსტის შესაფასებლად. გასწორების თითოეული სვეტისთვის ჩვენ ვიანგარიშებთ ნუკლეოტიდების სხვაობათა საშუალო რაოდენობას 33. უკიდურესად მსგავსი გენომების განლაგებაში, რომელსაც აქვს მაღალი სიზუსტე, ჩვენ ველით, რომ ეს რიცხვები ქვემოთ (0 – ის ახლოს) იქნება განლაგების სვეტების უმეტესობისთვის. წინააღმდეგ შემთხვევაში, ის მიგვითითებს არასაიმედო ცუდად გასწორებული ბლოკების არსებობაზე განლაგებაში. ფორმალურად, მოცემულია სვეტი მთელი გენომის მრავალჯერადი განლაგებით მე მისი ყოფნა მეე ელემენტი, ნუკლეოტიდების განსხვავებების საშუალო რაოდენობა მოცემულია ( pi (c) = < sum> _ <1 le i le | c |> < sum> _, ჯ ლე | გ | > მე [_<,> e <,>_]/ დიდი ( დაწყება| გ | 2 დასასრულიᲓიდი)) . ცვლადი მე[მე] უდრის 1 -ს, თუ ორივე მე და არის განსხვავებული მოქმედი დნმ სიმბოლოები და 0 სხვაგვარად ∣ ∣ არის სვეტების რიგების რაოდენობა .

ჩვენ შევაფასეთ SibeliaZ– ის მოქმედება პროგრესული Cactus 34 – ის წინააღმდეგ, რომელიც განლაგებულია Cactus გრაფიკების 35 – ის ანალიზის საფუძველზე, რომელიც აგებულია წყვილთა განლაგებიდან. ჩვენ ასევე შევეცადეთ სიბელია 23 (SibeliaZ– ის წინამორბედი) და MultiZ + TBA 8 გავუშვათ, მაგრამ ეს შეიძლება დასრულდეს ერთ კვირაში თუნდაც თაგვის ერთ გენომზე. სხვა მრავალრიცხოვანმა მიმდევრებმა 9,10,16, რომლებიც შეფასებულია Alignathon– ში, ვერ უმკლავდება 20 ბუზის მონაცემთა ნაკრებებს და, შესაბამისად, ნაკლებად სავარაუდოა, რომ ძუძუმწოვრების მონაცემთა ნაკრებში დაიყვანოს. ჩვენ ასევე ვირჩევთ Mercator 14-ის გაშვებას, რადგან ის მოითხოვს გენის ეგზონების ერთობლიობას და, შესაბამისად, წყვეტს სხვა პრობლემას: ამ სტატიაში ჩვენ ყურადღებას ვაქცევთ მთლიანი გენომის განლაგებას უშუალოდ ნუკლეოტიდური თანმიმდევრობებიდან გარე ინფორმაციის გამოყენების გარეშე. დამატებითი დეტალები პარამეტრების, ვერსიებისა და ტექნიკის შესახებ მოცემულია დამატებით შენიშვნაში 1 და დამატებით ცხრილში 4.

გაშვებული დრო და მეხსიერება

SibeliaZ და Cactus გაშვებული დრო ნაჩვენებია ნახ. 3 -ში (დამატებითი ცხრილი 2 შეიცავს ნედლ მნიშვნელობებს). 2 თაგვისგან შემდგარ მონაცემთა ნაკრებში SibeliaZ 10 -ჯერ უფრო სწრაფია ვიდრე Cactus, ხოლო 4 თაგვზე SibeliaZ 20 -ჯერ უფრო სწრაფია. 8 და 16 თაგვის მქონე მონაცემთა ნაკრებებზე, SibeliaZ დასრულდა შესაბამისად 7 და 16 საათში, ხოლო Cactus არ დასრულებულა (ჩვენ ეს შევწყვიტეთ ერთი კვირის შემდეგ). SibeliaZ– ისთვის, ჩვენ აღვნიშნავთ, რომ სპოასთან გლობალური განლაგება იღებს 44–73% დროის ხანგრძლივობას და, ზოგიერთი პროგრამისთვის (მაგალითად, გადაწყობის ანალიზი), ეს ნაბიჯი შეიძლება შემდგომ გამოტოვდეს დროის დაზოგვის მიზნით. მეხსიერება ნაჩვენებია დამატებით ცხრილში 2. როდესაც მას შეუძლია შეავსოს, Cactus– ს აქვს მეხსიერების უკეთესი შესრულება ვიდრე SibeliaZ, თუმცა, ორივე ინსტრუმენტი მოითხოვს მეხსიერებას, რომელიც არის საუკეთესო თანამედროვე სერვერების დიაპაზონში, მაგრამ პერსონალური კომპიუტერების დიაპაზონის მიღმა.

თითოეული ბარი შეესაბამება მილსადენს. SibeliaZ ბარი გაყოფილია მისი კომპონენტების მიხედვით: სპოა (ლუქი შევსება), TwoPaCo (მყარი შევსება) და SibeliaZ-LCB (ცარიელი შევსება). Cactus არ არის ნაჩვენები მონაცემთა ნაკრებში 1–8 და 1–16, რადგან ის არ დასრულებულა. ჩვენ თითოეული ექსპერიმენტისთვის გამოვიყენეთ 32 ძაფი.

სიზუსტე

მე –2 და მე –3 ცხრილებში ჩვენ ვაჩვენებთ SibeliaZ– ის და Cactus– ის მიერ ნაპოვნი განლაგების თვისებებს. გახსენების გამოსათვლელად, ჩვენ გამოვიყენეთ მხოლოდ ნუკლეოტიდები გენური წყვილებიდან, რომლებსაც აქვთ ანოტაციაში მინიმუმ 90% იდენტობა. იმ მონაცემთა ნაკრებებისათვის, სადაც კაქტუსმა შეძლო შევსება, სიბელია Z– ს ჰქონდა მსგავსი ანალოგი ორთოლოგიურ წყვილებზე. ჩვენ არ შევაფასეთ Cactus– ის პარალოგების შედეგები, რადგან ის ევრისტიკულად ფილტრავს პარალოგენურ განლაგებებს 34, როგორც მისი მილსადენის ნაწილს. SibeliaZ– ის გახსენება მხოლოდ ოდნავ მცირდება 16 თაგვის მონაცემთა ნაკრებში, რაც მიუთითებს იმაზე, რომ გაწვევა მასშტაბდება გენომების რაოდენობით.

ჩვენ ასევე გავზომოთ დაფარვა, რაც არის გენომის თანმიმდევრობის პროცენტი, რომელიც შედის განლაგებაში. ორივე ინსტრუმენტის დაფარვა დაახლოებით იგივეა, მაგრამ SibeliaZ– ს აქვს მხოლოდ ბლოკების ნახევარი. ინსტრუმენტების მიერ წარმოებული ბლოკების სხვადასხვა რაოდენობა, სავარაუდოდ, გამომავალი ფორმატირების განსხვავებული მიდგომების შედეგია. მთელი გენომის მრავალჯერადი განლაგების წარმოდგენა ორაზროვანია და ერთი და იგივე განტოლება შეიძლება დაფორმატდეს სხვადასხვა, მაგრამ მათემატიკურად ექვივალენტურ ფორმებში, რომლებიც განსხვავდება რიცხვითი ბლოკების მიხედვით.

ჩვენ შემდგომ ვიკვლევთ, თუ როგორ მოიხსენია ნუკლეოტიდის იდენტობის ფუნქცია, ორი და ოთხი თაგვის მონაცემთა ნაკრებისთვის (სურ. 4). როგორც მოსალოდნელი იყო, გახსენება მცირდება ნუკლეოტიდური იდენტურობით, თუმცა სიბელია Z– ის გაწვევა 90% –ზე მაღლა რჩება ნუკლეოტიდებზე მსგავსი (80–100% იდენტურობის) ორთოლოგიური გენებიდან.Cactus– ს აქვს ოდნავ უკეთესი გახსენება ორი თაგვის მონაცემთა ნაკრებში ქვედა იდენტობის ორთოლოგიურ გენებში. ჩვენ აღვნიშნავთ, რომ გენის ანოტაცია შეიქმნა 12 Cactus– ის მიერ წარმოებული გასწორების გამოყენებით, რომელიც შემდგომ დამუშავდა ანოტაციის პროგრამით CAT 36. ამ ფაქტმა შესაძლოა კაკტუსს მცირე უპირატესობა მიანიჭოს ამ შედარებაში და ახსნას რატომ აქვს კაქტუსს ოდნავ უკეთესი გახსენება. ორთოლოგიური გენური წყვილების გახსენება რჩება თანმიმდევრული ორივე და ოთხი თაგვის მონაცემთა ნაკრებში ორივე მონაცემთა ნაკრებისთვის.

პანელები აჩვენებენ ორთოლოგის გახსენებას () და პარალოლოგიური () ნუკლეოტიდური წყვილი ანოტაციაში შესაბამისი გენების ნუკლეოტიდური იდენტობის მიხედვით. Cactus– ის მიერ პარალოგების გახსენება ნაჩვენები არ არის (იხ. ტექსტი).

ამავდროულად, ჩვენ დავაკვირდით გაცილებით ნაკლებად თანმიმდევრულ სურათს გენების პარალოგენური წყვილებისთვის. მაგალითად, SibeliaZ– მა შეძლო აღედგინა პარალოლოგიური ბაზის წყვილების თითქმის 90%, რომლებიც მიეკუთვნებოდა ნუკლეოტიდური იდენტობის გენის წყვილებს 90%, მაგრამ აღმოაჩინა 80% იდენტობის გენი წყვილების ფუძე წყვილების 45% –ზე ნაკლები.

სიზუსტისა და გაწვევის შედეგები, რომელიც იზომება LASTZ- ის განლაგებასთან დაკავშირებით, ნაჩვენებია დამატებით ცხრილში 3. ორი გენომისგან შემდგარ მონაცემთა ნაკრებში, Cactus– ს ჰქონდა ოდნავ მაღალი გამოძახება 0.97 წინააღმდეგ SibeliaZ– ის 0.95 – ის წინააღმდეგ. მეორეს მხრივ, SibeliaZ– ს უკეთესი სიზუსტე ჰქონდა: 0.93 კაქტუსის 0.89 წინააღმდეგ. ოთხი გენომით, SibeliaZ– მა შეინარჩუნა 0.95, ხოლო Cactus– ის გამოყვანა 0.92 – მდე. ამ მონაცემთა ბაზაზე SibeliaZ– ს ასევე ჰქონდა უფრო მაღალი სიზუსტე: შესაბამისად 0.96 და 0.90. საერთო ჯამში, ეს რიცხვები აჩვენებს, რომ SibeliaZ და Cactus- ის გასწორების სიზუსტე მსგავსია.

დაბოლოს, ვინაიდან ჩვენ ვერ შევაფასეთ გენომის მასშტაბის სიზუსტე, ჩვენ ვიყენებთ ნუკლეოტიდური განსხვავებების საშუალო რაოდენობის პროქსს გასწორების სვეტებისთვის (დამატებითი სურათი 2). SibeliaZ– ის განლაგებას აქვს მსგავსების მაღალი ხარისხი: გასწორების სვეტების 95% –ზე მეტს აქვს π() ≤ 0.1, რაც ჩვენ მოველით მჭიდროდ დაკავშირებული გენომების გასწორებისგან. Cactus– ს აქვს ოდნავ დაბალი პროცენტული მსგავსებათა სვეტები, რაც შეიძლება უბრალოდ მიუთითებდეს იმაზე, რომ ის პოულობს უფრო მეტ ბლოკს უფრო მაღალი დივერგენციით.

ჩვენ აღვნიშნავთ, რომ ამ განყოფილების შედეგები ერთდროულად აფასებს SibeliaZ-LCB და სპოის სიზუსტეს, თუმცა, ვინაიდან SibeliaZ მიზნად ისახავს მჭიდროდ დაკავშირებულ გენომებს, ჩვენ ველით, რომ გლობალური გასწორების პროცედურა უმნიშვნელო გავლენას მოახდენს სიზუსტეზე. ეს გამოწვეულია იმით, რომ მსგავსი თანმიმდევრობის გლობალური განლაგება, სავარაუდოდ, ერთმნიშვნელოვანია ჰომოლოგიურ ნუკლეოტიდებზე და ძლიერია სხვადასხვა ალგორითმებთან და მათ პარამეტრებთან მიმართებაში.

შედეგები სიმულაციურ მონაცემებზე

გარდა რეალური მონაცემებისა, ჩვენ შევაფასეთ სხვადასხვა გენომის მიმდევრების შესრულება უფრო დიდ სიმულაციურ მონაცემთა ნაკრებზე მცირე გენომური განსხვავებით, სახელწოდებით "პრიმატები". 1 ამ მონაცემთა ნაკრებში, ფილოგენეტიკურ ხეში ფესვიდან ფოთლებამდე მანძილი უდრის 0.02 შემცვლელს ერთ ადგილზე. მონაცემთა ნაკრებს აქვს ოთხი გენომი, თითოეული ოთხი ქრომოსომით და თითოეული გენომი არის დაახლოებით 185 Mbp ზომის. ჩვენ არ გამოვიყენეთ სხვა იმიტირებული მონაცემთა ნაკრები ref. 1 მას შემდეგ, რაც მისი განსხვავება დაახლოებით 0.4 შემცვლელების მიხედვით ერთ ადგილზე არ არის SibeliaZ– ის სამიზნე დიაპაზონის მიღმა.

ამ მონაცემთა ბაზაზე, SibeliaZ მილსადენი იყო 20 -ჯერ უფრო სწრაფი ვიდრე Cactus და მოიხმარდა 2.5 -ჯერ ნაკლებ მეხსიერებას: SibeliaZ– მა დაასრულა 18 წუთი 7 GB გბ მეხსიერების გამოყენებით, ხოლო Cactus– ს დასჭირდა 363 წუთი და გამოიყენა 18 GB მეხსიერება. სიბელიამ და მულტიზმა ვერ შეძლეს ერთი კვირის განმავლობაში "პრიმატების" მონაცემთა ნაკრების დასრულება. ცხრილი 4 ასახავს SibeliaZ- ისა და Cactus- ის მიერ ამ მონაცემთა ნაკრებში გამოტანილი გაწვევისა და სიზუსტის მნიშვნელობებს. SibeliaZ– მა გამოავლინა 95% და სიზუსტე 92%, ხოლო Cactus– ს ჰქონდა 98% გამოძახება და 95% სიზუსტე. ჩვენ აღვნიშნავთ, რომ რეფ. 1, ამ მონაცემთა ნაკრების გამოყენებით გამოთვლილი სიზუსტის მნიშვნელობები შეიძლება ჩაითვალოს ქვედა საზღვრებად სიმულაციური პროცესის მახასიათებლების გამო. კერძოდ, ამ მონაცემთა ნაკრების ძირითადი ჭეშმარიტება, სავარაუდოდ, გამოტოვებს ზოგიერთ განმეორებით განლაგებას, ამიტომ ჩვენ მიგვაჩნია, რომ SibeliaZ– ის დაბალი სიზუსტის მნიშვნელობები შეიძლება სწორედ ამ მიზეზით იყოს განპირობებული.

გენის ოჯახები

ჩვენ გვსურს კიდევ გავიგოთ სიბელიაზ -ის უნარი გაიხსენოს ჰომოლოგიური ნუკლეოტიდები დიდი გენის ოჯახებიდან. მრავალი ასლის მქონე გენების განლაგება რთული ამოცანაა, რადგან ისინი წარმოქმნიან ჩახლართულ დე ბრუინის გრაფიკს. გამოსაძიებლად, ჩვენ ავიღეთ გენების თითოეული წყვილი ორ თაგვის მონაცემთა ნაკრებში, რომლებსაც აქვთ 90% -ზე მეტი ნუკლეოტიდური იდენტობა. შემდეგ ჩვენ გამოვყოფთ ნებისმიერ სხვა ჰომოლოგიურ გენს, რომელსაც აქვს ნუკლეოტიდური იდენტურობა მინიმუმ 90% წყვილის ერთ – ერთ გენზე. ჩვენ ვგულისხმობთ ისეთი გენების რაოდენობას, როგორიცაა გენური წყვილის დასკვნითი ოჯახის ზომა, რაც ბიოლოგიურად უხეშად შეესაბამება გენის ოჯახის ზომას. დამატებითი სურათი 3 გვიჩვენებს ნუკლეოტიდური წყვილების გახსენებას მათი შესაბამისი გენების ოჯახის ზომების მიხედვით. გაწვევა აჩვენებს უამრავ განსხვავებას დასკვნითი ოჯახის ზომასთან მიმართებაში, მაგრამ აჩვენებს ოჯახის შემცირების ზოგად ტენდენციას. უმსხვილესი ურნა (58 ოჯახიანი ზომებით) შეესაბამება Y ქრომოსომაში არსებულ ერთ დიდ გენის ოჯახს (PTHR19368) და რეალურად აქვს შედარებით მაღალი გაწვევა.

ეს ექსპერიმენტი აჩვენებს, რომ გრძელი გენომების თუნდაც ძალიან მსგავსი ჰომოლოგიური თანმიმდევრობის ყველა ასლის პოვნა შეიძლება იყოს რთული ამოცანა. უფრო მეტიც, ჩვენ მიერ დაკვირვებული მაღალი ცვალებადობა მიუთითებს იმაზე, რომ ეს გამოწვევა არ შეიძლება შემცირდეს ერთ ფაქტორად, როგორიც არის ოჯახის ზომა. ცრუ ნეგატივების ხელით შემოწმება ვარაუდობს, რომ გაწვევის ვარდნა შეიძლება გამოწვეული იყოს დაუგეგმავი გამეორებების რთული ქვესტრუქტურით, რომლებიც წარმოქმნიან ჩახლართულ გრაფურ სტრუქტურებს.

პარამეტრების ეფექტი და თანმიმდევრობის განსხვავება

SibeliaZ-LCB აქვს ოთხი ძირითადი პარამეტრი, რომელიც გავლენას ახდენს მის შესრულებაზე. ყველაზე კრიტიკული დამოკიდებულება არის a- ს ზომაზე -მერი (ანუ ) და ბუშტის მაქსიმალური დასაშვები სიგრძე რა მოცემული მიმდევრობის დივერგენციისთვის, მანძილი გაზიარებულებს შორის ჰომოლოგიურ რეგიონებში ბუშტუკების წარმოქმნის მერი იზრდება რა ამავე დროს, ბუშტის მაქსიმალური დასაშვები სიგრძეა რა თუ მანძილი აღემატება , მაშინ SibeliaZ– მა შეიძლება ვერ შეძლოს ამგვარი რეგიონების გამოვლენა და გამოიწვიოს ქვედა გამოძახება. ამ სიტუაციის თავიდან ასაცილებლად, ჩვენ შეგვიძლია ან შემცირება ან გაზრდა რა მცირდება სასურველია წერტილამდე, მაგრამ როდის ხდება ძალიან დაბალი, დე ბრუინის გრაფიკი ჩახლართულია და ჩვენი ალგორითმი უფრო მეტ დროს და მეხსიერებას მოითხოვს. იზრდება შეიძლება გაკეთდეს, მაგრამ ერთდროულად ზრდის დასაშვებ მანძილს, რაც იწვევს სიზუსტის შემცირებას.

გადაჭარბებული განლაგება არის არაჰომოლოგიური თანმიმდევრობის ერთ ბლოკში გაერთიანების პრობლემა, რომელიც მჭიდროდაა დაკავშირებული დაბალი სიზუსტით 37. ჩვენს შემთხვევაში, თქვენ შეგიძლიათ აკონტროლოთ გადაჭარბებული განლაგება, შეხედეთ მას π(), როგორც ჩვენ გავაკეთეთ ჩვენს ანალიზში (დამატებითი სურათი 2). უფრო მაღალი ქულა მიუთითებს იმაზე, რომ უფრო განსხვავებული თანმიმდევრობა შედის ბლოკში. თუ მომხმარებლის მიერ განსხვავება ძალიან მაღალია, რეკომენდებულია მისი შემცირება .

ამ რთული ურთიერთკავშირის შესასწავლად და და მისი კავშირი მიმდევრობის განსხვავებასთან, ჩვენ გამოვიყენეთ სიმულაციები (დამატებითი შენიშვნა 2) სხვადასხვა კომბინაციებში შეხსენების (დამატებითი სურათი 4) და სიზუსტის (დამატებითი სურათი 5) გასაზომად. როგორც ვარაუდობდნენ, გახსენება მცირდება და გაზრდით და სიზუსტე მცირდება გაზრდით რა ჩვენ აღვნიშნავთ, რომ სიზუსტე ოდნავ განსხვავდება და რჩება მაღალი. ამ ანალიზის საფუძველზე, ჩვენ გირჩევთ ორ მნიშვნელობას პრაქტიკული გამოყენებისთვის. ნაკლებად რთული ორგანიზმებისთვის (მაგალითად, ბაქტერიები), ჩვენ გირჩევთ = 15, ვინაიდან ის იძლევა ყველაზე მაღალ გაწვევას. ეს მნიშვნელობა არაპრაქტიკულია რთული ორგანიზმებისთვის (მაგალითად, ძუძუმწოვრებისთვის) გაშვების გამო, ამიტომ ჩვენ გირჩევთ დაყენებას = 25 იმ შემთხვევებში, რადგან ის უზრუნველყოფს გონივრულ კომპრომისს სიზუსტესა და გამოთვლილ რესურსებს შორის (ჩვენ ვიყენებდით ამას ჩვენი თაგვების მონაცემთა ნაკრებისთვის). ღირებულებისათვის , ჩვენ შევამჩნიეთ, რომ იზრდება ამცირებს სიზუსტეს მხოლოდ უფრო მაღალ მნიშვნელობებზე. ამიტომ, ჩვენ გირჩევთ = 200 როგორც ნაგულისხმევი ყველა შემთხვევაში, რადგან ამან გამოიწვია მაღალი გაწვევა ყველა შემოწმებულ დიაპაზონში ჩვენს სიმულაციურ მონაცემებზე სიზუსტის შემცირების გარეშე.

დივერგენციის დონის შესამოწმებლად, რომელსაც SibeliaZ-LCB შეუძლია მოითმინოს, ჩვენ ავიღეთ ნაგულისხმევი მნიშვნელობები = 15 ან 25 და = 200 და ასახავს სიზუსტის წინააღმდეგ გაწვევის მრუდს, როგორც მონაცემთა ნაკრების ფესვიდან ფოთოლზე განსხვავების ფუნქცია (დამატებითი სურათი 6). ჩვენ ამას ვხედავთ ამისთვის = 25 გახსენება მნიშვნელოვნად გაუარესდება მონაცემთა ნაკრებებისათვის, რომელთა ფესვიდან ფოთოლამდე ევოლუციური მანძილი 0.09-ზე მეტი შემცვლელია ერთ საიტზე. ამის საფუძველზე, ჩვენ გირჩევთ, რომ დიდი მონაცემთა ნაკრებებისათვის SibeliaZ-LCB გამოყენებულ იქნას მხოლოდ ჰომოლოგების გამოვლენისათვის MRCA– მდე ევოლუციური მანძილით, არაუმეტეს 0.09 შემცვლელისა ერთ ადგილზე.

დანარჩენი ორი პარამეტრი, რომლებმაც შეიძლება გავლენა მოახდინონ SibeliaZ-LCB– ის მუშაობაზე არის ლოკალური კოლინარული ბლოკის მინიმალური ზომა. და სიმრავლის pruning პარამეტრი რა ეს პარამეტრები უნდა დადგინდეს მონაცემთა ტიპისა და მისი დანიშნულებისამებრ. პარამეტრი აკონტროლებს გასწორების ფრაგმენტაციას და დაფარვას - უფრო მაღალი იწვევს უფრო დიდ ბლოკებს, რომლებიც მოიცავს გენომებს, ვინაიდან მოკლე ბლოკები არ არის მოხსენებული. ჩვენ გირჩევთ პარამეტრს უნდა განისაზღვროს უმოკლეს ჰომოლოგის მიმდევრობის სიგრძეზე, რომელიც ინტერესდება ქვემოთ მოცემულ ანალიზში. ჩვენ დავაყენეთ = 50 როგორც ნაგულისხმევი, ვინაიდან ეს არის ცნობილი თაგვების 93.1% –ზე ნაკლები ეგზონ 38 და, საერთოდ, ჩვენ არ ველოდებით, რომ პროგრამების უმეტესობა დაინტერესდება 50 ნტ -ზე მოკლე ბლოკებით. იმ შემთხვევაში, როდესაც მომხმარებელი დაინტერესებულია უფრო დიდი ჰომოლოგიური ერთეულებით, ისინი შეიძლება გაიზარდოს ერთად რა ალტერნატიულად, მათ შეუძლიათ გამოიყენონ სინთეტიკური ბლოკის წარმოქმნა ან თანაბარი ალგორითმები SibeliaZ– ის მიერ წარმოებული განლაგების შემდგომი დამუშავებისთვის (იხ. დამატებითი შენიშვნა 3 შესაბამისი ცნობებისთვის).

სიმრავლის pruning პარამეტრი არის ფილტრაციის პარამეტრი -მერი, რომელთა სიმრავლე ზემოთ არის რა ისეთი -მერი ჯერ კიდევ განიხილება SibeliaZ-LCB- ს მიერ, მაგრამ უფრო მცირე ზომით, რის შედეგადაც შემცირდა გაწვევა რეგიონებში -მერები. ჩვენ გირჩევთ დაყენებას იმდენად მაღალი, რამდენადაც გამოთვლითი რესურსები იძლევა საშუალებას, გავითვალისწინოთ, რომ ჰომოლოგიური ბლოკები მრავლობითზე მაღალია შესაძლოა არ დაიჭირონ. თაგვების მონაცემთა ნაკრებისთვის ჩვენ გამოვიყენეთ = 150.


მთლიანი გენომის განლაგება და შედარებითი ანოტაცია

თანმიმდევრობის ტექნოლოგიის სწრაფად გაუმჯობესება, თანმიმდევრული შეკრების გამოთვლილ განვითარებასთან ერთად, ეკონომიკური ხდის საცნობარო ხარისხის გენომის შეკრებას. ასობით ხერხემლიანთა გენომის ასამბლეა უკვე საჯაროდ ხელმისაწვდომია და პროექტები შემოთავაზებულია მომდევნო რამდენიმე წლის განმავლობაში ათასობით დამატებითი სახეობის თანმიმდევრობით. სიცოცხლის ხის ასეთი მკვრივი შერჩევა უნდა მისცეს ევოლუციის უპრეცედენტო ახალი გაგება და საშუალებას მოგვცემს დეტალურად განვსაზღვროთ მოვლენები, რამაც გამოიწვია ჩვენს გარშემო არსებული ბიომრავალფეროვნების სიმდიდრე. ამ ცოდნის მოსაპოვებლად, ეს ახალი გენომები უნდა შევადაროთ გენომის გასწორებას (თანმიმდევრობის დონეზე) და შედარებითი ანოტაციით (გენის დონეზე). თუმცა, განლაგების და ანოტაციის სხვადასხვა მეთოდს განსხვავებული მახასიათებლები აქვს გენომიკური შედარებითი ანალიზის დაწყებამდე, მნიშვნელოვანია არჩეული მეთოდების ბუნებისა და მიკერძოებულობისა და შეზღუდვების გაგება. ეს მიმოხილვა მიზნად ისახავს იმ სფეროს ტექნიკურ, მაგრამ მაღალი დონის მიმოხილვას, რომელმაც უნდა უზრუნველყოს ეს გაგება. ჩვენ მოკლედ ვიკვლევთ გენომის განლაგების მდგომარეობას და შედარებითი ანოტაციის სფეროებს და ამ სფეროების პოტენციურ მომავალ მიმართულებებს შედარებითი გენომიკის ახალ, ფართომასშტაბიან ეპოქაში.


გამეორება მნიშვნელოვნად აისახება უწყვეტობაზე

ჩვენი ავტომატიზირებული მილსადენის გამოყენებით (გაფართოებული მონაცემები ნახ. 3 ა) ხელით კურირებამდე წარმოებული შეკრებებისათვის, 17 -დან 2 -მდე (ეკლიანი სკეიტი და არხის ხარი) გადააჭარბა სასურველ უწყვეტობის მეტრიკას (დამატებითი ცხრილი 13). ამ შედეგების ახსნის ძებნისას აღმოვაჩინეთ, რომ კონტიგენტი NG50 ექსპონენტურად შემცირდა განმეორებითი შინაარსის მატებასთან ერთად, ეკლიან სკეიტს აქვს ყველაზე მაღალი განმეორებითი შინაარსი (სურ. 2 ბ, დამატებითი ცხრილი 13). შესაბამისად, ხარაჩოების და უფსკრული შევსების შემდეგ, ჩვენ დავინახეთ მნიშვნელოვანი დადებითი კორელაცია განმეორებით შინაარსსა და ხარვეზების რაოდენობას შორის (სურ. 2 გ). კაკუპა თუთიყუშს, რომელსაც 15% განმეორებითი შემცველობა ჰქონდა, ჰქონდა დაახლოებით 325 ხარვეზი თითო Gb- ში, მათ შორის 26 ქრომოსომადან 2 უფსკრული (ქრომოსომა 16 და 18) და ჩამონგრევის ან დაბალი მხარდაჭერის მტკიცებულება, რაც იმაზე მეტყველებს, რომ ქრომოსომული შენაერთები დასრულებულია (bStrHab1 დამატებით ცხრილში 6). ამის საპირისპიროდ, ეკლიან სკეიტს, 54% განმეორებითი შინაარსით, ჰქონდა დაახლოებით 1,400 ხარვეზი თითო Gb- ზე (გაფართოებული მონაცემების ცხრილი 1) მისი 49 ქრომოსომული დონის არც ერთი ხარაჩო არ შეიცავდა რვაზე ნაკლებ ხარვეზს და ყველა მათგანს ჰქონდა რამდენიმე რეგიონი, რომელიც იშლებოდა ან დაბალი მხარდაჭერა იყო. (sAmbRad1 დამატებით ცხრილში 6). კურაციისა და შეკრების ხარისხის გაზრდის სხვა მოდიფიკაციის შემდეგაც კი (დამატებითი შენიშვნა 2), ჩამონგრევის რაოდენობა, მათი საერთო ზომა, დაკარგული ბაზები და კოლაფსში არსებული გენების რაოდენობა, რაც დაკავშირებულია განმეორებით შინაარსთან (გაფართოებული მონაცემები, ნახ. 4 ა – დ) რა საშუალო ჩამონგრეული სიგრძე, თუმცა, კორელაციაშია საშუალო CLR წაკითხვის სიგრძესთან (10–35 კბ გაფართოებული მონაცემები სურ. 4 ე). არ იყო კორელაცია ჩამონგრეული ფუძეების რაოდენობასა და ჰეტეროზიგოზურობასა და გენომის ზომას შორის (გაფართოებული მონაცემები სურ. 4f, g). სახეობების მიხედვით, ჩამონგრეული რეგიონების 77,4 დან 99,2% შედგებოდა გადაუჭრელი სეგმენტური დუბლირებისგან (გაფართოებული მონაცემები სურ. 4 სთ). დანარჩენი იყო უმეტესი ასლის გამეორება, ძირითადად ადრე უცნობი ტიპის (გაფართოებული მონაცემები სურ. 4i) და ცნობილი ტიპები, როგორიცაა სატელიტური მასივები, მარტივი გამეორება, გრძელი ტერმინალური გამეორება (LTRs) და მოკლე და გრძელი ინტერვერსიული ბირთვული ელემენტები (SINE და LINEs), დამოკიდებულია სახეობებზე (გაფართოებული მონაცემები სურ. 4j). ჩვენ აღმოვაჩინეთ, რომ კონფიგურაციის წარმოქმნამდე განმეორებით ნიღბამ ხელი შეუშალა ზოგიერთ განმეორებას საბოლოო შეკრებაში (დამატებითი შენიშვნა 3). ყველა ზემოაღნიშნული დასკვნა რაოდენობრივად აჩვენებს იმ ეფექტს, რომელსაც განმეორებითი შინაარსი ახდენს უაღრესად უწყვეტი და სრული შეკრების წარმოქმნის უნარზე.


შინაარსი

თუ ორი თანმიმდევრობა იზიარებს საერთო წინაპარს, შეუსაბამობა შეიძლება განიმარტოს, როგორც წერტილოვანი მუტაციები და უფსკრული, როგორც ინდელები (ანუ ჩასმა ან წაშლა მუტაციები), რომლებიც შემოღებულია ერთ ან ორივე შთამომავლობაში იმ დროიდან, როდესაც ისინი ერთმანეთისგან განსხვავდებიან. ცილების თანმიმდევრულ განლაგებაში, ამინომჟავებს შორის მსგავსების ხარისხი, რომლებიც იკავებენ მიმდევრობის კონკრეტულ პოზიციას, შეიძლება განიმარტოს, როგორც უხეში საზომი იმისა, თუ რამდენად არის დაცული კონკრეტული რეგიონი ან მიმდევრობის მოტივი შთამომავლებს შორის. ჩანაცვლების არარსებობა, ან მხოლოდ ძალიან კონსერვატიული შემცვლელების არსებობა (ანუ ამინომჟავების ჩანაცვლება, რომელთა გვერდითი ჯაჭვები მსგავსი ბიოქიმიური თვისებებით გამოირჩევა) მიმდევრობის კონკრეტულ რეგიონში, მეტყველებს [3], რომ ამ რეგიონს აქვს სტრუქტურული ან ფუნქციური მნიშვნელობა. რა მიუხედავად იმისა, რომ დნმ და რნმ ნუკლეოტიდური ფუძეები უფრო ჰგავს ერთმანეთს, ვიდრე ამინომჟავები, ფუძე წყვილების კონსერვაცია შეიძლება მიუთითებდეს მსგავს ფუნქციურ თუ სტრუქტურულ როლზე.

ძალიან მოკლე ან ძალიან მსგავსი თანმიმდევრობა შეიძლება ხელით გასწორდეს. თუმცა, ყველაზე საინტერესო პრობლემები მოითხოვს გრძელი, უაღრესად ცვალებადი ან უკიდურესად მრავალრიცხოვანი თანმიმდევრობების გასწორებას, რომლებიც არ შეიძლება განლაგდეს მხოლოდ ადამიანის ძალისხმევით. ამის ნაცვლად, ადამიანის ცოდნა გამოიყენება ალგორითმების შესაქმნელად მაღალი ხარისხის თანმიმდევრობის შესაქმნელად და ზოგჯერ საბოლოო შედეგების მორგებაში იმ შაბლონების ასახვისათვის, რომლებიც ძნელია წარმოადგინონ ალგორითმულად (განსაკუთრებით ნუკლეოტიდური თანმიმდევრობის შემთხვევაში). თანმიმდევრობის გასწორების გამოთვლითი მიდგომები ზოგადად ორ კატეგორიად იყოფა: გლობალური განლაგება და ადგილობრივი განლაგებარა გლობალური განლაგების გაანგარიშება არის გლობალური ოპტიმიზაციის ფორმა, რომელიც "აიძულებს" განლაგებას, მოიცვას მოთხოვნის ყველა თანმიმდევრობის მთელი სიგრძე. ამის საპირისპიროდ, ადგილობრივი განლაგებები განსაზღვრავს მსგავსების რეგიონებს გრძელი თანმიმდევრობით, რომლებიც ხშირად ფართოდ განსხვავდება საერთო ჯამში. ადგილობრივი განლაგება ხშირად სასურველია, მაგრამ მათი გაანგარიშება უფრო რთული იქნება მსგავსების რეგიონების გამოვლენის დამატებითი გამოწვევის გამო. [4] რიგი გამოთვლითი ალგორითმები გამოყენებულია მიმდევრობის გასწორების პრობლემის მიმართ. ეს მოიცავს ნელ, მაგრამ ფორმალურად სწორ მეთოდებს, როგორიცაა დინამიური პროგრამირება. ეს ასევე მოიცავს ეფექტურ, ევრისტიკულ ალგორითმებს ან სავარაუდო მეთოდებს, რომლებიც განკუთვნილია მონაცემთა ბაზის ფართომასშტაბიანი ძიებისთვის, რაც არ იძლევა გარანტიას საუკეთესო შესატყვისების პოვნაზე.

განლაგებები ჩვეულებრივ წარმოდგენილია როგორც გრაფიკულად, ასევე ტექსტის ფორმატში. თითქმის ყველა მიმდევრობის გასწორების წარმოდგენაში, თანმიმდევრობა იწერება რიგებში ისე, რომ თანმიმდევრული სვეტები გამოჩნდეს თანმიმდევრულ სვეტებში. ტექსტის ფორმატებში, იდენტური ან მსგავსი სიმბოლოების შემცველი სვეტები მითითებულია კონსერვაციის სიმბოლოების სისტემით. როგორც ზემოთ მოცემულ სურათზე, ვარსკვლავის ან მილის სიმბოლო გამოიყენება ორ სვეტს შორის იდენტურობის საჩვენებლად, სხვა ნაკლებად გავრცელებული სიმბოლოები მოიცავს კონსერვატიულ შემცვლელ მსხვილ ნაწლავს და ნახევარკონსერვატიული შემცვლელების პერიოდს. მრავალი თანმიმდევრობის ვიზუალიზაციის პროგრამა ასევე იყენებს ფერს, რათა აჩვენოს ინფორმაცია ცალკეული მიმდევრობის ელემენტების თვისებების შესახებ დნმ და რნმ თანმიმდევრობებში, რაც უდრის თითოეულ ნუკლეოტიდს მისცეს თავისი ფერი. ცილების განლაგებაში, როგორიცაა ზემოთ მოცემულ სურათზე, ფერი ხშირად გამოიყენება ამინომჟავის თვისებების აღსაწერად, რაც ხელს უწყობს მოცემული ამინომჟავის შემცვლელის კონსერვაციის შეფასებას. მრავალჯერადი თანმიმდევრობისთვის, ბოლო სტრიქონი თითოეულ სვეტში ხშირად არის თანმიმდევრული თანმიმდევრობა, რომელიც განისაზღვრება თანმიმდევრობით, თანმიმდევრული თანმიმდევრობა ასევე ხშირად არის გრაფიკული ფორმატით მიმდევრობის ლოგოთი, რომელშიც თითოეული ნუკლეოტიდის ან ამინომჟავის ასოს ზომა შეესაბამება მის შენარჩუნების ხარისხს. [5]

თანმიმდევრობის განლაგება შეიძლება შენახული იყოს ტექსტზე დაფუძნებული ფაილების მრავალფეროვან ფორმატში, რომელთაგან ბევრი თავდაპირველად შემუშავებულია სპეციფიკური გასწორების პროგრამასთან ან განხორციელებასთან ერთად. ვებზე დაფუძნებული ინსტრუმენტების უმეტესობა იძლევა შეზღუდული რაოდენობის შეყვანის და გამომავალი ფორმატების, როგორიცაა FASTA ფორმატი და GenBank ფორმატი და გამომავალი არ არის ადვილად რედაქტირებადი. რამდენიმე კონვერტაციის პროგრამა, რომელიც უზრუნველყოფს გრაფიკულ და/ან ბრძანების ხაზის ინტერფეისებს, ხელმისაწვდომია [ მკვდარი ბმული ], როგორიცაა READSEQ და EMBOSS. ასევე არსებობს რამდენიმე პროგრამული პაკეტი, რომელიც უზრუნველყოფს ამ კონვერტაციის ფუნქციონირებას, როგორიცაა BioPython, BioRuby და BioPerl. SAM/BAM ფაილები იყენებენ CIGAR (Compact Idiosyncratic Gapped Alignment Report) სტრიქონის ფორმატს, რათა წარმოადგინონ მიმდევრობის თანხვედრა მითითებაზე მოვლენების თანმიმდევრობის კოდირებით (მაგ. მატჩი/შეუსაბამობა, ჩასმა, წაშლა). [6]

სიგარის ფორმატის რედაქტირება

შენიშვნა : GTCGTAGAATA
წაიკითხეთ: CACGTAG — TA
სიგარეტი: 2S5M2D2M სადაც:
2S = 2 რბილი დაჭრა (შეიძლება იყოს შეუსაბამობა, ან წაკითხული უფრო გრძელი ვიდრე შესატყვისი თანმიმდევრობა)
5M = 5 მატჩი ან შეუსაბამობა
2D = 2 წაშლა
2M = 2 შესატყვისი ან შეუსაბამობა

CIGAR- ის ორიგინალური ფორმატი განთავისუფლებული პროგრამისგან არ განასხვავებდა M სიმბოლოს შეუსაბამობას ან მატჩებს შორის.

SAMv1 სპეციფიკური დოკუმენტი განსაზღვრავს სიგარეტის ახალ კოდებს. უმეტეს შემთხვევაში სასურველია გამოიყენოს '=' და 'X' სიმბოლოები მატჩების ან შეუსაბამობების აღსანიშნავად და არა ძველი 'M' სიმბოლო, რაც ორაზროვანია.

  • "მოიხმარს მოთხოვნას" და "მოიხმარს მითითებას" მიუთითებს იმაზე, იწვევს თუ არა CIGAR ოპერაცია შეთანხმების თანმიმდევრობით და შესაბამისად მითითების თანმიმდევრობით ნაბიჯების გადადგმას.
  • H შეიძლება იყოს მხოლოდ პირველი და/ან ბოლო ოპერაციის სახით.
  • S- ს შეიძლება ჰქონდეს მხოლოდ H ოპერაციები მათსა და CIGAR სტრიქონის ბოლოებს შორის.
  • MRNA- გენომთან შესაბამისობისთვის N ოპერაცია წარმოადგენს ინტრონს. სხვა ტიპის განლაგებისათვის N– ის ინტერპრეტაცია განსაზღვრული არ არის.
  • M/I/S/=/X ოპერაციების სიგრძეების ჯამი უდრის SEQ– ის სიგრძეს

გლობალური განლაგება, რომელიც ცდილობს ყველა ნარჩენი ყველა თანმიმდევრობით გაათანაბროს, ყველაზე სასარგებლოა მაშინ, როდესაც მოთხოვნის ნაკრებში თანმიმდევრობა მსგავსია და დაახლოებით თანაბარი ზომისაა. (ეს არ ნიშნავს იმას, რომ გლობალური განლაგება არ შეიძლება დაიწყოს და/ან დასრულდეს ხარვეზებით.) ზოგადი გლობალური გასწორების ტექნიკა არის Needleman -Wunsch ალგორითმი, რომელიც ემყარება დინამიურ პროგრამირებას. ადგილობრივი განლაგება უფრო სასარგებლოა განსხვავებული თანმიმდევრობებისთვის, რომლებიც ეჭვმიტანილია, რომ შეიცავდეს მსგავსების რეგიონებს ან მსგავსი მიმდევრობის მოტივებს მათი უფრო დიდი თანმიმდევრობის კონტექსტში. სმიტ -ვოთერმენის ალგორითმი არის ზოგადი ლოკალური განლაგების მეთოდი, რომელიც დაფუძნებულია ერთი და იგივე დინამიური პროგრამირების სქემაზე, მაგრამ დამატებითი არჩევანის დასაწყებად და დასასრულს ნებისმიერ ადგილას. [4]

ჰიბრიდული მეთოდები, რომლებიც ცნობილია როგორც ნახევრად გლობალური ან "გლოკალური" (შემოკლებით გლობბალ-ლოკალ) მეთოდები, ორი თანმიმდევრობის მაქსიმალურად ნაწილობრივი შესატყვისი (სხვა სიტყვებით რომ ვთქვათ, ერთი ან ორივე დაწყების და ერთი ან ორივე ბოლოების კომბინაცია მითითებულია). ეს შეიძლება განსაკუთრებით სასარგებლო იყოს, როდესაც ერთი მიმდევრობის ქვედა ნაწილი გადაფარავს მეორე მიმდევრობის ზედა ნაწილს. ამ შემთხვევაში, არც გლობალური და არც ადგილობრივი განლაგება არ არის მიზანშეწონილი: გლობალური განლაგება შეეცდება აიძულოს განლაგება გასცდეს გადაფარვის რეგიონს, ხოლო ადგილობრივმა განლაგებამ შეიძლება სრულად არ დაფაროს გადაფარვის რეგიონი. [7] კიდევ ერთი შემთხვევა, როდესაც ნახევრად გლობალური გასწორება სასარგებლოა არის, როდესაც ერთი თანმიმდევრობა მოკლეა (მაგალითად, გენური თანმიმდევრობა) და მეორე ძალიან გრძელია (მაგალითად, ქრომოსომის თანმიმდევრობა). ამ შემთხვევაში, მოკლე თანმიმდევრობა უნდა იყოს გლობალურად (სრულად) გასწორებული, მაგრამ გრძელი მიმდევრობისთვის სასურველია მხოლოდ ლოკალური (ნაწილობრივი) გასწორება.

გენეტიკური მონაცემების სწრაფი გაფართოება იწვევს დნმ -ის თანმიმდევრობის გასწორების ალგორითმების სიჩქარეს. დნმ -ის ვარიანტის აღმოჩენის ეფექტური და ზუსტი მეთოდის არსებითი მოთხოვნილებები მოითხოვს რეალურ დროში პარალელური დამუშავების ინოვაციურ მიდგომებს. ოპტიკური გამოთვლითი მიდგომები შემოთავაზებულია, როგორც პერსპექტიული ალტერნატივა მიმდინარე ელექტრული დანერგვებისთვის, მაგრამ მათი გამოყენებადობა ჯერ კიდევ შესამოწმებელია [1].

წყვილების თანმიმდევრობის გასწორების მეთოდები გამოიყენება ორი მოთხოვნის მიმდევრობის საუკეთესო შესატყვისი ნაწილობრივი (ადგილობრივი თუ გლობალური) შესატყვისების საპოვნელად. წყვილების გასწორება შეიძლება გამოყენებულ იქნას მხოლოდ ორ თანმიმდევრობას შორის ერთდროულად, მაგრამ ისინი ეფექტურია გამოსათვლელად და ხშირად გამოიყენება ისეთი მეთოდებისთვის, რომლებიც არ საჭიროებს უკიდურეს სიზუსტეს (მაგალითად, მონაცემთა ბაზის ძიება მოთხოვნასთან დიდი მსგავსების მიმდევრობისათვის). წყვილი წყვილების წარმოების სამი ძირითადი მეთოდია წერტილოვანი მატრიცული მეთოდები, დინამიური პროგრამირება და სიტყვის მეთოდები [1], თუმცა რიგით მიმდევრობის გასწორების ტექნიკას ასევე შეუძლია თანმიმდევრობების წყვილების გასწორება. მიუხედავად იმისა, რომ თითოეულ მეთოდს აქვს თავისი ძლიერი და სუსტი მხარეები, სამივე მეთოდს უჭირს დაბალი ინფორმაციის შინაარსის მეტად გამეორებადი თანმიმდევრობები - განსაკუთრებით იქ, სადაც გამეორებების რაოდენობა განსხვავდება ორ თანმიმდევრობაში.

მაქსიმალური უნიკალური შესატყვისი რედაქტირება

მოცემული წყვილების განლაგების სარგებლიანობის რაოდენობრივი განსაზღვრის ერთ -ერთი გზაა „მაქსიმალური უნიკალური შესატყვისი“ (MUM), ან ყველაზე გრძელი თანმიმდევრობა, რომელიც ხდება მოთხოვნის ორივე თანმიმდევრობაში. უფრო გრძელი MUM თანმიმდევრობა, როგორც წესი, ასახავს უფრო მჭიდრო ურთიერთობას. [8] გამოთვლილ ბიოლოგიაში გენომის მრავალჯერადი თანმიმდევრობით. MUM– ების და სხვა პოტენციური წამყვანების იდენტიფიცირება არის პირველი ნაბიჯი უფრო დიდი გასწორების სისტემებში, როგორიცაა MUMmer. წამყვანები არის ის სფეროები ორ გენომს შორის, სადაც ისინი ძალიან ჰგვანან ერთმანეთს. იმის გასაგებად, თუ რა არის MUM, ჩვენ შეგვიძლია დავშალოთ თითოეული სიტყვა შემოკლებით. მატჩი გულისხმობს, რომ ქვესტრიქონი ხდება თანმიმდევრობით ორივე თანმიმდევრობით. უნიკალური ნიშნავს, რომ ქვესტრიქონი ხდება მხოლოდ ერთხელ თითოეულ თანმიმდევრობაში. დაბოლოს, მაქსიმუმი აცხადებს, რომ ქვესტრიქონი არ არის სხვა დიდი სტრიქონის ნაწილი, რომელიც აკმაყოფილებს ორივე წინა მოთხოვნას. ამის იდეა იმაში მდგომარეობს, რომ გრძელი თანმიმდევრობა, რომელიც ზუსტად ემთხვევა და ხდება მხოლოდ ერთხელ თითოეულ გენომში, თითქმის უდავოდ არის გლობალური განლაგების ნაწილი.

  • ის არის მაქსიმალური, ანუ ის არ შეიძლება გაგრძელდეს ორივე მხრიდან შეუსაბამობის გარეშე და
  • ის უნიკალურია ორივე თანმიმდევრობით "[9]

Dot-matrix მეთოდები რედაქტირება

წერტილოვანი მატრიცის მიდგომა, რომელიც ნაგულისხმევად ქმნის თანმიმდევრულობის ცალკეულ რეგიონებს, არის ხარისხობრივი და კონცეპტუალურად მარტივი, თუმცა დიდ დროს მოითხოვს შრომისმოყვარეობის გასაანალიზებლად. ხმაურის არარსებობის შემთხვევაში, ადვილი იქნება ვიზუალურად განსაზღვროთ გარკვეული თანმიმდევრობის მახასიათებლები-როგორიცაა ჩასმა, წაშლა, გამეორება ან გადატრიალებული გამეორება-წერტილოვანი მატრიცის ნაკვეთიდან. წერტილოვანი მატრიცის ნაკვეთის შესაქმნელად, ორი თანმიმდევრობა იწერება ორგანზომილებიანი მატრიცის ზედა რიგისა და მარცხენა სვეტის გასწვრივ და წერტილი მოთავსებულია ნებისმიერ წერტილში, სადაც შესაბამისი სვეტების სიმბოლოები ემთხვევა-ეს არის ტიპიური განმეორებითი ნაკვეთი. ზოგიერთი განხორციელება ცვლის წერტილის ზომას ან ინტენსივობას, რაც დამოკიდებულია ორი სიმბოლოს მსგავსების ხარისხზე, კონსერვატიული შემცვლელების შესასრულებლად. ძალიან მჭიდროდ დაკავშირებული მიმდევრობის წერტილოვანი ნაკვეთები გამოჩნდება როგორც ერთი ხაზი მატრიცის მთავარი დიაგონალის გასწვრივ.

წერტილოვან ნაკვეთებთან დაკავშირებული პრობლემები, როგორც ინფორმაციის ჩვენების ტექნიკა, მოიცავს: ხმაურს, სიწმინდის ნაკლებობას, არაინტუიციურობას, მატჩის შემაჯამებელი სტატისტიკის ამოღების სირთულეს და მატჩების პოზიციებს ორ თანმიმდევრობაზე. ასევე არის ბევრი გაფუჭებული სივრცე, სადაც მატჩის მონაცემები არსებითად დუბლირებულია დიაგონალზე და ნაკვეთის რეალური ფართობის უმეტესობა იკავებს ან ცარიელ ადგილს, ან ხმაურს, და, საბოლოოდ, წერტილოვანი ნაკვთები შემოიფარგლება ორი თანმიმდევრობით. არცერთი ეს შეზღუდვა არ ვრცელდება Miropeats- ის გასწორების დიაგრამებზე, მაგრამ მათ აქვთ საკუთარი განსაკუთრებული ნაკლი.

წერტილოვანი ნაკვეთები ასევე შეიძლება გამოყენებულ იქნას განმეორებადობის შესაფასებლად ერთი თანმიმდევრობით. თანმიმდევრობა შეიძლება დაიწეროს საკუთარი თავის წინააღმდეგ და რეგიონები, რომლებსაც აქვთ მნიშვნელოვანი მსგავსება, გამოჩნდება მთავარი დიაგონალის ხაზებიდან. ეს ეფექტი შეიძლება მოხდეს მაშინ, როდესაც ცილა შედგება მრავალი მსგავსი სტრუქტურული დომენისგან.

დინამიური პროგრამირების რედაქტირება

დინამიური პროგრამირების ტექნიკა შეიძლება გამოყენებულ იქნას გლობალური განლაგების შესაქმნელად Needleman-Wunsch ალგორითმის საშუალებით, ხოლო ადგილობრივი განლაგება სმიტ-ვოთერმენის ალგორითმის საშუალებით. ტიპიური გამოყენებისას, ცილის განლაგება იყენებს შემცვლელ მატრიცას, რათა მიანიჭოს ქულები ამინომჟავების მატჩებს ან შეუსაბამობებს, ხოლო უფსკრული ჯარიმა ერთ მიმდევრობაში ამინომჟავის შესატყვისი მეორეში. დნმ -სა და რნმ -ს განლაგებამ შეიძლება გამოიყენოს ქულათა მატრიცა, მაგრამ პრაქტიკაში ხშირად უბრალოდ მიანიჭეთ პოზიტიური მატჩის ქულა, უარყოფითი შეუსაბამობა და ნეგატიური შუალედი. (სტანდარტული დინამიური პროგრამირების დროს, თითოეული ამინომჟავის პოზიციის ქულა დამოუკიდებელია მეზობლების ვინაობისაგან და, შესაბამისად, ბაზის დაგროვების ეფექტები არ არის გათვალისწინებული. თუმცა, ალგორითმის შეცვლით შესაძლებელია ასეთი ეფექტების აღრიცხვა.) სტანდარტული ხაზოვანი ხარვეზის ხარჯების საერთო გაფართოება არის ორი განსხვავებული უფსკრული ჯარიმის გამოყენება უფსკრული გახსნისათვის და უფსკრული გაფართოებისათვის. როგორც წესი, პირველი გაცილებით დიდია ვიდრე მეორე, მაგ. -10 უფსკრული ღია და -2 უფსკრული გაფართოებისთვის. ამრიგად, განლაგების რაოდენობა ჩვეულებრივ მცირდება და ნარჩენები და ხარვეზები ინახება ერთად, რაც, როგორც წესი, უფრო ბიოლოგიურ მნიშვნელობას იძენს. გოთოჰის ალგორითმი ახორციელებს თანხების ხარვეზებს სამი მატრიცის გამოყენებით.

დინამიური პროგრამირება შეიძლება სასარგებლო იყოს ნუკლეოტიდის პროტეინის თანმიმდევრობასთან გასათვალისწინებლად, ამოცანა გართულებულია ჩარჩოების ცვლის მუტაციების გათვალისწინების აუცილებლობით (ჩვეულებრივ ჩასმა ან წაშლა). ჩარჩო კვლევის მეთოდი აწარმოებს გლობალურ ან ადგილობრივ წყვილთა თანმიმდევრულობას სერიას ნუკლეოტიდური თანმიმდევრობისა და ცილის მიმდევრობის საძიებო ნაკრებებს შორის, ან პირიქით. მისი უნარი შეაფასოს ჩარჩოების ცვლა, რომელიც კომპენსირებულია ნუკლეოტიდების თვითნებური რაოდენობით, ხდის მეთოდს გამოსადეგი მიმდევრობებისათვის, რომლებიც შეიცავს დიდი რაოდენობით ინდელებს, რომელთა შეთავსებაც შეიძლება ძალიან რთული იყოს უფრო ეფექტურ ევრისტიკულ მეთოდებთან. პრაქტიკაში, მეთოდი მოითხოვს გამოთვლითი ენერგიის დიდ რაოდენობას ან სისტემას, რომლის არქიტექტურა სპეციალიზირებულია დინამიური პროგრამირებისთვის. BLAST და EMBOSS კომპლექტი უზრუნველყოფს ძირითად ინსტრუმენტებს თარგმნილი განლაგების შესაქმნელად (თუმცა ზოგიერთი ეს მიდგომა უპირატესობას ანიჭებს ინსტრუმენტების თანმიმდევრული ძებნის შესაძლებლობებს). უფრო ზოგადი მეთოდები ხელმისაწვდომია ღია პროგრამული უზრუნველყოფისგან, როგორიცაა GeneWise.

დინამიური პროგრამირების მეთოდი გარანტირებულია, რომ იპოვოს ოპტიმალური თანმიმდევრობა კონკრეტული ქულის მინიჭების ფუნქციის გათვალისწინებით, თუმცა, კარგი ქულის ფუნქციის გამოვლენა ხშირად ემპირიულია ვიდრე თეორიული. მიუხედავად იმისა, რომ დინამიური პროგრამირება შეიძლება გაგრძელდეს ორზე მეტ თანმიმდევრობით, ის საკმაოდ ნელა ხდება დიდი რაოდენობით თანმიმდევრობით ან ძალიან გრძელი თანმიმდევრობით.

სიტყვის მეთოდები რედაქტირება

სიტყვის მეთოდები, ასევე ცნობილი როგორც -ორი მეთოდი, არის ევრისტიკული მეთოდები, რომლებიც გარანტირებული არ არის ოპტიმალური განლაგების პოვნაზე, მაგრამ მნიშვნელოვნად უფრო ეფექტურია ვიდრე დინამიური პროგრამირება. ეს მეთოდები განსაკუთრებით გამოსადეგია მონაცემთა ბაზის ფართომასშტაბიანი ძიებისთვის, სადაც გასაგებია, რომ კანდიდატური თანმიმდევრობების დიდ ნაწილს არსებითად არ ექნება მნიშვნელოვანი შეკითხვის თანმიმდევრობა. სიტყვის მეთოდები ყველაზე ცნობილია მათი დანერგვით მონაცემთა ბაზის საძიებო ინსტრუმენტებში FASTA და BLAST ოჯახში. [1] სიტყვის მეთოდები განსაზღვრავს მოკლე, ერთმანეთზე გადაუდებელ ქვეტექსტებს ("სიტყვებს") შეკითხვის თანმიმდევრობით, რომლებიც შემდეგ ემთხვევა კანდიდატების მონაცემთა ბაზის მიმდევრობებს. შედარებითი ორი თანმიმდევრობით სიტყვის შედარებითი პოზიციები იკლებს ოფსეტის მისაღებად, ეს მიუთითებს განლაგების რეგიონზე, თუ მრავალი განსხვავებული სიტყვა ქმნის ერთსა და იმავე ოფსეტს. მხოლოდ ამ რეგიონის გამოვლენის შემთხვევაში ეს მეთოდები მიმართავს უფრო მგრძნობიარე გასწორების კრიტერიუმებს, ამრიგად, ბევრი არასაჭირო შედარება თანმიმდევრობით, რომელთაც არ აქვთ შესამჩნევი მსგავსება, აღმოიფხვრება.

FASTA მეთოდით, მომხმარებელი განსაზღვრავს მნიშვნელობას გამოიყენოს როგორც სიტყვა სიგრძე მონაცემთა ბაზის ძიების მიზნით. მეთოდი უფრო ნელია, მაგრამ უფრო მგრძნობიარეა დაბალი მნიშვნელობებით , რომელიც ასევე სასურველია ძიებისთვის, რომელიც მოიცავს ძალიან მოკლე შეკითხვის თანმიმდევრობას. საძიებო მეთოდების BLAST ოჯახი გთავაზობთ უამრავ ალგორითმს, რომელიც ოპტიმიზირებულია კონკრეტული ტიპის შეკითხვებისთვის, როგორიცაა შორიდან მიმდევრობის შესატყვისების ძიება. BLAST შეიქმნა FASTA– ს უფრო სწრაფი ალტერნატივის უზრუნველსაყოფად, FASTA– ს მსგავსი სიზუსტის გარეშე, BLAST იყენებს სიგრძის სიტყვით ძებნას , მაგრამ აფასებს მხოლოდ ყველაზე მნიშვნელოვან სიტყვათა დამთხვევას, ვიდრე ყველა სიტყვის დამთხვევას, როგორც FASTA. BLAST დანერგვების უმეტესობა იყენებს ფიქსირებულ ნაგულისხმევ სიტყვის სიგრძეს, რომელიც ოპტიმიზირებულია შეკითხვისა და მონაცემთა ბაზის ტიპისათვის და ის იცვლება მხოლოდ განსაკუთრებულ გარემოებებში, მაგალითად, განმეორებითი ან ძალიან მოკლე შეკითხვის თანმიმდევრობით ძებნისას. განხორციელების პოვნა შესაძლებელია მრავალი ვებ პორტალის საშუალებით, როგორიცაა EMBL FASTA და NCBI BLAST.

თანმიმდევრობის მრავალჯერადი გასწორება არის წყვილების გასწორების გაფართოება, რომ ერთდროულად შეიცავდეს ორზე მეტ თანმიმდევრობას. გასწორების მრავალი მეთოდი ცდილობს ყველა თანმიმდევრობის გასწორებას მოცემულ შეკითხვის ნაკრებში. მრავალი განლაგება ხშირად გამოიყენება კონსერვატიული მიმდევრობის რეგიონების იდენტიფიცირების მიზნით იმ თანმიმდევრობის ჯგუფში, რომელიც ჰიპოთეზადაა ევოლუციურად დაკავშირებული. ასეთი კონსერვატიული მიმდევრობის მოტივები შეიძლება გამოყენებულ იქნას სტრუქტურულ და მექანიკურ ინფორმაციასთან ერთად ფერმენტების კატალიზური აქტიური ადგილების დასადგენად. განლაგებები ასევე გამოიყენება ევოლუციური ურთიერთობების დამყარებაში ფილოგენეტიკური ხეების აგებით. თანმიმდევრობის მრავალჯერადი განლაგება გამოთვლით რთულია წარმოებისათვის და პრობლემის უმეტესობა იწვევს NP- ს სრული კომბინაციური ოპტიმიზაციის პრობლემებს. [10] [11] მიუხედავად ამისა, ბიოინფორმატიკაში ამ თანმიმდევრულობის სარგებლიანობამ განაპირობა სხვადასხვა მეთოდების შემუშავება, რომლებიც შესაფერისია სამი ან მეტი მიმდევრობის გასათანაბრებლად.

დინამიური პროგრამირების რედაქტირება

დინამიური პროგრამირების ტექნიკა თეორიულად გამოიყენება ნებისმიერი რაოდენობის თანმიმდევრობისთვის, რადგან გამოთვლილად ძვირია როგორც დროში, ასევე მეხსიერებაში, იშვიათად გამოიყენება სამზე ან ოთხზე მეტ თანმიმდევრობაზე მისი ძირითადი ფორმით. ეს მეთოდი მოითხოვს მშენებლობას n-თანმიმდევრობის მატრიცის განზომილებიანი ეკვივალენტი, რომელიც ჩამოყალიბებულია ორი თანმიმდევრობისგან, სადაც n არის მოთხოვნის თანმიმდევრობის რაოდენობა. სტანდარტული დინამიური პროგრამირება ჯერ გამოიყენება შეკითხვის თანმიმდევრობის ყველა წყვილზე, შემდეგ კი "გასწორების სივრცე" ივსება შუალედურ პოზიციებზე შესაძლო მატჩების ან ხარვეზების გათვალისწინებით, საბოლოოდ კი ქმნის თანმიმდევრობას არსებითად თითოეულ ორ მიმდევრობას შორის. მიუხედავად იმისა, რომ ეს ტექნიკა გამოთვლილად ძვირია, გლობალური ოპტიმალური გადაწყვეტის გარანტია სასარგებლოა იმ შემთხვევებში, როდესაც მხოლოდ რამდენიმე თანმიმდევრობაა საჭირო ზუსტად განლაგდეს. MSA პროგრამული პაკეტში დანერგულია დინამიური პროგრამირების გამოთვლითი მოთხოვნების შემცირების ერთი მეთოდი, რომელიც ეყრდნობა "წყვილების ჯამს" ობიექტურ ფუნქციას. [12]

პროგრესული მეთოდები რედაქტირება

პროგრესული, იერარქიული ან ხის მეთოდები წარმოქმნის მრავალჯერადი თანმიმდევრობას, პირველ რიგში ათავსებს ყველაზე მსგავს მიმდევრობებს და შემდეგ თანმიმდევრულად ნაკლებად თანმიმდევრობას ან ჯგუფებს უმატებს განლაგებას, სანამ მთლიანი მოთხოვნის ნაკრები არ იქნება ჩართული ხსნარში. თავდაპირველი ხე, რომელიც აღწერს თანმიმდევრობის ურთიერთობას, ემყარება წყვილთა შედარებებს, რომლებიც შეიძლება შეიცავდეს FASTA– ს მსგავსი ჰერვისტულ წყვილთან გამიზნულ მეთოდებს. პროგრესული განლაგების შედეგები დამოკიდებულია "ყველაზე დაკავშირებული" მიმდევრობის არჩევანზე და შესაბამისად შეიძლება იყოს მგრძნობიარე საწყის წყვილ განლაგებაში არსებული უზუსტობების მიმართ. ყველაზე პროგრესული მრავალჯერადი თანმიმდევრობის გასწორების მეთოდები დამატებით აწონ -დაწონებს მოთხოვნილების თანმიმდევრობას მათი კავშირის მიხედვით, რაც ამცირებს საწყისი მიმდევრობის არასწორი არჩევანის გაკეთების ალბათობას და ამით აუმჯობესებს გასწორების სიზუსტეს.

კლასტალური პროგრესული განხორციელების მრავალი ცვალებადობა [13] [14] [15] გამოიყენება მრავალჯერადი თანმიმდევრობის გასწორებისთვის, ფილოგენეტიკური ხის კონსტრუქციისთვის და ცილის სტრუქტურის პროგნოზირებისათვის. პროგრესული მეთოდის უფრო ნელი, მაგრამ უფრო ზუსტი ვარიანტი ცნობილია როგორც T-Coffee. [16]

განმეორებითი მეთოდები რედაქტირება

განმეორებითი მეთოდები ცდილობს გააუმჯობესოს პირველადი წყვილების განლაგების სიზუსტეზე ძლიერი დამოკიდებულება, რაც პროგრესული მეთოდების სუსტი წერტილია. განმეორებითი მეთოდები ახდენს ობიექტური ფუნქციის ოპტიმიზაციას შერჩეული გასწორების შეფასების მეთოდის საფუძველზე, საწყისი გლობალური გასწორების მინიჭებით და შემდგომ მიმდევრობის ქვეჯგუფების გადანაწილებით. შემდგომ განლაგებული ქვესიმრავლეები თავად განლაგებულია, რათა წარმოქმნას შემდეგი გამეორების მრავალჯერადი თანმიმდევრობა. თანმიმდევრობის ქვეჯგუფების და ობიექტური ფუნქციის შერჩევის სხვადასხვა გზა განიხილება. [17]

მოტივის პოვნა რედაქტირება

მოტივის აღმოჩენა, რომელიც ასევე ცნობილია როგორც პროფილის ანალიზი, აგებს გლობალური მრავალჯერადი მიმდევრობის განლაგებას, რომელიც ცდილობს მოკლე კონსერვატიული მიმდევრობის მოტივების გასწორებას მოთხოვნათა ნაკრების მიმდევრობებს შორის. ეს ჩვეულებრივ ხდება ზოგადი გლობალური მრავალჯერადი თანმიმდევრობის განლაგებით, რის შემდეგაც უაღრესად დაცული რეგიონები იზოლირებულია და გამოიყენება პროფილის მატრიცების შესაქმნელად. პროფილის მატრიცა თითოეული დაცული რეგიონისთვის მოწყობილია ქულების მატრიცის მსგავსად, მაგრამ მისი სიხშირის რაოდენობა თითოეული ამინომჟავისთვის ან ნუკლეოტიდისათვის თითოეულ პოზიციაზე გამომდინარეობს კონსერვატიული რეგიონის ხასიათის განაწილებიდან და არა უფრო ზოგადი ემპირიული განაწილებიდან. პროფილის მატრიცები შემდეგ გამოიყენება სხვა თანმიმდევრობების მოსაძებნად იმ მოტივის გამოვლენისათვის, რომელიც მათ ახასიათებთ. იმ შემთხვევებში, როდესაც ორიგინალური მონაცემების ნაკრები შეიცავდა მცირე რაოდენობის თანმიმდევრობას, ან მხოლოდ ძალიან თანმიმდევრულ თანმიმდევრობას, ფსევდო ანგარიშებს ემატება მოტივში წარმოდგენილი პერსონაჟების განაწილების ნორმალიზება.

კომპიუტერული მეცნიერებით შთაგონებული ტექნიკა რედაქტირება

ზოგადი ოპტიმიზაციის ალგორითმები, რომლებიც ფართოდ გამოიყენება კომპიუტერულ მეცნიერებაში, ასევე გამოყენებულია მრავალჯერადი თანმიმდევრობის განლაგების პრობლემაზე. დამალული მარკოვის მოდელები გამოყენებულია სავარაუდო ქულების დასადგენად ოჯახისთვის, რომელიც შეიძლება თანმიმდევრობით განისაზღვროს მოცემული შეკითხვისთვის, თუმცა HMM– ის ადრეულმა მეთოდებმა შედეგი გამოიღო, შემდგომმა აპლიკაციებმა კი ისინი განსაკუთრებით ეფექტური აღმოაჩინეს დისტანციურად დაკავშირებული მიმდევრობის გამოვლენაში, რადგან ისინი ნაკლებად მგრძნობიარენი არიან. კონსერვატიული ან ნახევრადკონსერვატიული შემცვლელებით შექმნილი ხმაურის მიმართ. [18] გენეტიკური ალგორითმები და იმიტირებული დალუქვა ასევე გამოყენებულია რიგი თანმიმდევრობის გასწორების ქულების ოპტიმიზაციაში, რაც შეფასებულია ქულების მინიჭების ფუნქციით, როგორიცაა წყვილთა ჯამის მეთოდი. უფრო სრულყოფილი დეტალები და პროგრამული პაკეტები შეგიძლიათ იხილოთ მთავარ სტატიაში მრავალჯერადი თანმიმდევრობის გასწორება.

ბაროუს – ვილერის გარდაქმნა წარმატებით იქნა გამოყენებული სწრაფად წაკითხვის მოკლე გასწორებისათვის ისეთ პოპულარულ ინსტრუმენტებში, როგორიცაა Bowtie და BWA. იხილეთ FM- ინდექსი.

სტრუქტურული განლაგება, რომელიც ჩვეულებრივ სპეციფიკურია ცილის და ზოგჯერ რნმ -ის თანმიმდევრობით, იყენებს ინფორმაციას ცილის ან რნმ -ის მოლეკულის მეორადი და მესამეული სტრუქტურის შესახებ, რათა ხელი შეუწყოს მიმდევრობის თანმიმდევრობას. ეს მეთოდები შეიძლება გამოყენებულ იქნას ორი ან მეტი თანმიმდევრობისთვის და, როგორც წესი, აყალიბებს ადგილობრივ განლაგებას, რადგან ისინი დამოკიდებულია სტრუქტურული ინფორმაციის ხელმისაწვდომობაზე, ისინი შეიძლება გამოყენებულ იქნას მხოლოდ იმ თანმიმდევრობებისათვის, რომელთა შესაბამისი სტრუქტურები ცნობილია (ჩვეულებრივ რენტგენის კრისტალოგრაფიის ან NMR სპექტროსკოპიის საშუალებით) რა რადგანაც ცილა და რნმ -ის სტრუქტურა უფრო ევოლუციურად არის დაცული, ვიდრე მიმდევრობა, [19] სტრუქტურული განლაგება შეიძლება იყოს უფრო საიმედო მიმდევრობებს შორის, რომლებიც ძალიან შორს არიან ერთმანეთისაგან და იმდენად ინტენსიურად განცალკევებულნი, რომ თანმიმდევრობის შედარება ვერ ადასტურებს მათ მსგავსებას.

სტრუქტურული განლაგებები გამოიყენება როგორც "ოქროს სტანდარტი" ჰომოლოგიაზე დაფუძნებული ცილის სტრუქტურის პროგნოზირების შესატყვისობის შეფასებისათვის [20], რადგან ისინი მკაფიოდ ათავსებენ ცილის მიმდევრობის რეგიონებს, რომლებიც სტრუქტურულად მსგავსია და არა მხოლოდ ექსკლუზიურად მიმდევრობის ინფორმაციას ეყრდნობა. თუმცა, აშკარად სტრუქტურული განლაგება არ შეიძლება გამოყენებულ იქნას სტრუქტურის პროგნოზირებაში, რადგან მოთხოვნის ნაკრებში მინიმუმ ერთი თანმიმდევრობა არის მოდელირებული სამიზნე, რისთვისაც სტრუქტურა უცნობია. ნაჩვენებია, რომ მიზნობრივ და შაბლონურ თანმიმდევრობას შორის სტრუქტურული განლაგების გათვალისწინებით, სამიზნე ცილის მიმდევრობის უაღრესად ზუსტი მოდელები შეიძლება იყოს მთავარი დაბრკოლება ჰომოლოგიაზე დაფუძნებული სტრუქტურის პროგნოზირებაში, ეს არის სტრუქტურულად ზუსტი განლაგების წარმოება, მხოლოდ მოცემული ინფორმაციის თანმიმდევრობით. რა [20]

დალი შესწორება

DALI მეთოდი, ან მანძილის მატრიცის გასწორება, არის ფრაგმენტზე დაფუძნებული მეთოდი სტრუქტურული განლაგების შესაქმნელად, რომელიც დაფუძნებულია შეკითხვის მიმდევრობებში თანმიმდევრულ ჰექსაპეპტიდებს შორის კონტაქტური მსგავსების ნიმუშებზე. [21] მას შეუძლია შექმნას წყვილ ან მრავალჯერადი განლაგება და გამოავლინოს შეკითხვის თანმიმდევრობის სტრუქტურული მეზობლები პროტეინის მონაცემთა ბანკში (PDB). იგი გამოყენებულია FSSP სტრუქტურული განლაგების მონაცემთა ბაზის შესაქმნელად (დაკეცილი კლასიფიკაცია ცილების სტრუქტურა-სტრუქტურის გასწორების საფუძველზე, ან სტრუქტურულად მსგავსი ცილების ოჯახები). DALI ვებ სერვერზე წვდომა შესაძლებელია DALI– ზე და FSSP მდებარეობს დალის მონაცემთა ბაზაში.

SSAP რედაქტირება

SSAP (სტრუქტურის თანმიმდევრული გასწორების პროგრამა) არის სტრუქტურული განლაგების დინამიურ პროგრამირებაზე დაფუძნებული მეთოდი, რომელიც იყენებს ატომ-ატომ-ვექტორებს სტრუქტურის სივრცეში შედარების წერტილებად. იგი გაფართოვდა ორიგინალური აღწერილობიდან, როგორც მრავალჯერადი, ასევე წყვილ გასწორებაზე [22] და გამოიყენებოდა ცილების ნაკეცების CATH (კლასი, არქიტექტურა, ტოპოლოგია, ჰომოლოგია) მონაცემთა ბაზის იერარქიული კლასიფიკაციის მშენებლობაში. [23] CATH მონაცემთა ბაზაზე წვდომა შესაძლებელია CATH ცილის სტრუქტურის კლასიფიკაციით.

კომბინირებული გაფართოება რედაქტირება

სტრუქტურული განლაგების კომბინაციური გაფართოების მეთოდი წარმოქმნის წყვილ სტრუქტურულ განლაგებას ადგილობრივი გეომეტრიის გამოყენებით გაანალიზებული ორი ცილის მოკლე ფრაგმენტების გასათანაბრებლად და შემდეგ ათავსებს ამ ფრაგმენტებს უფრო დიდ განლაგებაში. [24] ისეთი ღონისძიებების საფუძველზე, როგორიცაა ხისტი სხეულის ფესვის საშუალო კვადრატული მანძილი, ნარჩენების დისტანციები, ადგილობრივი მეორადი სტრუქტურა და მიმდებარე გარემოს მახასიათებლები, როგორიცაა ნარჩენი მეზობლის ჰიდროფობიურობა, წარმოიქმნება ადგილობრივი განლაგებები სახელწოდებით "გასწორებული ფრაგმენტების წყვილი" და გამოიყენება მსგავსების მატრიცის შესაქმნელად. წარმოადგენს ყველა შესაძლო სტრუქტურულ განლაგებას წინასწარ განსაზღვრული კრიტერიუმების ფარგლებში. გზა ერთი ცილის სტრუქტურის მდგომარეობიდან მეორეში შემდეგ იკვლევა მატრიცაში მზარდი გასწორების გაფართოებით ერთ ფრაგმენტზე. ოპტიმალური ასეთი გზა განსაზღვრავს კომბინატორულ-გაფართოების განლაგებას. ვებ დაფუძნებული სერვერი, რომელიც ახორციელებს მეთოდს და უზრუნველყოფს მონაცემთა პროტეინის მონაცემთა ბანკში სტრუქტურების წყვილთა თანხვედრის მონაცემთა ბაზას, განთავსებულია Combinatorial Extension ვებსაიტზე.

ფილოგენეტიკა და თანმიმდევრობის განლაგება ერთმანეთთან მჭიდროდ დაკავშირებული სფეროებია, თანმიმდევრობის ურთიერთკავშირის შეფასების საერთო აუცილებლობის გამო. [25] ფილოგენეტიკის სფერო ფართოდ იყენებს მიმდევრობის თანმიმდევრობას ფილოგენეტიკური ხეების აგებასა და ინტერპრეტაციაში, რომლებიც გამოიყენება ევოლუციური ურთიერთობების კლასიფიკაციისათვის ჰომოლოგიურ გენებს შორის განსხვავებული სახეობების გენომებში. შეკითხვის ნაკრების თანმიმდევრობის ხარისხი ხარისხობრივად არის დაკავშირებული მიმდევრობის ევოლუციურ მანძილზე ერთმანეთისგან. უხეშად რომ ვთქვათ, მაღალი მიმდევრობის იდენტურობა მიგვითითებს იმაზე, რომ ამ თანმიმდევრობებს აქვთ შედარებით ახალგაზრდა უახლესი საერთო წინაპარი, ხოლო დაბალი იდენტობა მიანიშნებს, რომ განსხვავება უფრო ძველია. ეს მიახლოება, რომელიც ასახავს "მოლეკულური საათის" ჰიპოთეზას, რომ ევოლუციური ცვლილებების უკიდურესად მუდმივი მაჩვენებელი შეიძლება გამოყენებულ იქნას გასული დროის ექსტრაპოლაციისთვის, ვინაიდან ორი გენი პირველად განსხვავდება (ანუ შეჯვარების დრო), ვარაუდობს, რომ მუტაციისა და შერჩევის ეფექტებია მუდმივი მიმდევრობის ხაზების გასწვრივ. ამრიგად, იგი არ ითვალისწინებს ორგანიზმებს ან სახეობებს შორის შესაძლო განსხვავებას დნმ -ის შეკეთების სიჩქარეში ან კონკრეტული რეგიონების შესაძლო ფუნქციურ კონსერვაციაში თანმიმდევრობით. (ნუკლეოტიდური თანმიმდევრობის შემთხვევაში, მოლეკულური საათის ჰიპოთეზა თავის ძირითად ფორმაში ასევე აქვეითებს განსხვავებას მიღებულ მაჩვენებლებში ჩუმად მუტაციებს შორის, რომლებიც არ ცვლის მოცემული კოდონის მნიშვნელობას და სხვა მუტაციებს, რაც იწვევს სხვადასხვა ამინომჟავის ინტეგრირებას ცილა). სტატისტიკურად უფრო ზუსტი მეთოდები საშუალებას იძლევა ევოლუციური მაჩვენებელი ფილოგენეტიკური ხის თითოეულ ტოტზე განსხვავდებოდეს, რაც გენების შეჯვარების დროის უკეთეს შეფასებას იძლევა.

პროგრესული მრავალჯერადი გასწორების ტექნიკა წარმოქმნის ფილოგენეტიკურ ხეს აუცილებლობის გამო, რადგანაც ისინი თანმიმდევრულობის მზარდ განლაგებაში თანმიმდევრობას აერთიანებენ. სხვა ტექნიკა, რომელიც აერთიანებს რიგით მიმდევრობებს და ფილოგენეტიკურ ხეებს, აფასებს და ახარისხებს ხეებს და გამოითვლის მრავალრიცხოვან მიმდევრობას, ყველაზე მაღალი ქულის ხედან. ფილოგენეტიკური ხის მშენებლობის ყველაზე ხშირად გამოყენებული მეთოდები ძირითადად ევრისტიკულია, რადგან ოპტიმალური ხის არჩევის პრობლემა, ისევე როგორც მრავალჯერადი მიმდევრობის ოპტიმალური შერჩევის პრობლემა, არის NP- რთული. [26]

მნიშვნელობის შეფასება რედაქტირება

თანმიმდევრობის განლაგება სასარგებლოა ბიოინფორმატიკაში თანმიმდევრობის მსგავსების დასადგენად, ფილოგენეტიკური ხეების წარმოსაქმნელად და ცილოვანი სტრუქტურების ჰომოლოგიური მოდელების შესაქმნელად. ამასთან, თანმიმდევრობის განლაგების ბიოლოგიური მნიშვნელობა ყოველთვის არ არის ნათელი. ხშირად ვარაუდობენ, რომ განლაგება ასახავს ევოლუციური ცვლილების ხარისხს საერთო წინაპრის შთამომავლებს შორის, თუმცა ფორმალურად შესაძლებელია, რომ კონვერგენციული ევოლუცია წარმოიშვას აშკარა მსგავსების წარმოქმნის ცილებს შორის, რომლებიც ევოლუციურად არ არიან დაკავშირებული, მაგრამ ასრულებენ მსგავს ფუნქციებს და აქვთ მსგავსი სტრუქტურა.

მონაცემთა ბაზის ძიებებში, როგორიცაა BLAST, სტატისტიკურ მეთოდებს შეუძლიათ განსაზღვრონ კონკრეტული თანხვედრის ალბათობა მიმდევრობებსა და მიმდევრობებს შორის შემთხვევით, მონაცემთა ბაზის ზომისა და შემადგენლობის გათვალისწინებით. ეს მნიშვნელობები შეიძლება მნიშვნელოვნად განსხვავდებოდეს საძიებო სივრცის მიხედვით. კერძოდ, მოცემული თანხვედრის შემთხვევით პოვნის ალბათობა იზრდება, თუ მონაცემთა ბაზა შედგება მხოლოდ ერთი და იგივე ორგანიზმის მიმდევრობისგან, როგორც შეკითხვის მიმდევრობა. მონაცემთა ბაზაში ან შეკითხვაში განმეორებითმა თანმიმდევრობამ შეიძლება ასევე დამახინჯოს როგორც ძებნის შედეგები, ასევე სტატისტიკური მნიშვნელობის შეფასება BLAST ავტომატურად ახდენს ფილტრის ამგვარ განმეორებით თანმიმდევრობას მოთხოვნაში, რათა თავიდან ავიცილოთ აშკარა დარტყმები, რომლებიც არის სტატისტიკური არტეფაქტები.

ლიტერატურაში ხელმისაწვდომია სტატისტიკური მნიშვნელობის შეფასების მეთოდები თანმიმდევრული თანმიმდევრობით. [25] [27] [28] [29] [30] [31] [32] [33]

სანდოობის შეფასება რედაქტირება

სტატისტიკური მნიშვნელობა მიუთითებს იმის ალბათობაზე, რომ მოცემული ხარისხის თანხვედრა შეიძლება წარმოიშვას შემთხვევით, მაგრამ არ მიუთითებს იმაზე, თუ რამდენად აღემატება მოცემული განლაგება იგივე მიმდევრობის ალტერნატიულ განლაგებას. გასწორების სანდოობის ზომები მიუთითებს იმაზე, თუ რამდენად შეესაბამება თანმიმდევრობების მოცემული წყვილის საუკეთესო ქულები. ლიტერატურაში ხელმისაწვდომია თანმიმდევრული თანმიმდევრულობის გასწორების სანდოობის შეფასების მეთოდები. [34]

შეფასების ფუნქციები რედაქტირება

ქულების შერჩევის ფუნქცია, რომელიც ასახავს ბიოლოგიურ ან სტატისტიკურ დაკვირვებებს ცნობილი მიმდევრობების შესახებ, მნიშვნელოვანია კარგი განლაგების შესაქმნელად. ცილის თანმიმდევრობა ხშირად განლაგებულია შემცვლელი მატრიცების გამოყენებით, რომლებიც ასახავს ხასიათიდან ხასიათით მოცემული ჩანაცვლების ალბათობას. მატრიცების სერია სახელწოდებით PAM მატრიცები (წერტილი მიღებული მუტაციის მატრიცები, თავდაპირველად განსაზღვრული მარგარეტ დეიჰოფის მიერ და ზოგჯერ მოხსენიებული როგორც "დეჰოფის მატრიცები") მკაფიოდ ასახავს ევოლუციურ მიახლოებებს კონკრეტული ამინომჟავის მუტაციების სიჩქარესთან და ალბათობებთან დაკავშირებით. ქულების დაგროვების კიდევ ერთი საერთო სერია, რომელიც ცნობილია როგორც BLOSUM (ბლოკების შემცვლელი მატრიცა), ასახავს ემპირიულად მიღებული ჩანაცვლების ალბათობას. ორივე ტიპის მატრიცების ვარიანტები გამოიყენება განსხვავებული დონის განსხვავებული თანმიმდევრობის დასადგენად, რითაც BLAST ან FASTA მომხმარებლებს საშუალებას აძლევს შეზღუდონ ძიება უფრო მჭიდროდ დაკავშირებულ მატჩებში ან გაფართოვდეს უფრო განსხვავებული თანმიმდევრობის გამოვლენის მიზნით. უფსკრული ჯარიმები ითვალისწინებს უფსკრული - ევოლუციურ მოდელზე, მუტაციის ჩასმა ან წაშლა - როგორც ნუკლეოტიდურ, ისე ცილოვან თანმიმდევრობას და, შესაბამისად, ჯარიმის ღირებულებები პროპორციული უნდა იყოს ასეთი მუტაციების მოსალოდნელი მაჩვენებლისა. შესაბამისად, წარმოებული განლაგების ხარისხი დამოკიდებულია ქულის მინიჭების ფუნქციის ხარისხზე.

ძალიან სასარგებლო და სასწავლო შეიძლება იყოს რამოდენიმეჯერ ერთიდაიგივე გასწორება სხვადასხვა არჩევანით მატრიცული და/ან უფსკრული საჯარიმო ღირებულებების შეფასებისთვის და შედეგების შედარება. რეგიონები, სადაც გამოსავალი სუსტი ან არა უნიკალურია, ხშირად შეიძლება გამოვლინდეს დაკვირვებით, თუ რომელი რეგიონების გამძლეობაა მდგრადი პარამეტრების ვარიაციებში.

თანმიმდევრული რნმ, როგორიცაა გამოხატული თანმიმდევრობის ნიშნები და სრულმეტრაჟიანი mRNA, შეიძლება მიესადაგოს თანმიმდევრულ გენომს, რათა იპოვოს სად არის გენები და მიიღოს ინფორმაცია ალტერნატიული შეხამების შესახებ [35] და რნმ-ის რედაქტირების შესახებ. [36] თანმიმდევრობის განლაგება ასევე არის გენომის შეკრების ნაწილი, სადაც თანმიმდევრობა განლაგებულია ისე, რომ იპოვოს გადახურვა ისე, რომ კონტიგერები (თანმიმდევრობის გრძელი მონაკვეთები) შეიძლება ჩამოყალიბდეს. [37] კიდევ ერთი გამოყენება არის SNP ანალიზი, სადაც თანმიმდევრობა სხვადასხვა ინდივიდისგან არის გაერთიანებული, რათა იპოვოს ერთი ძირითადი წყვილი, რომელიც ხშირად განსხვავდება პოპულაციაში. [38]

მეთოდები, რომლებიც გამოიყენება ბიოლოგიური თანმიმდევრობის გასაზომად, ასევე იქნა ნაპოვნი სხვა სფეროებში, განსაკუთრებით ბუნებრივი ენის დამუშავებაში და სოციალურ მეცნიერებებში, სადაც Needleman-Wunsch ალგორითმს ჩვეულებრივ უწოდებენ ოპტიმალურ შესატყვისს. [39] ტექნიკამ, რომელიც გამოიმუშავებს ელემენტების ერთობლიობას, საიდანაც სიტყვები შეირჩევა ბუნებრივი ენების თაობის ალგორითმებში, ისესხა ბიოინფორმატიკიდან თანმიმდევრობის განლაგების ტექნიკა კომპიუტერული მათემატიკური მტკიცებულებების ენობრივი ვერსიების შესაქმნელად. [40] ისტორიული და შედარებითი ენათმეცნიერების სფეროში, თანმიმდევრობის გასწორება გამოყენებულია შედარებითი მეთოდის ნაწილობრივ ავტომატიზაციისათვის, რომლითაც ენათმეცნიერები ტრადიციულად აღადგენენ ენებს. [41] ბიზნესმა და მარკეტინგულმა კვლევებმა ასევე გამოიყენეს თანმიმდევრობის გასწორების ტექნიკა დროთა განმავლობაში შესყიდვების სერიის ანალიზისას. [42]

ალგორითმისა და განლაგების ტიპების მიხედვით კლასიფიცირებული ხელმისაწვდომი პროგრამული უზრუნველყოფის უფრო სრული სია ხელმისაწვდომია თანმიმდევრობის გასწორების პროგრამულ უზრუნველყოფაში, მაგრამ საერთო პროგრამული ინსტრუმენტები, რომლებიც გამოიყენება თანმიმდევრობის გასწორების ამოცანებისათვის, მოიცავს ClustalW2 [43] და T-coffee [44] გასწორებას და BLAST [45] და FASTA3x [46] მონაცემთა ბაზის საძიებლად. ასევე შესაძლებელია კომერციული ინსტრუმენტები, როგორიცაა DNASTAR Lasergene, Geneious და PatternHunter. თანმიმდევრობის გასწორების ანოტირებული ინსტრუმენტები ჩამოთვლილია bio.tools რეესტრში.

გასწორების ალგორითმები და პროგრამული უზრუნველყოფა შეიძლება ერთმანეთთან პირდაპირ შევადაროთ სტანდარტული სტანდარტული ნაკრების საორიენტაციო რამოდენიმე მიმდევრობის განლაგებას, რომელიც ცნობილია როგორც BAliBASE. [47] მონაცემთა ნაკრები შედგება სტრუქტურული განლაგებისგან, რომელიც შეიძლება ჩაითვალოს სტანდარტად, რომლის შედარება ხდება წმინდა თანმიმდევრობით დაფუძნებულ მეთოდებთან. ხშირი გასწორების პრობლემების შესახებ მრავალი საერთო განლაგების მეთოდის შედარებითი ცხრილი და შერჩეული შედეგები გამოქვეყნებულია ინტერნეტით BAliBASE– ში. [48] ​​[49] BAliBASE ქულების მრავალრიცხოვანი სია მრავალი (ამჟამად 12) სხვადასხვა გასწორების ინსტრუმენტისთვის შეიძლება გამოითვალოს ცილოვანი სამუშაო მაგიდის STRAP ფარგლებში. [50]


ბიოინფორმატიული სამუშაო ნაკადი მთელი გენომის თანმიმდევრობით

მთელი გენომის თანმიმდევრობა (WGS) აქვს უნარი მნიშვნელოვნად გააძლიეროს გენომური ცოდნა და გაიგოს ცხოვრების საიდუმლოებები ყველაზე მოწინავე გენეტიკური თანმიმდევრობის ტექნოლოგიების გამოყენებით. WGS შეიძლება გამოყენებულ იქნას ვარიანტების გამოძახებისთვის, გენომის ანოტაციისთვის, ფილოგენეტიკური ანალიზისთვის, საცნობარო გენომის კონსტრუქციისთვის და სხვა. WGS ცდილობს დაფაროს მთელი გენომი, მაგრამ რეალურად მოიცავს გენომის 95% -ს ტექნიკური სირთულეებით ისეთ რეგიონებში, როგორიცაა ცენტრომერები და ტელომერები. WGS– ის კიდევ ერთი გამოწვევა არის მონაცემთა მართვა. უფრო დიდი მონაცემთა ნაკრები უფრო ხელმისაწვდომი და ხელმისაწვდომი გახდება, გამოთვლითი ანალიზი იქნება განაკვეთების შემზღუდველი ფაქტორი და არა თანამიმდევრობის ტექნოლოგია. აქ ჩვენ განვიხილავთ ბიოინფორმატიულ მუშაობას WGS– ში გენეტიკური ვარიაციების გამოვლენის მიზნით, რათა დაგეხმაროთ მის გადალახვაში.

WGS– ის ბიოინფორმატიული სამუშაო ნაკადი მსგავსია მთელი ეგზომური თანმიმდევრობით. თქვენ შეგიძლიათ ნახოთ ჩვენი სტატია Bioinformatics Workflow მთელი Exome Sequencing. WGS– ის ბიოინფორმატიული მუშაობის ნაკადი იყოფა შემდეგ საფეხურებად: (1) ნედლი კითხვის ხარისხის კონტროლი (2) მონაცემთა წინასწარი დამუშავება (3) გასწორება (4) ვარიანტის გამოძახება (5) გენომის შეკრება (6) გენომის ანოტაცია (7) სხვა მოწინავე ანალიზები, რომლებიც დაფუძნებულია თქვენი კვლევითი ინტერესი, როგორიცაა ფილოგენეტიკური ანალიზი.

ნახაზი 1. მთელი გენომის თანმიმდევრობის ბიოინფორმაციული მუშაობის ნაკადი.

ნედლი კითხვა QC და წინასწარი დამუშავება

ნედლი ფაილები (fastq) უნდა აღმოიფხვრას უხარისხო საკითხავი/თანმიმდევრობით და ტექნიკური თანმიმდევრობით, როგორიცაა ადაპტერის თანმიმდევრობა. ეს პროცესი მნიშვნელოვანია ვარიაციის ზუსტი და საიმედო გამოვლენისთვის. FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastq) არის მძლავრი ინსტრუმენტი ნედლი კითხვის QC– სთვის, რომელიც ქმნის სტატისტიკის მონაცემების შედეგებს, მათ შორის ძირითად სტატისტიკას, თანმიმდევრობის ხარისხს, ხარისხის ქულებს, თანმიმდევრობის შინაარსს, GC შინაარსს, თანმიმდევრობის სიგრძის განაწილება, ზედმეტად წარმოდგენილი თანმიმდევრობა, თანმიმდევრობის დუბლირების დონის ნაკვეთები, ადაპტერის შინაარსი და k-mer შინაარსი. ინსტრუმენტები, როგორიცაა Fastx_trimmer და cutadapt, შეიძლება გამოყენებულ იქნას წაკითხვის ჩასაჭრელად.

საცნობარო გენომი უნდა განისაზღვროს. Mash საშუალებას გვაძლევს შევადაროთ NCBI RefSeq გენომებიდან (https://www.ncbi.nlm.nih.gov/refseq) გენერირებული მითითებების მიხედვით გენერირებული თანმიმდევრობის წაკითხვა გენეტიკური დისტანციისა და ნათესაობის დასადგენად. შემდეგი ნაბიჯი არის ხარისხის კონტროლირებადი წაკითხვის რუქის შედგენა საცნობარო გენომზე. Burrows-Wheeler Aligner (BWA) და Bowtie2 არის ორი პოპულარული მოკლე წაკითხვის გასწორების ალგორითმი. BWA და Bowtie2 გამომავალი არის სტანდარტული თანმიმდევრობის გასწორება/რუქის ფორმატი, რომელიც ცნობილია როგორც SAM, რაც ხელს უწყობს შემდეგ ნაბიჯებს. ალტერნატიულად, BLAST (http://blast.ncbi.nlm.nih.gov/Blast.cgi) ფართოდ გამოიყენება ადგილობრივი გასწორებისთვის.

ცხრილი 1. წაკითხვის გასწორების საერთო გამოთვლითი პროგრამები.

პროგრამა Წყაროს ტიპი ვებგვერდი
ბოუტი 2 Საჯარო წყარო http://bowtie-bio.sourceforge.net/bowtie2/index.shtml
ბეჭედი Საჯარო წყარო http://compbio.case.edu/seal/
საპონი 3 Საჯარო წყარო http://www.cs.hku.hk/2bwt-tools/soap3/ http://soap.genomics.org.cn/soap3.html
BWA, BWA-SW Საჯარო წყარო http://bio-bwa.sourceforge.net/
ნოვოალინი Კომერციულად ხელმისაწვდომი http://www.novocra.com/
SHRiMP/SHRiMP2 Საჯარო წყარო http://compbio.cs.toronto.edu/shrimp/
MAQ Საჯარო წყარო http://maq.sourceforget.net/
შტამპიანი Საჯარო წყარო http://www.well.ox.ac.uk/project-stampy/
ELAND Კომერციულად ხელმისაწვდომი http://www.illumina.com/
სარუმანი Საჯარო წყარო http://www.cebitec.uni-bielefeld.de/brf/saruman/saruman.html

ვარიანტული ზარი

მას შემდეგ, რაც წაკითხული მიემართება საცნობარო გენომს, ვარიანტების იდენტიფიცირება შესაძლებელია გენომის ნიმუშის საცნობარო გენომთან შედარების გზით. აღმოჩენილი ვარიანტები შეიძლება ასოცირდებოდეს დაავადებასთან, ან უბრალოდ იყოს არაფუნქციური გენომური ხმაური. ვარიანტის ზარის ფორმატი (VCF) არის სტანდარტული ფორმატი თანმიმდევრობის ცვალებადობის შესანახად, მათ შორის SNPs (ერთი ნუკლეოტიდური პოლიმორფიზმი), ინდელები, სტრუქტურული ვარიანტები და ანოტაციები. ვარიანტული ზარი შეიძლება გართულდეს SNV– ებისა და ინდელების ცრუ პოზიტიური და ცრუ ნეგატიური იდენტიფიკაციის მაღალი მაჩვენებლის გამო. ცხრილი 2 -ში მოცემული პროგრამული პაკეტები სასარგებლოა ვარიანტების გამოძახების გასაუმჯობესებლად.

ცხრილი 2. პროგრამული პაკეტები ვარიანტის გამოძახებისთვის.

  • მრავალჯერადი მიმდევრობის გადალაგება
  • ხარისხის ქულის ხელახალი კალიბრაცია
  • SNP გენოტიპირება
  • ინდელის აღმოჩენა და გენოტიპირება
  • თანხმობის გამოძახება და SNP გამოვლენა
  • თითოეული გენოტიპის ალბათობის გაანგარიშება
  • გამოავლენს ვარიანტებს 1% სიხშირით
  • თანმიმდევრობის სიღრმის ნორმალიზება თითოეულ პოზიციაზე
  • მრავალფეროვანი NGS პლატფორმებიდან შესაბამისი მონაცემების მოწოდება

გენომის შეკრება

დე ნოვო შეკრება არის პროცესი, რომელიც ათავსებს გადაფარებულ კითხვებს, რათა შეიქმნას უფრო გრძელი კონტიგურები (უფრო დიდი მიმდევრობის თანმიმდევრობა) და დაალაგოს კონტიგურები ხარაჩოებად (თანმიმდევრული გენომის ჩარჩო). თუ არსებობს მინიშნება გენომი მონათესავე სახეობებისგან, გავრცელებული მეთოდია ჯერ კონტიგერების გენერირება de novo და შემდეგ გაათანაბრეთ ისინი საყრდენი გენომისათვის ხარაჩოს ​​შეკრებისთვის. ალტერნატიული მიდგომა არის "Align-Layout-Consensus" ალგორითმი. ეს მეთოდი ჯერ კითხულობს მჭიდროდ დაკავშირებულ საცნობარო გენომს, შემდეგ კი აგებს კონტინგებსა და ხარაჩოებს de novo.

ცხრილი 3. საერთო ასამბლეები მრავალფეროვანი მიმდევრობის პლატფორმებისთვის.

მომხმარებლებს შეუძლიათ შეაფასონ გენომის შეკრებების ხარისხი ან შეადარონ სხვადასხვა მეთოდებით წარმოქმნილი ასამბლეები. არსებობს სხვადასხვა მეტრიკა, რომელიც ასახავს შეკრების ხარისხს. მხოლოდ მომიჯნავე თითქმის სრული (დაახლოებით 90%) შეკრება, რომელიც შეწყვეტილია მცირე ხარვეზებით, გამოიღებს გენომის წარმატებულ ანოტაციას.

  • გენომის ზომარა C- მნიშვნელობასა და k-mer სიხშირეზე დაფუძნებულ მიდგომებს შეუძლიათ დაადგინონ გენომის ზომა.
  • ასამბლეის მიმდებარეობარა N50 სტატისტიკა შეიძლება გამოყენებულ იქნას შეკრების მიმდებარეობის შესაფასებლად, რომელიც აღწერს აწყობილი მიმდევრობის სიგრძეების ერთგვარ მედიანას.
  • სიზუსტერა Transcriptome მონაცემები წარმოადგენს მნიშვნელოვან რესურსს თანმიმდევრობის სიზუსტის დასადასტურებლად და ხარაჩოების გასასწორებლად. შედარებითი გენომიკური მიდგომები ასევე შეიძლება იყოს მითითება არასწორი შეკრებებისა და ქიმერული კონტიგების გამოვლენისას.

გენომის ანოტაცია

გენომის თანმიმდევრობის სრულად გასაგებად, საჭიროა მისი ანოტირება ბიოლოგიურად შესაბამისი ინფორმაციით, როგორიცაა გენური ონტოლოგიის (GO) ტერმინები, KEGG გზები და ეპიგენეტიკური ცვლილებები. ანოტაცია მოიცავს ორ ფაზას:

(1) გამოთვლის ფაზა. გამოთვლის ეტაპი მოიცავს განმეორებით ნიღბვას, კოდირების თანმიმდევრობის (CDS) პროგნოზირებას და გენური მოდელების პროგნოზირებას.

  • გაიმეორეთ ნიღაბი. ვინაიდან გამეორებები ცუდად არის დაცული სახეობებში, რეკომენდებულია სახეობების სპეციფიკური განმეორებითი ბიბლიოთეკის შექმნა ისეთი ინსტრუმენტების გამოყენებით, როგორიცაა RepeatModeler, RepeatExplorer.
  • CDS– ის პროგნოზირება. პროგნოზირება CDS გამოყენებით ab initio ალგორითმები.
  • გენის მოდელების პროგნოზირება. ცილების განლაგება, სხვა სახეობების სინთეზური ცილების მომატება, EST და RNA- სექ მონაცემებს შეუძლიათ მნიშვნელოვანი რესურსი გენის მოდელების პროგნოზირებისთვის.

(2) ანოტაციის ფაზა. ყველა ზემოთ ჩამოთვლილი მტკიცებულება (აბ საწყისი პროგნოზირება, ისევე როგორც ცილის, EST- და რნმ-განლაგება) შემდეგ სინთეზირდება გენის ანოტაციაში. გარდა ამისა, ავტომატიზირებული ანოტირების ინსტრუმენტები, როგორიცაა MAKER და PASA, ხელმისაწვდომია მტკიცებულებების ინტეგრირებისა და შესაფასებლად. WebApollo შეიძლება გამოყენებულ იქნას ანოტაციის რედაქტირებისთვის ვიზუალური ინტერფეისის საშუალებით, თუ რაიმე არასწორია გენის ანოტაციებში.

მას შემდეგ რაც გენომის ანოტაცია შეფასდება ვიზუალური შემოწმებით, თქვენ შეგიძლიათ გამოაქვეყნოთ გენომის თანმიმდევრობის პროექტი და ანოტაცია. იმისათვის, რომ სხვებმა შეძლონ გენომის შეკრებისა და ანოტაციის გაუმჯობესება, ყველა ნედლი მონაცემი უნდა აიტვირთოს. გენომის ასატვირთად ხელმისაწვდომი მონაცემთა ბაზები მოიცავს ENSEMBL და NCBI.

  1. Dolled-Filhart M P, Lee M, Ou-yang C, და სხვებირა გამოთვლითი და ბიოინფორმატიული ჩარჩოები მომავალი თაობის მთელი ეგზომისა და გენომის თანმიმდევრობისათვის. სამეცნიერო მსოფლიო ჟურნალი, 2013, 2013.
  2. Ekblom R, Wolf J B W. საველე გზამკვლევი მთელი ‐ გენომის თანმიმდევრობით, შეკრებითა და ანოტაციით. ევოლუციური პროგრამები, 2014, 7(9): 1026-1042.
  3. Kwong J C, McCallum N, Sintchenko V, და სხვებირა მთელი გენომის თანმიმდევრობა კლინიკური და საზოგადოებრივი ჯანმრთელობის მიკრობიოლოგიაში. პათოლოგია, 2015, 47(3): 199-210.
  4. მეენა ნ, მათურ პ, მედიჩერლა კ მ, და სხვებირა ბიოინფორმატიული მილსადენი მთლიანი ეგზემპლარის თანმიმდევრობით: დამუშავების მიმოხილვა და ნედლეული მონაცემებიდან შემდგომი ანალიზის საფეხურები. bioRxiv, 2017: 201145.
  5. ოუკსონი K F, ვაგნერი J M, მენდენჰალი M, და სხვებირა მთელი გენომის თანმიმდევრობის მონაცემების ბიოინფორმაციული ანალიზი საზოგადოებრივი ჯანდაცვის ლაბორატორიაში. განვითარებადი ინფექციური დაავადებები, 2017, 23(9): 1441.

მიიღეთ უახლესი სამეცნიერო ინფორმაცია CD Genomics– დან, რომელიც იგზავნება პირდაპირ თქვენს შემოსულებში ყოველთვიურად.


ავტორის ინფორმაცია

ამჟამინდელი მისამართი: ამჟამინდელი მისამართი: PubBio-Tech, ვუჰანი 430070, ჩინეთი,

ამჟამინდელი მისამართი: ამჟამინდელი მისამართი: ბრინჯის მეცნიერების ცენტრი და აგრონომიის დეპარტამენტი, სოფლის მეურნეობის ფაკულტეტი, კასეცარტის უნივერსიტეტი, კამფჰენგ საენი, ნახონ პათომი 73140, ტაილანდი,

სებასტიან რეიეს-ჩინ-ვო, ჟივენ ვანგი და სინჰუა იანგი: ამ ავტორებმა თანაბარი წვლილი შეიტანეს ამ საქმეში.

კუთვნილება

UC Davis Genome Center, Davis, 95616, კალიფორნია, აშშ

სებასტიან რეიეს-ჩინ-ვო, ალექსანდრე კოზიკი, ლუც ფრონიკე, დინ ო. ლაველი, მარია-ხოსე ტრუკო, ჰუაკინ ხუ, კაილ კოქსი, იან კორფი და რიჩარდ ვ. მიშელმორი

BGI Shenzhen, Shenzhen, 518083, ჩინეთი

ჟივენ ვანგი, სინჰუა იანგი, ჩი სონგი, ლიანგფენგ სია, შილინ ჟუ, ჩუნიან ხუ და ამპუნი Xun Xu

დელავერის ბიოტექნოლოგიის ინსტიტუტი, დელავერის უნივერსიტეტი, ნიუარკი, 19711, დელავერი, აშშ

Siwaret Arikit & amp Blake C. Meyers

Donald Danforth Plant Science Centre, 975 North Warson Road, St Louis, 63132, მისური, აშშ

მოლეკულური და უჯრედული ბიოლოგიის დეპარტამენტი, UC Davis, 95616, კალიფორნია, აშშ

იან კორფი და რიჩარდ ვ. მიშელმორი

მცენარეთა მეცნიერებათა დეპარტამენტი, UC Davis, 95616, კალიფორნია, აშშ

სამედიცინო მიკრობიოლოგიისა და იმუნოლოგიის დეპარტამენტი, UC Davis, 95616, კალიფორნია, აშშ

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

თქვენ ასევე შეგიძლიათ მოძებნოთ ეს ავტორი PubMed Google Scholar– ში

წვლილი

BGI გუნდი (Z.W., X.Y., C.S., L.X., S.Z., C.X., X.X.) პასუხისმგებელი იყო ბიბლიოთეკის მშენებლობაზე, გენომის თანმიმდევრობასა და საწყის შეკრებაზე და ანალიზზე. UC დევისის გუნდი (SR-C.-W., DOL, AK, LF, M.-JT, HX, KC, IK, RWM) პასუხისმგებელი იყო მასალის მომზადებაზე, გენური სივრცის თანმიმდევრობით, cDNA და RILs, გენეტიკური ვალიდაცია და მეორადი ანალიზები. მცირე რნმ -ები გაანალიზებულია ს.ა. -სა და რ.ქ. ძვ.წ.მ. ნაშრომი დაწერილია S.R.-C.-W. და რ.ვ.მ. ბევრი ავტორის მნიშვნელოვანი წვლილით.

შესაბამისი ავტორი


მეთოდები და ინსტრუმენტები მთელი გენომის თანმიმდევრობის მონაცემთა ანალიზისათვის

შესავალი მთელი გენომის თანმიმდევრობით

ყველაზე დახვეწილი გენეტიკური თანმიმდევრობის ინოვაციების გამოყენებით, მთლიანი გენომის თანმიმდევრობა (WGS) აქვს პოტენციალი უკიდურესად გააუმჯობესოს გენომური გაგება და გახსნას ცხოვრების საიდუმლოებები. WGS შეიძლება გამოყენებულ იქნას სხვადასხვა მიზნებისათვის, მათ შორის ვარიანტების გამოძახება, გენომის ანოტაცია, ფილოგენეტიკური შეფასება და გენომის საცნობარო განვითარება. WGS– ის მონაცემების მართვა კიდევ ერთი საკითხია. გამოთვლითი შეფასება, ვიდრე ინოვაციის თანმიმდევრობა, იქნება განაკვეთის შემზღუდველი ცვლადი, რადგან უფრო დიდი მონაცემთა ნაკრები უფრო ხელმისაწვდომი და ეკონომიური გახდება.

ქვემოთ მოცემულია WGS– ის ბიოინფორმატიკის შაბლონის ეტაპები: (1) ნედლი კითხვის ხარისხის კონტროლი (2) მონაცემების წინასწარი დამუშავება (3) გასწორება (4) ვარიანტის გამოძახება (5) გენომის შეკრება და (6) გენომის ანოტაცია. პროგრამული უზრუნველყოფის მიხედვით, სხვადასხვა სახის მონაცემთა შეფასება იქნება საჭირო.

ნედლი კითხვა QC და წინასწარი დამუშავება

უხარისხო კითხვა/თანმიმდევრობა, ისევე როგორც ტექნიკური თანმიმდევრობა, როგორიცაა ადაპტერის თანმიმდევრობა, უნდა მოიხსნას ნედლი ფაილებიდან (fastq). ეს პროცედურა უმნიშვნელოვანესია ვარიაციების სიზუსტით და საიმედოობით გამოვლენისათვის. FastQC არის ეფექტური ნედლეულის წაკითხვის ხარისხის კონტროლის ინსტრუმენტი, რომელიც ქმნის სტატისტიკურ მონაცემებს, რომლებიც მოიცავს ძირითად სტატისტიკას, თანმიმდევრობის ხარისხს, ხარისხის ქულებს, თანმიმდევრობის შინაარსს, GC შინაარსს, თანმიმდევრობის სიგრძის განაწილებას, ზედმეტად წარმოდგენილ მიმდევრობებს, თანმიმდევრობის დუბლირების დონის დიზაინს, ადაპტერის შემადგენლობას და k-mer კომპოზიციას რა ინსტრუმენტები, როგორიცაა Fastx საპარსები და cutadapt შეიძლება გამოყენებულ იქნას წაკითხვის trimming.

გასწორება

აუცილებელია საცნობარო გენომის ჩამოყალიბება. Mash საშუალებას გვაძლევს შევაფასოთ გენეტიკური მანძილი და ურთიერთმიმართება NCBI RefSeq გენომებიდან მითითებული მითითებების მიხედვით წარმოებული თანმიმდევრობის წაკითხვის შედარების გზით. ხარისხის კონტროლირებადი კითხვები ახლა უნდა იყოს ასახული საცნობარო გენომზე. ჩვეულებრივი მიმდევრობის გასწორება/რუქის შაბლონი, რომელიც ცნობილია როგორც SAM, დამზადებულია BWA და Bowtie2– ის მიერ, რაც ამარტივებს შემდეგ პროცესებს. BLAST, მეორეს მხრივ, ჩვეულებრივ გამოიყენება ადგილობრივი გასწორებისთვის.

ვარიანტული ზარი

ვარიანტები შეიძლება შეფასდეს ნიმუშის გენომის შედარებისას საცნობარო გენომთან მას შემდეგ, რაც წაკითხული მიემართება საცნობარო გენომს. აღმოჩენილი ვარიანტები შეიძლება უკავშირდებოდეს დაავადებას ან უბრალოდ არაფუნქციურ გენომურ ხმაურს. SNPs (ერთი ნუკლეოტიდური პოლიმორფიზმი), ინდელები, სტრუქტურული ვარიანტები და ანოტაციები ყველა ინახება VCF– ში, რაც თანმიმდევრობის ვარიაციების შენახვის ჩვეულებრივი შაბლონია. SNV– ებისა და ინდელების ცრუ პოზიტიური და ცრუ უარყოფითი გამოვლენის მაღალი პროცენტის გამო, ვარიანტებით დარეკვა შეიძლება იყოს რთული.

გენომის შეკრება

გადახურვის წაკითხვის გასწორების პროცესი უფრო გრძელი კონგის შესაქმნელად (უფრო დიდი თანმიმდევრული თანმიმდევრობა) და შეკრების ხერხები ხარაჩოებში ცნობილია როგორც დე ნოვოს შეკრება (თანმიმდევრული გენომის შაბლონი). როდესაც შესაბამისი ნიმუშის საცნობარო გენომი ხელმისაწვდომია, ნორმალური პრაქტიკაა ნარჩენების წარმოება ნულიდან, სანამ ისინი მიემართება ხარაჩოს ​​შეკრების საცნობარო გენომთან. ალგორითმი "Align-Layout-Consensus" არის კიდევ ერთი ვარიანტი. ეს ტექნიკა აწესრიგებს კითხულობს მკაცრად დაკავშირებულ საცნობარო გენომს ნულიდან კონგისა და ხარაჩოს ​​შექმნამდე.

შეკრების ხარისხი შეიძლება შეფასდეს სხვადასხვა მეტრიკის გამოყენებით. გენომის ეფექტური ანოტაცია მოითხოვს მომიჯნავე თითქმის სრულ (დაახლოებით 90%) შეკრებას, რომელიც დარღვეულია მცირე ხარვეზებით.
-გენომის ზომა: შეიძლება შეფასდეს როგორც C- მნიშვნელობის, ასევე k-mer სიხშირეზე დაფუძნებული მეთოდების გამოყენებით.
- ასამბლეის შეხამება: N50 სტატისტიკა, რომელიც განსაზღვრავს აწყობილი მიმდევრობის სიგრძეების მედიანის ტიპს, შეიძლება გამოყენებულ იქნას ასამბლეის მიმდებარეობის შესაფასებლად.
- სიზუსტე: ტრანსკრიპტომირებული მონაცემები არის მნიშვნელოვანი რესურსი მიმდევრობის სიზუსტის გადამოწმებისა და ხარაჩოების დასაფიქსირებლად. არასწორი შეკრებები და ქიმერული კონტიგენტები ასევე შეიძლება გამოვლინდეს შედარებითი გენომიკური მეთოდების გამოყენებით.

გენომის ანოტაცია

გენომის თანმიმდევრობის სრულად გააზრების მიზნით, უნდა იყოს ფორმატირებული ბიოლოგიურად შესაბამისი დეტალები, როგორიცაა გენური ონტოლოგია (GO) ტერმინები, KEGG გზები და ეპიგენეტიკური ცვლილებები. ანოტაციას ორი ეტაპი აქვს:

    გამოთვლის ეტაპები. განმეორებითი შენიღბვა, კოდირების თანმიმდევრობის პროგნოზირება (CDS) და გენური მოდელის პროგნოზირება ყველა გამოთვლითი ფაზის ნაწილია.

გაიმეორეთ ნიღბის პროცესი. ვინაიდან გამეორებები ცუდად არის დაცული ორგანიზმებში, გირჩევთ გამოიყენოთ ისეთი ინსტრუმენტები, როგორიცაა RepeatModeler და RepeatExplorer, სახეობების სპეციფიკური განმეორებითი ბიბლიოთეკის შესაქმნელად. გენის მოდელები პროგნოზირებულია. პროტეინის განლაგება, სხვა სახეობების სინთეზური ცილების მომატება, EST და RNA- სექს მონაცემები შეიძლება იყოს ყველა სასარგებლო გენის მოდელების პროგნოზირებაში.

CD Genomics ბიოინფორმატიკის ანალიზის შესახებ

CD Genomics– ის ბიოინფორმატიული ანალიზის განყოფილება იძლევა ახალ გადაწყვეტილებებს მონაცემებზე ორიენტირებული ინოვაციებისთვის, რომელიც მიზნად ისახავს ბიოლოგიურ მონაცემებში ფარული პოტენციალის აღმოჩენას, სიცოცხლის მეცნიერებასთან დაკავშირებულ ახალ შეხედულებებს და ახალი პერსპექტივების პროგნოზირებას.


Უყურე ვიდეოს: ბიოლოგია, X კლასი - ნუკლეინის მჟავები - დნმ და რნმ #ტელესკოლა (დეკემბერი 2021).