ინფორმაცია

ჩატვირთვის ღირებულებები


რას მიუთითებს ჩატვირთვის მნიშვნელობები სახეობებს შორის ურთიერთობის შესახებ? მე ვმუშაობ მეგას პროგრამაზე, მაგრამ არ მესმის რას ნიშნავს ჩატვირთვის ღირებულება მარტივი სიტყვებით და ასევე რას ნიშნავს ის სახეობებს შორის ურთიერთობის შესახებ


ჩატვირთვის ღირებულებები მიეკუთვნება ღირებულებების ფართო კატეგორიას, სახელწოდებით მხარდაჭერის ღირებულებებირა ზოგადად დამხმარე მნიშვნელობები გამოიყენება იმის დასადგენად, თუ რამდენად შესაძლებელია ვიყოთ დარწმუნებული იმაში, რომ ფილიალი წარმოადგენს მონაცემებში არსებულ "სიგნალს".

კერძოდ, ჩატვირთვის მნიშვნელობები მიუთითებს როგორ ძლიერი ხის ტოტები არის, ანუ რამდენად გამძლეა ისინი მონაცემების დარღვევის მიმართ. ისინი მიიღება მონაცემთა მატრიცის სვეტების ხელახალი შერჩევით, ხეების აგებით ასეთი ხელახალი შერჩევის მატრიცებიდან და მიღებული ხეების პროპორციის დათვალიერებით, რომელიც შეიცავს მოცემულ ტოტს.

ჩატვირთვის შემთხვევაში, ხელახალი შერჩევის ეტაპი ხდება შემდეგნაირად: დავუშვათ, რომ მონაცემთა საწყის მატრიქსს აქვს N სვეტი (ანუ N დაშიფრული სიმბოლოები, რომლებიც შეიძლება იყოს ნუკლეოტიდები ან ამინომჟავები მიმდევრობით, მორფოლოგიური ნიშნები, ყოფნა- გენომური მახასიათებლების არარსებობა და სხვა). ახალი მატრიცა მიიღება შემთხვევით რომელიმე ამ სვეტის დახაზვით, N ჯერ. ამრიგად, ახალ მატრიცას ექნება იგივე რაოდენობის სიმბოლო, მაგრამ ზოგი ორიგინალური მატრიციდან რამდენჯერმე იქნება წარმოდგენილი, ზოგი კი არ იქნება. ეს გავლენას მოახდენს ხის ტოპოლოგიაზე. მაგალითად, თუ ფილიალი მხარს უჭერდა სიმბოლოებს, რომლებიც ახლა არ არსებობს, ეს ფილიალი შეიძლება აღარ გამოჩნდეს ამ კონკრეტული ხელახალი შერჩევით. ხელახალი შერჩევა ჩვეულებრივ ხდება დაახლოებით 100 ან 1000-ჯერ.

ჩატვირთვის დაბალი ღირებულება ნიშნავს, რომ თუ ხე აგებულია მონაცემების ქვეჯგუფის გამოყენებით, სავარაუდოა, რომ ეს ტოტი არ გამოჩნდება.

ჩატვირთვის მაღალი ღირებულება ნიშნავს იმას, რომ ტოტი სავარაუდოდ გამოჩნდება ხეზე, რომელიც აშენებულია ასეთი ხელახალი შერჩევის მატრიცისგან. ეს სულაც არ ნიშნავს იმას, რომ ფილიალი უფრო მეტად წარმოადგენს ნამდვილ ისტორიულ ურთიერთობებს, თუმცა: ზოგჯერ, რეკონსტრუქციის ნიმუშები შეიძლება იყოს ძლიერი. მაგალითად, ზოგიერთი მოლეკულური ფილოგენეზის რეკონსტრუქციის მეთოდით, ტაქსონები შეიძლება დაჯგუფდეს გენომის შემადგენლობის მსგავსების საფუძველზე. ჩატვირთვის მაღალი მაჩვენებლები მიუთითებს იმაზე, რომ ფილიალის დამხმარე მონაცემებში არის ძლიერი სიგნალი, იქნება ეს ისტორიული სიგნალი თუ სხვა.


ჩატვირთვის ღირებულებები -გთხოვთ, დაგეხმაროთ - (2007 წლის 20 დეკემბერი)

მე უნდა გავიგო ფილოგენური ხის ჩატვირთვის მნიშვნელობები.
თუ ჩამტვირთავი მნიშვნელობები არის 1000, 786, 502 და ა.

ჯერჯერობით მე ვიცი, რომ ჩატვირთვის ანალიზი არის მეთოდი იმის შესამოწმებლად, თუ რამდენად შეესაბამება კონკრეტული მონაცემთა მოდელი მოდელს. რას ნიშნავს ეს მნიშვნელობა, ანუ 1000, 786 და ა.

მე შევიკრიბე ერთი წიგნი ბიოინფორმატიკაზე. თანმიმდევრობა და გენომის ანალიზი დევიდ ვ. მთა. მაგრამ ბევრს არ ამბობს ჩატვირთვის მნიშვნელობებზე. არის რაიმე შესაფერისი ონლაინ წყარო ამის გასაგებად?

ნებისმიერი შემდგომი რეკომენდაცია იქნება დასაფასებელი.
წინასწარ გმადლობ.

Bootstrapping არის მეთოდი, რომლის დროსაც თქვენ იღებთ ვებ – გვერდების ქვე -ნიმუშს განლაგებით და ქმნით ხეებს ამ ქვესახეობებზე დაყრდნობით - ორიგინალური ხე შედარებულია ახალ ხესთან. ორიგინალური ხის ყველა კლასისთვის, 1 ქულა ენიჭება, თუ ის არის ახალი ხეში, 0 არის მინიჭებული, თუ ახალი ხე არ არის. ეს პროცესი წარმოადგენს ჩატვირთვის ერთ ნიმუშს. თითოეული კლასისთვის ანგარიში ჩაწერილია და შესაძლებელია ჩატვირთვის შემდგომი ციკლის დაწყება. რაც უფრო მაღალია ქულა, მით უფრო საიმედოა განშტოება იმ მომენტში. როგორც წესი, 100 -დან 1000 ჩატვირთვის გამეორება გამოიყენება ხეების საიმედოობის შესაფასებლად.

Bootstrapping არის მარტივი გზა იმის შესამოწმებლად, თუ რამდენად საიმედოა მრავალჯერადი მიმდევრობის განლაგება (MSA). MSA– ს ძირითადი საფუძველია ის, რომ ჰომოლოგიური ნარჩენები განლაგებულია MSA– ს ყველა სვეტში. მაგრამ ეს მხოლოდ ყველაზე იდეალურ შემთხვევებშია და საუკეთესო MSA პროგრამებიც კი ამის გარანტიას ვერ იძლევა. ასე რომ, MSA– ს უმეტესობაში ხდება, რომ განლაგების გარკვეული ნაწილები ძალიან კარგად არის განლაგებული, ზოგი კი არა. ასე რომ, ერთ -ერთი გზა იმის შესამოწმებლად, თუ რამდენად კარგია განლაგების სხვადასხვა ნაწილები არის MSA– ში ცოტაოდენი ხმაურის შემოღება. ეს კეთდება რაღაც სახელწოდებით & quotSampling with ჩანაცვლება & quot; სადაც MSA- ს სიგრძის მუდმივი შენარჩუნებით სვეტები შემთხვევით ხდება შერჩეული და შეცვლილი. ეს შემოაქვს ცოტა ხმაური MSA– ში და ხე გამოითვლება ამ ახალი MSA– სთვის. ანალოგიურად ხმაური შემოდის MSA– ს სხვადასხვა ნაწილში და გამოითვლება მრავალი სხვა ხე. როგორც წესი, ჩატვირთვის რაოდენობის რაოდენობა, რომელსაც თქვენ ასრულებთ MSA– ზე, დამოკიდებულია MSA– ს სიგრძეზე. MSA– ს 2/3 – ის აღება ჩატვირთვის გზით ზოგადად ითვლება საკმარისად. (1000 ჩატვირთვის ჩამკეტი ახდენს ნიმუშებს MSA– ს 2/3 - ზე მეტის შეცვლით თითქმის ყველა შემთხვევაში).

ახლა, როდესაც სხვადასხვა ხეები გამოითვლება სხვადასხვა MSA– სთვის, ხეების კონსენსუსი უნდა შეიქმნას (ჩვეულებრივ, უმრავლესობის მოგების ვარიანტით). ჩატვირთვის ფასეულობები ახლა შეიძლება ჩაითვალოს, რომ გულისხმობს ჩამტვირთავი MSA– ს რამდენი პროცენტი მხარს უჭერს კონკრეტულ კლასს, მიუხედავად ყველა ხმაურის დანერგვისა. ძლიერი ჰომოლოგიური ასოციაციები არ იტანჯებიან მაშინაც კი, როდესაც ხმაური შემოდის, ხოლო სუსტი ასოციაციები უბრალოდ ვლინდება სუსტი ჩამტვირთავი ღირებულებებით და შეუძლია ხეზე იმოძრაოს ნებისმიერ ადგილას, განსაკუთრებული და თანმიმდევრული ასოციაციის გარეშე.

ვინმეს ვურჩევდი ფილოგენეტიკური ხეების მშენებლობას, წაიკითხოს ეს მშვენიერი გაკვეთილი. მისი წაკითხვა მარტივია და ნებისმიერს შეუძლია სწრაფად დაიწყოს ხეების მშენებლობა.

შემატყობინეთ, თუ ჯერ კიდევ გაქვთ რაიმე შეკითხვა

Thx Bunsen Honeydew და String საჭირო ინფორმაციის მოწოდებისთვის.
საუკეთესო სურვილებით

Bootstrapping არის მარტივი გზა იმის შესამოწმებლად, თუ რამდენად საიმედოა მრავალჯერადი მიმდევრობის განლაგება (MSA). MSA– ს ძირითადი საფუძველია ის, რომ ჰომოლოგიური ნარჩენები განლაგებულია MSA– ს ყველა სვეტში. მაგრამ ეს მხოლოდ ყველაზე იდეალურ შემთხვევებშია და MSA– ს საუკეთესო პროგრამებიც კი ამის გარანტიას ვერ იძლევა. ასე რომ, MSA– ს უმეტესობაში ხდება, რომ განლაგების გარკვეული ნაწილები ძალიან კარგად არის განლაგებული, ზოგი კი არა. ასე რომ, ერთ -ერთი გზა იმის შესამოწმებლად, თუ რამდენად კარგია განლაგების სხვადასხვა ნაწილები არის MSA– ში ცოტაოდენი ხმაურის შემოღება. ეს კეთდება რაღაც სახელწოდებით & quotSampling with zëvendësing & quot; სადაც MSA- ს სიგრძის მუდმივი შენარჩუნებით სვეტები შემთხვევით ხდება შერჩეული და შეცვლილი. ეს შემოაქვს ცოტა ხმაური MSA– ში და ხე გამოითვლება ამ ახალი MSA– სთვის. ანალოგიურად ხმაური შემოდის MSA– ს სხვადასხვა ნაწილში და გამოითვლება მრავალი სხვა ხე. როგორც წესი, ჩატვირთვის რაოდენობის რაოდენობა, რომელსაც თქვენ ასრულებთ MSA– ზე, დამოკიდებულია MSA– ს სიგრძეზე. MSA– ს 2/3 – ის აღება ჩატვირთვის გზით ზოგადად ითვლება საკმარისად. (1000 ჩატვირთვის ჩამკეტი ახდენს ნიმუშებს MSA– ს 2/3 - ზე მეტის შეცვლით თითქმის ყველა შემთხვევაში).

ახლა, როდესაც სხვადასხვა ხეები გამოითვლება სხვადასხვა MSA– სთვის, ხეების კონსენსუსი უნდა შეიქმნას (ჩვეულებრივ, უმრავლესობის მოგების ვარიანტით). ჩატვირთვის ფასეულობები ახლა შეიძლება ჩაითვალოს, რომ გულისხმობს ჩამტვირთავი MSA– ს რამდენი პროცენტი მხარს უჭერს კონკრეტულ კლასს, მიუხედავად ყველა ხმაურის დანერგვისა. ძლიერი ჰომოლოგიური ასოციაციები არ იტანჯებიან მაშინაც კი, როდესაც ხმაური შემოდის, ხოლო სუსტი ასოციაციები უბრალოდ ვლინდება სუსტი ჩამტვირთავი ღირებულებებით და შეუძლია ხეზე იმოძრაოს ნებისმიერ ადგილას, განსაკუთრებული და თანმიმდევრული ასოციაციის გარეშე.

ვინმეს ვურჩევდი, რომ ააშენოს ფილოგენეტიკური ხეები წაიკითხოს ეს მშვენიერი გაკვეთილი. მისი წაკითხვა მარტივია და ნებისმიერს შეუძლია სწრაფად დაიწყოს ხეების მშენებლობა.


როგორ შევასრულოთ ჩატვირთვა R– ში (მაგალითებით)

ჩატვირთვა არის მეთოდი, რომელიც შეიძლება გამოყენებულ იქნას ნებისმიერი სტატისტიკის სტანდარტული შეცდომის შესაფასებლად და სტატისტიკის ნდობის ინტერვალის შესაქმნელად.

ჩატვირთვის ძირითადი პროცესი შემდეგია:

  • მიიღეთ განმეორებითი ნიმუშები მოცემული მონაცემთა ნაკრებიდან ჩანაცვლებით.
  • თითოეული ნიმუშისთვის გამოთვალეთ სტატისტიკა, რომელიც გაინტერესებთ.
  • ეს იწვევს განსხვავებული შეფასებები მოცემული სტატისტიკისთვის, რომელიც შეგიძლიათ გამოიყენოთ სტატისტიკის სტანდარტული შეცდომის გამოსათვლელად და სტატისტიკის ნდობის ინტერვალის შესაქმნელად.

ჩვენ შეგვიძლია ჩავტვირთოთ R- ში ჩამტვირთავი ბიბლიოთეკიდან შემდეგი ფუნქციების გამოყენებით:

1. შექმენით ჩამტვირთავი ნიმუშები.

ჩატვირთვა (მონაცემები, სტატისტიკა, R, …)

  • მონაცემები: ვექტორი, მატრიცა ან მონაცემთა ჩარჩო
  • სტატისტიკა: ფუნქცია, რომელიც აწარმოებს სტატისტიკას (ებ) ს ჩამტვირთავი
  • რ: ჩატვირთვის გამეორებების რაოდენობა

2. შექმენით ჩამტვირთავი ნდობის ინტერვალი.

boot.ci (bootobject, conf, type)

  • bootobject: Boot () ფუნქციით დაბრუნებული ობიექტი
  • conf: ნდობის ინტერვალი გამოსათვლელად. ნაგულისხმევი არის 0.95
  • ტიპი: ნდობის ინტერვალის ტიპი გამოსათვლელად. პარამეტრები მოიცავს “ Norm ”, “ ძირითადი ”, “stud ”, “perc ”, “bca ” და “all ” – ნაგულისხმევი არის “ ყველა ”

შემდეგი მაგალითები აჩვენებს, თუ როგორ გამოიყენოთ ეს ფუნქციები პრაქტიკაში.

მაგალითი 1: ჩატვირთეთ ერთი სტატისტიკა

შემდეგი კოდი გვიჩვენებს, თუ როგორ უნდა გამოვთვალოთ სტანდარტული შეცდომა მარტივი წრფივი რეგრესიული მოდელის R- კვადრატში:

შედეგებიდან ჩვენ ვხედავთ:

  • ამ რეგრესიული მოდელის სავარაუდო R- კვადრატი არის 0.7183433.
  • ამ შეფასების სტანდარტული შეცდომა არის 0.06513426.

ჩვენ ასევე შეგვიძლია სწრაფად დავინახოთ ჩატვირთვის ნიმუშების განაწილება:

ჩვენ ასევე შეგვიძლია გამოვიყენოთ შემდეგი კოდი მოდელის სავარაუდო R კვადრატის 95% ნდობის ინტერვალის გამოსათვლელად:

გამომავალიდან ჩვენ ვხედავთ, რომ 95% ჩამტვირთავი ნდობის ინტერვალი ჭეშმარიტი R კვადრატული მნიშვნელობებისთვის არის (.5350, .8188).

მაგალითი 2: ჩატვირთვის მრავალჯერადი სტატისტიკა

შემდეგი კოდი გვიჩვენებს, თუ როგორ უნდა გამოვთვალოთ თითოეული კოეფიციენტის სტანდარტული შეცდომა მრავალჯერადი ხაზოვანი რეგრესიის მოდელში:

შედეგებიდან ჩვენ ვხედავთ:

  • მოდელის ჩაჭრის სავარაუდო კოეფიციენტი არის 29.59985476 და ამ შეფასების სტანდარტული შეცდომა არის 1.49354577.
  • პროგნოზირების ცვლადის სავარაუდო კოეფიციენტი დისპ მოდელში არის -0.04121512 და ამ შეფასების სტანდარტული შეცდომა არის 0.00527082.

ჩვენ ასევე შეგვიძლია სწრაფად დაათვალიეროთ ჩამტვირთავი ნიმუშების განაწილება:

ჩვენ ასევე შეგვიძლია გამოვიყენოთ შემდეგი კოდი თითოეული კოეფიციენტის 95% ნდობის ინტერვალების გამოსათვლელად:

გამომავალიდან ჩვენ შეგვიძლია დავინახოთ, რომ მოდელის კოეფიციენტების 95% ჩამტვირთავი ნდობის ინტერვალი ასეთია:


მშენებლობა და შინაარსი

მიმოხილვა

STBase– ის მიზანია უზრუნველყოს ინსტრუმენტი, რომელიც მიიღებს მომხმარებლის მიერ მოთხოვნილი ტაქსონის სახელების ჩამონათვალს და აბრუნებს ფილოგენეტიკური ხეების მონაცემთა ბაზაში კარგი “hits ” ჩამონათვალის ჩამონათვალს. A “hit, ” იგულისხმება, რომ იყოს BLAST ძიებების ანალოგი [38], ხდება მაშინ, როდესაც საძიებო სისტემა აღმოაჩენს მონაცემთა ნაკრებს, რომელიც შეიცავს მოთხოვნის ტაქსონების მინიმალურ რაოდენობას. STBase არ ითავსებს ბუნდოვან ძიებებს ამ დროს ტაქსონების სახელები უნდა იყოს იგივენაირად გენბანკის ტაქსონომიაში. თითოეულ “hit ” აქვს დაკავშირებული ხეების კომპლექტი, რომელიც შექმნილია ჩამტვირთავი ანალიზის შედეგად. ქვესადგურები, ნდობის შეფასებით, იქმნება თითოეული ჩატვირთვის ხის მოჭრით ინტერესთა ტაქსონებზე, რის შემდეგაც ამ ჩატვირთვის ქვესახეობების უმრავლესობის კონსენსუსი უბრუნდება მომხმარებელს. იმის დასადგენად, თუ რას ნიშნავს "კარგი დარტყმა", ჩვენ ვაშენებთ ქულის მინიჭების ფუნქციას, რომელიც იზრდება ხის ხარისხთან და ხესა და მოთხოვნას შორის ტაქსონომიური გადახურვის რაოდენობასთან ერთად. ჩვენ ვთვლით, რომ ხეების ხარისხი შეიძლება შეფასდეს მონაცემთა ბაზაში ხეების ნდობის ნაკრების ჩართვით, გამოთვლილი, მაგალითად, ჩატვირთვისას (როგორც აქ) ან უკანა განაწილების შერჩევით [1]. დაე A იყოს შეკითხვის სია და იყოს მომხმარებლის მიერ მოწოდებული უპირატესობა, რომელიც მიუთითებს ხეების ხარისხის მნიშვნელობასთან შედარებით ტაქსონის გადახურვისას. ნებისმიერი ხისათვის, T, დაე L (T) იყოს ტაქსონი ხეზე, T | A იყოს ქვე ხე, რომელიც შემოიფარგლება მხოლოდ მოთხოვნის ტაქსონებით, ხოლო L (T | A) არის ტაქსონები, რომლებიც გაზიარებულია მოთხოვნასა და ხეს შორის. შემდეგ განსაზღვრეთ w (L (T | A)) იყოს ამ გადახურვის მზარდი ფუნქცია. მოდით q (T | A) იყოს ქვესახეობის ხარისხის ზოგიერთი მზარდი ფუნქცია. ქულა (#x0201chit ”) (წინასწარ გამოთვლილ) ხეზე T შეკითხვის სიისთვის არის მაშინ

ქულის ამ გზით განსაზღვრა მომხმარებელს საშუალებას აძლევს მოძებნოს ხეები, რომლებიც უფრო ფართოდ გადაფარავს ტაქსონების მოთხოვნის სიას (როგორც სკალარი უახლოვდება 0) ან უპირატესობას ანიჭებს ქვე ხეებს, რომლებსაც აქვთ მაღალი ხარისხი, როგორც ეს მითითებულია ჩატვირთვის მნიშვნელობებით (მაგ იზრდება). საშუალოდ, ჩვენ ველით, რომ უფრო დიდ ხეებს ნაკლებად ექნებათ მხარდაჭერილი [39] შუალედური მნიშვნელობები დააბრუნებს ხეებს, რომლებმაც შეიძლება კომპრომისი წარმოადგინონ უფრო დიდი ხეების ორ უკიდურესობას შორის უკეთესი ხეების წინააღმდეგ. ხარისხის ქულა, q (T | A), გამოითვლება საშუალო ჩატვირთვის მხარდაჭერის გამრავლებით (50%-ზე ზემოთ კვანძებისთვის) უმრავლესობის წესის კონსენსუსის ხეში გადაჭრილი კვანძების პროპორციით. გადახურვის ფუნქცია, w (L (T | A)), არის გადაფარებული ტაქსონების რიცხვი, რომელიც იყოფა მონაცემთა ბაზაში არსებული მოთხოვნადი ტაქსონების რაოდენობაზე (და არა უფრო დიდი რაოდენობის შეკითხვაზე, რომელიც შეიძლება შეიცავდეს ტაქსონებს, რომლებიც საერთოდ არ არის გენბანკში). იმის უზრუნველსაყოფად, რომ ქულა შედარებადია და, შესაბამისად, სასარგებლოა შედეგების რეიტინგში, ჩვენ ნორმალიზებას ვაძლევთ დიაპაზონს 0 -დან 100 -მდე, გადაფარვის ფუნქციის გამრავლებით 100 -ზე და შედეგის გაყოფაზე 1+ -ზე ( არის დადებითი რიცხვი, მომხმარებლის ინტერფეისს აქვს სლაიდერის ზოლი, რომელიც საშუალებას იძლევა აირჩიოს 0.01 -დან 10.0 -მდე, ნაგულისხმევი მნიშვნელობით 1.0). მაგალითად, განვიხილოთ მომხმარებლის მიერ მოწოდებული სია 200 ტაქსონის სახელისა, ყველა მათგანი ნაპოვნია GenBank– ში (გაითვალისწინეთ, რომ GenBank– დან დაკარგული ტაქსონების სახელები გავლენას არ ახდენს შედეგების რეიტინგზე). დავუშვათ, რომ მონაცემთა ბაზა შეიცავს 1200 ტაქსონის დიდ ხეს, რომელიც ინახავს 80 სახელს მოთხოვნის სიაში, რომ უმრავლესობის კონსენსუსის ხე (MRT) 1000 ჩატვირთული ხისგან, მოჭრილი იმ 80 ტაქსონისთვის (იხ. ქვემოთ დეტალები გასხვლის შესახებ), სრულად მოგვარებულია და აქვს ჩატვირთვის საშუალო ღირებულება 70%და მომხმარებელმა შეარჩია ღირებულება 0.5. ამ ხის ნორმალიზებული ქულა: S = ((80/200) × 100 + 0.5 × 70) / (1 + 0.5) = 50. მიუხედავად იმისა, რომ ათასობით ხე შეიძლება დაბრუნდეს ნებისმიერი შეკითხვიდან, მათი ქულები გამოითვლება ფრენის დროს, ისე, რომ როგორც მომხმარებელი იცვლება , ხეების რანჟირება დაუყოვნებლივ მორგებულია.

ხის მშენებლობა

ერთჯერადი მონაცემთა ნაკრებირა სურათი 1 ასახავს ჩვენს ხის მშენებლობის მილსადენს. ნუკლეოტიდის მონაცემთა ერთი ნაკრები (ცხრილი 1) შეიკრიბა GenBank rel– დან. 184 მეტწილად სხვაგან აღწერილი PhyLoTA მილსადენის მიხედვით [27]. მოკლედ, მონაცემთა ნაკრები შეიქმნა თანმიმდევრობით, შეზღუდული ზომის ეუკარიოტული ტაქსონომიური ჯგუფებით (“hub ჯგუფები ”). თითოეული კერა ჯგუფი შეირჩა ისე, რომ მისი ყველა წევრის თანმიმდევრობის საერთო რაოდენობა არ აღემატებოდეს 35000 -ს (დეტალებისათვის იხ. მოდელი ორგანიზმების შდრ. [27]). ჯგუფის წევრობა განისაზღვრა NCBI ტაქსონომიით. ამ მიდგომის შედეგად შეიქმნა 517 ტაქსონომიური ჯგუფი, რომლებიც პრაქტიკაში ძალიან უხეშად შეესაბამებოდა ლინეინის ორდენების წოდებას. თითოეულ კვანძ ჯგუფში, ჰომოლოგიური თანმიმდევრობების მტევანი გამოვლინდა BLAST– ის ყოვლისმომცველი ძიებებისა და ერთჯერადი კასეტური კლასტერის გამოყენებით 50% მინიმალური გადახურვის მოთხოვნების გამოყენებით. ეს ოპერაცია შემდეგნაირად განმეორდა NCBI იერარქიაში შემავალი ჯგუფის თითოეული შთამომავალი ჯგუფისათვის, რამაც გამოიწვია მშობლებისა და შვილების ურთიერთობების მტევანი კლასტერებს შორის. 5,798,234 თანმიმდევრობით 413,628 განსხვავებული ტაქსოს შორის, 343,888 ტაქსონის ნაკრები შეინარჩუნა 160,801 ფილოგენეტიკურად ინფორმაციულ კლასტერში (ანუ მტევანი ოთხი ან მეტი ტაქსონით). უმსხვილეს კლასტერს აქვს 20,125 თანმიმდევრობა, კლასტერის საშუალო ზომაა 69,8 და არის 133 მტევანი ≥ 5,000 თანმიმდევრობით.

ერთ ლოკუს მტევანი იკრიბება GenBank ნუკლეოტიდის მონაცემებიდან ფილოტაში ჩატარებული პროცედურების შემდეგ [27]. ათასი სწრაფი სათევზაო ჩატვირთვის ხე რეკონსტრუქციადია და ინახება მონაცემთა ბაზაში. ხეების მაქსიმალური ალბათობა რეკონსტრუქციაა და გამოიყენება ცალკე მარკირებული ხეების თანმიმდევრობის შერჩევისთვის (იხილეთ ტექსტი სრული აღწერილობისთვის). შემცირებული მტევანი იკრიბება სხვადასხვა მრავალფუნქციური მონაცემთა ნაკრებში, რომელთაგან თითოეული გამოიწვევს ათასი ჩატვირთვის ხეს, რომლებიც დეპონირდება მონაცემთა ბაზაში.

ცხრილი 1

მონაცემთა ნაკრებების რაოდენობალოკი (საშუალო და დიაპაზონი)ტაქსონი 1 (საშუალო და დიაპაზონი)მონაცემთა ნაკრების ზომა 2 (საშუალო და დიაპაზონი)საშუალო მხარდაჭერა (გადაჭრილი კვანძების ნაწილი MRT– ზე)
ერთ ლოკუს მტევანი160,801 3 1 (1 𠄱)63.1 (4 �)63.1 (4 �)0.51
ბიკლიკები762,5299.8 (2 �)15.6 (4 �)142.3 (8 �)0.84
გადამწყვეტი კვაზი ბიკლიკები67,10312.4 (2 �)27.8 (5 �) 4 234.7 (10 �)0.68
სულ მონაცემთა ბაზა990,4338.5 (1 �)24.1 (4 �)135.7 (4 �)0.79

1 ჩვენ გვჭირდება მინიმუმ ოთხი ტაქსონი მონაცემთა ნაკრებში, რაც საჭიროა პოტენციურად ინფორმაციულ ურთიერთობებში გაუთოებელ ხეში.

2 ლოკუსებისა და ტაქსონების რაოდენობის პროდუქტი.

3 აქედან 111,433 იყო მრავალნაირი. 11,358 მონაცემთა ერთეულს 4-ზე ნაკლები ტაქსონი ჰქონდა მრავალწახნაგოვანი შემცირების შემდეგ, ამიტომ მხოლოდ 149,443 იყო გამოყენებული მრავალადგილიანი მონაცემთა ნაკრების შესაქმნელად.

4 რადგან ჩვენ ვითხოვთ ოთხ ტაქსონს მინიმალური პოტენციური ფილოგენეტიკური ინფორმაციულობისათვის, გადამწყვეტ კვაზი ბიკლიკურ მონაცემთა ნაკრებს, რომელსაც გარკვეული ჩანაწერები აკლია, უნდა ჰქონდეს მინიმუმ ხუთი ტაქსონი (სხვაგვარად ეს იქნებოდა ორმხრივი, სათანადო).

ამ მტევნების ბევრი (69%) მოიცავდა მინიმუმ ერთ ტაქსონის ID რამდენჯერმე, ასეთი ტაქსონომიურად ზედმეტი თანმიმდევრობა შეიძლება განპირობებული იყოს მრავალი ადამიანის შერჩევით, ან ისინი შეიძლება წარმოადგენდნენ მრავალ ალელს ან პარალოგენურ ლოკუსებს. ტაქსონის სახელები, რომლებიც ერთზე მეტჯერ გვხვდება მონაცემთა ნაკრებში, შეიძლება მოხსენიებული იყოს როგორც “multaxa ”, ხოლო ხეები ასეთი მონაცემების ნაკრებიდან არის “multrees ” [40]. ჩვენ გამოვიყენეთ ახლახანს აღწერილი მრავალწახნაგოვანი შემცირების ალგორითმი [37] თითოეული ამ მრავალ ხედან ამონაწერი ცალ-ცალკე მარკირებული ȁ შემცირებული ” ხე, რომელიც გარანტირებულია შეინარჩუნოს კონფლიქტის გარეშე სახეობების დონის ინფორმაციის მაქსიმალური რაოდენობა (სურ. 2). მოკლედ რომ ვთქვათ, ალგორითმი აფასებს კვარტეტებს (ზღვარი, ან ტოტი, რომელიც გამოყოფს ორ წყვილ ტაქსონს) და პოულობს ისეთებს, რომლებიც არ არის კონფლიქტში სხვა კვარტეტებთან ერთსა და იმავე ტაქსონზე. ალგორითმის ეფექტი არის კონფლიქტური კიდეების და ნებისმიერი ტაქსონის ამოღება, რომლებიც მონაწილეობენ კონფლიქტის გარეშე კვარტეტებში (ნახ. ​ (სურ .2, 2, ​, 3 3 იხ. [37] ოფიციალური აღწერილობისათვის). ეს არის კონსერვატიული პროცედურა, რომელიც ზღუდავს ცრუ პოზიტიური სახეობების ურთიერთობების რაოდენობას. რაც მთავარია, ის ძლიერია მრავალი თანმიმდევრობის არსებობის ბიოლოგიური მიზეზების გამო. ისინი შეიძლება წარმოიშვას გენის დუბლირების (ნახ. 3C), პოპულაციის შერჩევის (ნახ. 3D), ან თუნდაც არასწორი იდენტიფიკაცია (იხ. [35] შესადარებელი ალგორითმისთვის, რომელიც მიზნად ისახავს მხოლოდ ხეებს მხოლოდ გენის დუბლირებით). შეუძლია დაიბრუნოს ან ორიგინალური მრავალსახეობა შემდგომი ანალიზისათვის, მაგ., პარალოგისაგან განასხვავოს ორთოლოგიური თანმიმდევრობა, ან ცალ-ცალკე მარკირებული ხე, მიიღოს ამ სახეობის ხეში არსებული სახეობების დონის ინფორმაციის მაქსიმალური რაოდენობა.

ზედა ხე მრავალ ხეა, ანუ მას აქვს მინიმუმ ერთი ეტიკეტი, რომელიც გვხვდება ერთზე მეტ ტერმინალზე. გარდა ამისა, ის აჩვენებს კვარტეტებს (ქვესახეობები ოთხ ტაქსონზე), რომლებიც კონფლიქტში არიან: BD|EC კონფლიქტები ძვ.წ|DEრა ხის შემცირებული ფორმა, ქვემოთ, არის ცალ-ცალკე მარკირებული ხე. ეს არის კონსერვატიული განცხადება სახეობათა ურთიერთობების შესახებ იმ გაგებით, რომ ის გამორიცხავს კონფლიქტს (ახალი ინფორმაციის დანერგვისას).

A. მაღალი რანგის ხე მოთხოვნისათვის “ბრასიკა& #x0201 გამოითვლება Brassicaceae დონეზე გასწორებული ერთჯერადი მონაცემების ნაკრებიდან (მონაცემთა ნაკრები #56065 ფენილალანინის ამიაკი-ლიაზა). ბ. ხის შემცირება სახეობრივ დონეზე ურთიერთობებში კონფლიქტის გარეშე. გაითვალისწინეთ ერთი ტაქსონის დაკარგვა, Brassica napus ეს ტაქსონი მრავალ კვარტეტში იყო თავდაპირველი ხეზე, მაგრამ თითოეულ მათგანს ეწინააღმდეგებოდა სულ მცირე ერთი კვარტეტი. ამიტომ კონფლიქტის გარეშე ინფორმაცია არ იყო წარმოდგენილი ამ ტაქსონისთვის და ის ამოღებულია ალგორითმით. C. დაბალი რანგის ხე მოთხოვნიდან “დროზოფილა& #x0201d (მონაცემთა ნაკრები #130188 SMOX გენი), რომელშიც არ არის ინფორმაციული კიდეები, ასე რომ მრავალმხრივი შემცირება წარმოქმნის ნულოვან შედეგს (არ აქვს კიდეები, ტაქსონები არ არის ნაჩვენები). D. შუალედური რანგის ხე, რომელშიც მხოლოდ ერთ ტაქსონს აქვს მრავალი მიმდევრობა და შემცირებული ცალ-ცალკე მარკირებული ხე შეიცავს ყველა ტაქსონს (მონაცემთა ნაკრები#91190 ‘ yolk protein 1 ’ შემცირებული ხე არ არის ნაჩვენები, მაგრამ მისი მიღება შესაძლებელია ყველა ერთის წაშლით ფოთლები იარლიყით დროზოფილა გრიმშავი).

მონაცემთა მრავალფუნქციური მონაცემთა ნაკრებირა მონაცემთა მრავალფუნქციური მონაცემების ერთობლიობის შეკრება (“supermatrices ”) პრობლემატურია, როდესაც მონაცემთა ერთ ან მეტ კომპლექტს აქვს მულტაქსი [35]. ამრიგად, ჩვენ გამოვიყენეთ ტაქსონების შემცირებული ნაკრები, რომელიც მიიღება მრავალწლიანი შემცირებით, როგორც თანმიმდევრული მონაცემების წყარო სუპერმატრიკების შეკრებისთვის. ეს იწვევს საშუალოდ ზოგიერთი ტაქსონის დაკარგვას (ნახაზი 3), მაგრამ ის ასევე ამცირებს კონფლიქტს გენეტიკურ ხეში, რომელიც წარმოიქმნება ბიოლოგიური პროცესებისგან, როგორიცაა გენის დუბლირება და დაკარგვა ან წარმოშობის არასრული დახარისხება. მიუხედავად იმისა, რომ ჩვენ არ ავაშენეთ სახეობების ხეები რაიმე მეთოდის გამოყენებით, გარდა შეთავსებისა, ჩვენი შემცირებული ლოკუსების/ხეების შეგროვება შეიძლება გამოყენებულ იქნას როგორც კონსენსუსის [41], შერიგების (მაგ., [42, 43]) ან აშკარა ალბათობის გამოყენებით. ან ბეიზის მეთოდები, რომლებიც იყენებს თანმიმდევრობის მონაცემებს (მაგ., [21]).

ორი პროტოკოლი გამოიყენეს ტაქსონებისა და ლოკუსების ქვეჯგუფების შერჩევისათვის მრავალ-ლოკალური სუპერმატურების შეკრებისთვის ერთი ლოკუსით შემცირებული მონაცემთა ნაკრებიდან თითოეული NCBI ცენტრის ჯგუფში და მის ყველა შთამომავალ ჯგუფში. ორივე წარმოქმნის მრავალ ლოკუს მონაცემთა ნაკრებებს სასურველი თვისებით, და გადამწყვეტობით, რაც ხელს შეუწყობს სუპერმატრიქსში დაკარგული ჩანაწერების ზემოქმედების შეზღუდვას ([23, 24, 44 და#x0201347]. სუპერმატრიქსი, , გადამწყვეტია ხეზე, (შეიცავს ყველა ტაქსონს ), თუ და მხოლოდ იმ შემთხვევაში, თუ subtrees, tმე, თითოეული ლოკუსისთვის i, მიღებული შეზღუდვით მხოლოდ იმ ტაქსონებზე, რომლებსაც აქვთ მიმდევრობის მონაცემები i ლოკუსში, ცალსახად განსაზღვრეთ რა თუ ამის ნაცვლად, ქვე ხეები შეესაბამება ერთზე მეტ ხეს, ისინი არ განსაზღვრავენ და სუპერმატრიქსმა შეიძლება ვერ განასხვავოს ეს ხეები გარკვეული რეკონსტრუქციის მეთოდებისთვის (მაგ., მეურნეობა ან დანაწევრებული ალბათობის ანალიზი: [24]). გადამწყვეტობის განსაკუთრებით ძლიერი ფორმა, რომელიც აკლია დაკარგული მონაცემების ზოგიერთ ნიმუშს, არის ის შეიძლება გადამწყვეტი იყოს ყველა შესაძლო ხეებისთვის.

ჩვენი პირველი პროტოკოლი აერთიანებს მაქსიმუმს სრული სუპერმატრიკები ყველა ეგრეთ წოდებული მაქსიმალური ორწერტილის პოვნით დაკავშირებულ გრაფიკულ მონაცემთა სტრუქტურაში. მოკლედ რომ ვთქვათ, ბიკლიკი აქ აღნიშნავს ტაქსონებისა და ლოკუსების ერთობლიობას, რომლისთვისაც ყველა ტაქსონს აქვს მონაცემები ყველა ლოკუსზე მაქსიმალური ორმხრივი ნახვისთვის, [48, 49] ციტირებული გრაფიკული თეორიული შედეგების გამოყენებით. ვინაიდან ნებისმიერი სუპერმატრიქსი, რომელშიც ერთი ლოკუსი მოიცავს ტაქსონების თანმიმდევრობას, გადამწყვეტია, ეს გადამწყვეტია ყველა ხეზე. ჩვენი მეორე პროტოკოლი ასევე გარანტიას იძლევა გადამწყვეტობაზე, მაგრამ იძლევა სუპერმატრიქსში დაკარგული ზოგიერთი ჩანაწერის საშუალებას. იგი აშენებს სუპერმატრიქსს ერთი ლოკუსის გამოყენებით, როგორც საცნობარო ლოკუსს. შემდეგ ტაქსონების სია შემოიფარგლება მხოლოდ მითითების ლოკუსით, მაგრამ თითოეული ტაქსონისთვის ხელმისაწვდომია ყველა ლოკუსი (სურათი 4). საცნობარო ლოკუსის გამო, ეს სუპერმატრიქსი ასევე გადამწყვეტია ყველა ხეზე, მიუხედავად იმისა, რომ ის შეიცავს დაკარგული მონაცემებს და ჩვენ მას მოვიხსენიებთ როგორც გადამწყვეტი კვაზი ბიკლიკი (dqbc)რა ლოკუსების მოცემული კოლექციისთვის, ერთი dqbc შეიძლება აშენდეს თითოეული ლოკუსის გამოყენებით, როგორც ცნობა თავის მხრივ. სურათი 4 ასახავს ამ ტიპის მონაცემთა ნაკრებებს, მათ შორის ერთი ლოკუს მონაცემთა ნაკრებების უმნიშვნელოდ გადამწყვეტ შემთხვევას. ჩვენს განხორციელებაში ჩვენ შევზღუდეთ dqbc კონსტრუქცია, რომ შევიტანოთ მხოლოდ ის ადგილები, რომელთაც ტაქსონების მინიმუმ 33,3% აქვს საცნობარო ლოკუსში.

შევსებული ზოლები მიუთითებს მონაცემების არსებობაზე კონკრეტული ლოკუსისა და ტაქსონისთვის. მრავალფუნქციური მონაცემთა ნაკრები აგებულია ორი გზით: (1) ორმხრივი სახით (მყარი ხაზის ფარგლებში), რომლებშიც არცერთ ტაქსონს არ აკლია ადგილი და არცერთი არ შეიძლება დაემატოს დაკარგული მონაცემების შეყვანის გარეშე (ასე რომ, ისინი არიან ”), და (2) როგორც გადამწყვეტი კვაზი ორმხრივი (წყვეტილი ხაზის ფარგლებში), რომელშიც საცნობარო ლოკუსი ემსახურება ტაქსონის ჩამონათვალის შეზღუდვას, მაგრამ ამ ტაქსონებისთვის ხელმისაწვდომი ყველა ლოკუსი შედის. აქ ლოკუსი 1 ემსახურება როგორც ნაჩვენები გადამწყვეტი კვაზი ბიკლიკის მითითებას, მაგრამ ორი სხვა შეიძლება აშენდეს დანარჩენი ორი ლოკუსების საცნობარო ლოკუსების გამოყენებით. ანალოგიურად, არსებობს სხვა მაქსიმალური ორმხრივი ნაჭრები, თითოეული შეიცავს მხოლოდ ორ ლოკუსს (მაგ., ლოკუსი 2 და 3 ტაქსონებისთვის C, J, K, L).

NCBI იერარქიის ზოგიერთ კვანძზე აგებული მრავალ ლოკუს მონაცემთა ნაკრები (მაქსიმალური ორმხრივი და გადამწყვეტი კვაზი ბიკლიკები) შეიძლება და მოსალოდნელია, რომ გადაფარავს ერთმანეთს (სურ. 4). იმის უზრუნველსაყოფად, რომ მონაცემთა ნაკრები მთლად ზედმეტი არ იყოს სხვა NCBI- ის კვანძში აგებულებთან, შედეგებზე სხვადასხვა შემოწმება და ფილტრი ჩატარდა. ჩვენ შევამოწმეთ იყო თუ არა მონაცემთა დუბლიკატი NCBI იერარქიაში კვანძებში ან კვანძებს შორის და იყო თუ არა რაიმე გადამწყვეტი კვაზი ბიკლიკი რეალურად ორმხრივი (რაც იშვიათად გვხვდება, როდესაც ტაქსონის დაფარვის ნიმუში ხელს უწყობს). გარდა ამისა, ჩვენ გამოვიყენეთ BLAST პროტოკოლი იმის შესამოწმებლად, რომ მონაცემთა ნაკრების ყველა ლოკაცია ერთმანეთისგან დამოუკიდებელია და არ იზიარებს ადგილობრივ ჰომოლოგიას (ეს ზოგჯერ შეიძლება წარმოიშვას მილსადენის დინების ზემოთ სხვადასხვა მიზეზის გამო), რამაც შეიძლება გამოიწვიოს ზედმეტი ჩართვა იგივე სუპერმატრიქსი (მაგ., [12], კორგიენდუმი). მრავალფუნქციური მონაცემთა ნაკრების კოლექცია შეიძლება იყოს დიდი, ზოგიერთ შემთხვევაში შედარებით მკვრივი ტაქსონის დაფარვით, ძირითადი კომბინატორიკის გამო. ჩვენ აღმოვაჩინეთ, მაგალითად, რომ ძუძუმწოვრებში იყო ასობით ათასი პრიმატები და ხორცისმჭამელი ორცხობილა (ფაქტობრივად, ყველა სხვა ტაქსონის ორმხრივი რაოდენობის მეტი, ფაქტობრივად), ამიტომ ამ კოლექციიდან შემთხვევით ავიღეთ ბიკლიკების მხოლოდ ნაწილი: 2% და 20% შესაბამისად.

ამ მილსადენის გამომუშავება არის თითქმის ერთი მილიონი ფილოგენეტიკურად ინფორმაციული და#x0201d მონაცემთა ნაკრები (ანუ, სულ მცირე ოთხი ტაქსონი), რომელთა შორის განაწილებულია NCBI– ს მიერ აღიარებული 351,212 განსხვავებული ტაქსონი. მონაცემთა თითოეული ნაკრებისთვის, მიღებული იქნა მრავალი თანმიმდევრობის გასწორება MUSCLE [50], ML ოპტიმალური ხეები ნაგულისხმევი პარამეტრების გამოყენებით RAxML [51], და 1,000 ȁ საუზმე და#x0201d ოხრახუშის ჩამტვირთავი ხე PAUP* [52] გამოყენებით. გამოთვლების დრო დაახლოებით 6 კვირაა 300 ძირითადი linux კლასტერზე აღწერილი ანალიზისთვის. ჩვენ ვთვლით, რომ ამის გამეორება სრული მაქსიმალური ალბათობით ჩამტვირთავი ანალიზებით ნაგულისხმევი ვარიანტებით RAxML– ში (განსხვავებით აქ გამოყენებული სწრაფი სამეურვეო ჩატვირთვისგან) დაგჭირდებათ 5 � წელი ერთი და იგივე ტექნიკით.

მონაცემთა ბაზა

სქემა, ძებნა და მოძიებარა STBase მონაცემთა ბაზას აქვს ძალიან მარტივი სქემა, რომელიც მიზნად ისახავს ძიებისა და მოძიების ეფექტურობის მაქსიმიზაციას. არსებითად იგი შედგება ხუთი ერთეულისგან: ტაქსონები, თანმიმდევრობა, მტევანი, მონაცემთა ნაკრები და ხეების ნდობის ნაკრები. ტაქსონი შედგება სახეობის ან ქვესახეობის სახელისა და მისი NCBI ტაქსონის ID- სგან (ორივე NCBI და#x02019 ტაქსონომიის შესაბამისად). ტაქსონს შეიძლება ჰქონდეს რამოდენიმე სინონიმური სახელი, რომელიც ასახულია ერთსა და იმავე ტაქსონის ID- ში. თითოეული თანმიმდევრობა წარმოდგენილია NCBI GI ნომრით, როგორც მისი ID და#x02014 ასოცირდება ტაქსონთან, და შეიძლება იყოს ერთი და იგივე ტაქსონთან დაკავშირებული მრავალი მიმდევრობა. კლასტერი არის ჰომოლოგიური თანმიმდევრობის კრებული, რომელსაც თავისუფლად მოიხსენიებენ როგორც “locus ”. მონაცემთა ნაკრები არის ერთი ან მეტი განლაგებული მტევანი/ლოკუსების კრებული, რომლებიც გაერთიანებულია სუპერმატრიქსში (თუ ერთზე მეტია), საიდანაც ხეები აშენდა. თითოეული მონაცემთა ნაკრები ასახულია ათასი ჩატვირთვის ხეების ნაკრებში. ამ ერთეულებს შორის ეფექტურად დასადგენად, STBase იყენებს ჰეშ-ფუნქციებს [53, 54] (სიმებიანი სპეციფიკური: [55]), რომელთაც შეუძლიათ მუდმივი დროში შემთხვევითი ელემენტის ჩასმა და წაშლა, კოლექციის ზომის მიუხედავად.

მომხმარებელი შეიყვანს ტაქსონის სახელების ან/და გვარის სახელებს. გვარის სახელები შეიცვლება ამ გვარის ყველა ტაქსონის სახელის სიით. ამას მოყვება ხუთი ნაბიჯი: (1) შესაბამისი ტაქსონის ID- ების მოძიება, (2) მონაცემთა ნაკრების პოვნა, რომელსაც აქვს სასურველი გადახურვა მოთხოვნის ტაქსონების ნაკრებთან და მათი წაკითხვა დისკიდან, (3) თითოეული მონაცემის დამუშავება თითოეული მათგანის შეზღუდვის მიზნით მისი ათასი ხე ტაქსონებზე, რომლებიც გადაფარავს მოთხოვნას, (4) აჯამებს შეზღუდულ ხეებს თითოეული კლასტერისთვის, როგორც უმრავლესობის კონსენსუსის ხე, დამხმარე ღირებულებებით და აბრუნებს ამ MRT მომხმარებელს. მსგავსი მიდგომა გამოიყენება ვებგვერდზე birdtree.org [14], რომელიც მომხმარებლებს საშუალებას აძლევს გამოკითხონ მთლიანი ფრინველის ხეების ფსევდო-უკანა განაწილებაზე აგებული ხეების ნაკრები, რომელიც აგებულია მონაცემებისა და სიმულაციის კომბინაციით. დაბოლოს, (5) მრავალწახნაგოვანი ხეების შემთხვევაში, მოთხოვნით გამოითვლება ცალ-ცალკე მარკირებული შემცირებული ხე (ეს ვრცელდება მხოლოდ ერთ ლოკუს მონაცემთა ნაკრებზე და#x02014 მრავალდონიანი მონაცემთა ნაკრებებზე, ზედმეტი თანმიმდევრობა დამუშავებულია შეჯამებამდე).

ხეების კოლექტიური შენახვის მოთხოვნების გამო (200 გბ -ზე მეტი), ყველა მონაცემთა ნაკრებიდან ხეები არ შეიძლება ინახებოდეს RAM- ში, რაც რამდენიმე გამოწვევას უქმნის მოთხოვნის სწრაფი დამუშავების მიღწევას. ტაქსონის პირადობის მოწმობების გათვალისწინებით, გადახურვის კლასტერების იდენტიფიცირება და დისკის მეხსიერებიდან კითხვა კითხვის პროცესის ყველაზე შრომატევადი პროცესია, ვინაიდან არსებობს თითქმის ერთი მილიონი მონაცემთა ნაკრები, თითოეულს 4 -დან 10.000 -მდე ტაქსონი, რომელიც მოიცავს 340,000 -ზე მეტ ტაქსონს ( ცხრილი 1). თუმცა, STBase განსაზღვრავს გადახურვის კლასტერებს დროში, რაც დამოუკიდებელია მონაცემთა ბაზის ზომისგან, ინვერსიული ინდექსაციის გამოყენებით [56, 57]. ინვერსიული ინდექსი საშუალებას გაძლევთ მოძებნოთ და მოიძიოთ ქვესაქართველო 𠇍ocument ” (აქ მონაცემთა ნაკრები), რომელიც შეიცავს ერთი ან რამდენიმე სიტყვას მოთხოვნის ნაკრებიდან. იგი ამას აკეთებს საკვანძო სიტყვების წინასწარ განსაზღვრული კომპლექტიდან იმ კოლექციის დოკუმენტში, რომელიც შეიცავს მათ. STBase– ში მიზანია ვიპოვოთ ტაქსონების შემცველი მონაცემთა ნაკრები, რომლებიც ასახავს მომხმარებლის მიერ მოწოდებული ტაქსონების სიას. STBase ’s ინვერსიული ინდექსი ზუსტად ინახება რომელიც მონაცემთა ნაკრები (ȁ დოკუმენტები ”) შეიცავს ტაქსონის სახელებს (ȁ საკვანძო სიტყვებს ”) და სად ეს მონაცემთა ნაკრები მდებარეობს მყარ დისკზე.

უმრავლესობა მართავს ხეების წარმოქმნასრა მოთხოვნა, როგორც წესი, პოულობს 100 � მონაცემთა ნაკრებებს, რომელთაც აქვთ საკმარისი გადახურვა ტაქსონის სახელებთან, რომლებიც მითითებულია შეყვანის სახით. თითოეული მათგანი ასოცირდება ათასობით წინასწარ გამოთვლილ ჩატვირთვის ხესთან, რომლებიც თითოეული შეზღუდულია მოთხოვნის გადახურვით. ეს 1000 მორთული ხე შემდეგ შეჯამებულია როგორც MRT. MRT მოთხოვნის დროს (“on-the-fly ”), ჩვენ გამოვიყენეთ Amenta et al. ’s [58] შემთხვევითი ხაზოვანი დროის MRT ალგორითმი, რომელიც იყენებს ჰეშ კოდებს და#x02014 მუდმივი ზომის ობიექტს და#x02014 და ჭკვიანური მეთოდი MRT- ის ასაშენებლად მხოლოდ ამ ჰეშისებური ორ ნაწილის გამოყენებით. ეს იწვევს მოსალოდნელ ხაზოვან დროში (ანუ ოპტიმალურ) ალგორითმს.


ჩატვირთვის ღირებულებები - ბიოლოგია

z g ^ u 8X 6H OR V 1q# | kb Φ ϊ[email protected] 2 w 嬻 e * q ! د ყალბი | endstream endobj 70 0 obj> endobj 71 0 obj> endobj 72 0 obj> endobj 73 0 obj> ნაკადი

dvitpsk 5.78 საავტორო უფლება 1998 რადიკალური თვალის პროგრამული უზრუნველყოფა (www.radicaleye.com)

> endstream endobj 85 0 obj 636 endobj 86 0 obj> ნაკადი 8Z] "%eL8#Xib6 $ Z_gBG1H*!? nj, nl*T & ls#DT '#! gi) Qf_1/GCV7l01p0] g] D i2uZO*68aelHaOW [uQ" i1+T!, JqoM71SpFNL "lI> AI) QkFsSU $ [email protected]> V"^, = RYuI MEdDWqmj (58 $/m/NXL: tk] &+49/YQ> 'ea%4A+: PYgHkD Q8P1> b% ]! ACbKIbLV! 8 LN4-t3C!#CJ+sE: i+b#u01WVi? A (7dQQ#-[: $ 3^L.9! UWC#3J%a5c6iN, ',) CR']] f? 0> EfhQ#OUBfN5impG q "U3NQp"*F. '= 1L & s "u & oFfF7*aMO!+^T#nLT9thcGe`@Xkt]% $ VtEeb`qK, WWK? 7%ptl#Hp> tL*s9" O) 4GBRde N) = g! r0 '

> endstream endobj 89 0 obj 705 endobj 90 0 obj> ნაკადი 8Z 7 $#YDM%* `[email protected]%O" 6 -KjYdDAdhEC^`.3J0o#BdMJ#@pNc4mGci*aG 2JrYOEUPCBL+WnqjFQE9 ^? /// Ng ': PT4/tmEh =! [email protected] oduOie%, a! T9 Ng, O (J>' YS`^Y#0FrMp! 0Qq) 7]) L%(KRFk dL! L8! [email protected])[email protected]/=B1`G9?TgLnG *Bq]>`Gkf?Mn1KI?=B4dNi]'m>tI?Lm9]0K=q4!5. =1PZO,,bLK^L+lU"WZd U_OiX^=5P)-qdL-o)l=?,FlmRXL0O6%M=KZlD?cTLPep8.6CVeM83AO:,UmAY#D 9Bn:Q"iYl$#YmZ!cp$ i211_"NOh2q9lG8U+SBc2T6"'[email protected])[email protected]@'MmQeC_>/+S +]IPo. %5*Kle8FKni:DCQ=(OXs[rh&`1*D,O5+U][email protected][ 2KliaeF_gFIhK(" Hjp)O77[^

> endstream endobj 97 0 obj 568 endobj 98 0 obj > stream 8Z7=,t3Q#j)%%j>s>5>UU-

> endstream endobj 99 0 obj 735 endobj 100 0 obj > stream 8Z]!CCUFi#_]nk"[email protected],lN7d\%9?:[email protected]_3pG :kNL8S-Wsn(2s:UC/ZY k^$Q,m&[WP K ?*e(&2^[email protected]>> 1G#K#d1bm3rE/cYkOz. #WFZom-*MI,&

> endstream endobj 101 0 obj 317 endobj xref 0 102 0000000000 65535 f 0000000016 00000 n 0000000118 00000 n 0000005733 00000 n 0000005898 00000 n 0000006676 00000 n 0000007522 00000 n 0000008012 00000 n 0000008229 00000 n 0000008431 00000 n 0000008523 00000 n 0000008669 00000 n 0000008774 00000 n 0000058687 00000 n 0000058866 00000 n 0000059510 00000 n 0000059602 00000 n 0000059707 00000 n 0000064179 00000 n 0000064356 00000 n 0000064684 00000 n 0000064789 00000 n 0000115487 00000 n 0000115643 00000 n 0000115748 00000 n 0000124064 00000 n 0000124207 00000 n 0000124779 00000 n 0000124884 00000 n 0000177007 00000 n 0000177160 00000 n 0000177265 00000 n 0000185429 00000 n 0000185561 00000 n 0000185666 00000 n 0000193508 00000 n 0000193629 00000 n 0000193734 00000 n 0000241648 00000 n 0000241801 00000 n 0000241906 00000 n 0000249088 00000 n 0000249266 00000 n 0000273006 00000 n 0000273111 00000 n 0000286439 00000 n 0000286571 00000 n 0000286672 00000 n 0000286761 00000 n 0000286867 00000 n 0000292152 00000 n 0000292273 00000 n 0000292578 00000 n 0000293812 00000 n 0000294104 00000 n 0000295243 00000 n 0000295473 00000 n 0000295821 00000 n 0000296131 00000 n 0000297746 00000 n 0000298386 00000 n 0000306295 00000 n 0000306722 00000 n 0000313401 00000 n 0000313776 00000 n 0000317040 00000 n 0000317239 00000 n 0000317381 00000 n 0000317727 00000 n 0000317806 00000 n 0000318107 00000 n 0000318147 00000 n 0000318191 00000 n 0000318439 00000 n 0000319548 00000 n 0000319641 00000 n 0000319694 00000 n 0000320270 00000 n 0000320291 00000 n 0000320931 00000 n 0000320952 00000 n 0000321845 00000 n 0000321866 00000 n 0000322394 00000 n 0000322415 00000 n 0000323209 00000 n 0000323230 00000 n 0000323862 00000 n 0000323883 00000 n 0000324746 00000 n 0000324767 00000 n 0000325464 00000 n 0000325485 00000 n 0000326174 00000 n 0000326195 00000 n 0000326943 00000 n 0000326964 00000 n 0000327690 00000 n 0000327711 00000 n 0000328604 00000 n 0000328625 00000 n 0000329102 00000 n trailer ] >> startxref 329124 %%EOF


შედეგები

Correlation Among Support Values from Bayesian MCMC and Nonparametric Bootstrap Methods

We excluded three scenarios (lse, hse, and hslb) from our calculations of correlations between Bayesian and bootstrap methods, because all or nearly all of the support values were 100%. For 12 of the 15 remaining scenarios, BMCMC-PP and ML-BP values were strongly correlated (r 2 > 0.8, ≤ 0.05) (correlations for topological scenarios lpe, lssb, and hssb were only weakly correlated [r 2 < 0.8]). ML-BP support values showed strong correlation with MP-BP for only seven scenarios (lncl, lplb, lplm, lpsb, lpsm, lslb, and lssb), whereas BMCMC-PP and MP-BP correlated strongly in only a single scenario (lplb). For the 12 scenarios in which BMCMC-PP and ML-BP were strongly correlated, half were low-rate trees and half were high-rate trees. In contrast, ML-BP and MP-BP were strongly correlated only on low-rate trees.

Comparison of Bootstrap and Bayesian Methods in Assigning Confidence to Specific Internodes

Across all 18 scenarios, some general patterns of support were evident. All three methods tended to assign lower support to regions at the base of the tree and where relative branch length was short ( figs. 1 and 2). Median BMCMC internodal support was almost always equal to or higher than ML and MP bootstrap support. In problematic regions of the tree, MP-BP was usually lower than ML-BP and was sometimes much lower. Except for the nonclocklike symmetric trees (lncl and hncl), the pectinate topologies generally contained more problematic regions than the symmetric topologies. Median nodal support was usually higher on high-rate trees than on low-rate trees for BMCMC-PP and ML-BP. In contrast, median support from MP-BP decreased on many internodes when compared with their low-rate counterpart trees, especially in scenarios where internodes at or near the base of the tree were relatively short (see hpsb, hpsm, hssb, and hncl scenarios, figs. 1 and 2). For symmetric topologies, BMCMC and ML bootstrap support values were improved when using data sets generated with high-rate trees compared with data derived from low-rate trees. As expected, the opposite behavior was observed for MP bootstrap. For the most basal internodes of pectinate topologies, all methods performed more poorly with high-rate tree data sets than with low-rate tree data sets. However, the reverse was true for the most apical internodes of pectinate topologies.

Variance in support value was usually greater for MP-BP than for ML-BP and BMCMC-PP. For the latter, variance in nodal support was generally smaller than variance for ML-BP when internode length was relatively long. Median support for internodes in these situations was also generally very high. When internode length was short, BMCMC-PP variance sometimes exceeded that of ML-BP (e.g., lpsb internode 3 and lplm internode 2, fig. 1). Median support for the shortest internodes was generally lower, although it was sometimes still quite high (e.g., lplb internode 13, fig. 1). Internodes that showed extreme fluctuation in support values were generally very short. In most cases, these internodes were so short that maximum likelihood was unable to reconstruct the internode in all 100 replicates of a particular scenario (results not shown). For any given cut-off value, BMCMC-PP always assigned support to an equal or greater average number of correct internodes than either MP-BP or ML-BP, and ML-BP always performed as well as, or better than, MP-BP ( figs. 1 and 2). Thus, for arbitrarily chosen decision rules of 70% and 95%, rates of type I error (the rate of rejecting true internodes) were lower for BMCMC-PP than for either bootstrapping method. Differences in performance among support methods were most apparent at the highest confidence levels (≥95%) and were quite striking in some instances. For example, on the low-rate pectinate topology with equal length internodes (lpe) approximately nine correct internodes received a PP of 95% compared with approximately six and four that were supported by ML-BP and MP-BP, respectively. Symmetric topologies appeared to pose less of a challenge to the reconstruction algorithms than did the pectinate topologies. In three scenarios (lse, hse, and hslb), all methods assigned 100% support to all internodes. Furthermore, differences among the three methods were generally higher on the high-rate trees than on the low-rate trees.

None of the methods assigned support to a large number of incorrect internodes, which was not surprising given the relatively favorable evolutionary conditions under which we simulated these data sets ( table 1). Parsimony assigned moderate (>70%) support to the largest number of incorrect internodes (∼2.3 internodes/scenario for MP-BP versus ∼0.7 internodes/scenario for ML-BP and ∼1.9 internodes/scenario for BMCMC-PP, averaged over all 18 scenarios). BMCMC-PP assigned high (>95%) support to more incorrect internodes than either bootstrapping method (∼0.14 internodes/scenario for BMCMC-PP, ∼0.03 internodes/scenario for ML-BP, and ∼0.06 internodes/scenario for MP-BP, averaged over all 18 scenarios), although the overall rate of assigning high support to incorrect internodes was extremely low. However, as a result of this tendency of wrong topological bipartitions to have higher posterior probabilities than bootstrap proportions, the 95% threshold value (the support value that was greater than or equal to 95% of the support values that არასწორი internodes received) was highest for BMCMC-PP ( fig. 3). Using a decision rule constructed to minimize the rate of accepting incorrect bipartitions would generally allow one to recover most correct monophyletic relationships regardless of the support method ( fig. 3). However, ML-BP recovered slightly more correct internodes than BMCMC-PP (13.8 versus 13.6) and both model-based methods recovered more internodes than MP-BP (13.1). MP-BP also showed the greatest variance in performance across scenarios, occasionally recovering fewer than 12 correct internodes/tree.

Although all three methods assigned high support to few incorrect internodes, we identified some scenario replicates in which BMCMC-PP assigned a 95% or greater posterior probability to an incorrect internode, whereas ML-BP and MP-BP assigned much lower support ( table 1). These internodes were all found in regions of low-rate trees with the shortest internodes, and maximum likelihood trees for these replicates also contained the wrongly supported internodes. Thus, sampling error associated with evolving data at a slow rate on regions of the model topology with the shortest internodes could occasionally produce data sets with signal that was incongruent with the model topology.

Comparison of Bayesian and Bootstrap Methods in Estimating Phylogenetic Accuracy

We were unable to plot accuracy versus increasing support for four symmetric scenarios (lse, hse, lslb, and hslb) because all or nearly all of the internodes received 100% support. In the remaining 14 scenarios ( fig. 4), all three methods generally underestimated the true accuracy at levels of support greater than 50%. This bias was often less pronounced for BMCMC-PP. However, the latter overestimated accuracy at moderately high support levels in one scenario (lplm). BMCMC-PP appeared to lie closest to the line of perfect correspondence between accuracy and support for most scenarios.

For any particular topology, posterior probabilities and bootstrap proportions showed the greatest disparity on the shortest internodes. When we examined the effects of branch length on support across all scenarios, we found that posterior probabilities exceeded 95% for many very short internodes (as short as 1.3 expected changes). In contrast, maximum parsimony and likelihood bootstrap proportions did not reach 95% on branches shorter than three expected changes. BMCMC-PP assigned 100% confidence to some internodes with as few as 1.3 expected changes in contrast to ML-BP, which required at least 5 expected changes and MP-BP, which required 6.7 expected changes. ML and MP bootstrap proportions of 70% or more were obtained for branch lengths as short as 1.7 expected changes.

Sensitivity to the Amount of Phylogenetic Signal

Simulation on lse and lncl topologies to investigate the effects of increasing number of characters on support values revealed that the BMCMC-PP assigned 95% support to all internodes with a smaller number of characters relative to both bootstrapping methods. On the symmetric clocklike topology lse ( fig. 5), tip internodes (7 to 14) received a median support of 95% with 100 to 150 characters for BMCMC-PP, compare with 200 to 300 characters for ML-BP and MP-BP. All internodes received 95% support at 200 characters with BMCMC-PP, compared with 300 characters for ML-BP and 350 for MP-BP. We observed a similar pattern on the nonclocklike topology lncl ( fig. 5), with all internodes reaching a 95% posterior probability at 1,600 characters and a 95% likelihood bootstrap proportion at 2,000 characters. Parsimony bootstrap values decreased with increasing data set size for internodes 1, 3, and 7 on this tree. This is most likely due to maximum parsimony being inconsistent under such conditions (see დისკუსია). Even when these three internodes are excluded from this comparison, MP-BP constantly required the largest number of characters when discrepancies among methods were detected ( fig. 5). In several cases (e.g., lse topology, internodes 11, 12, and 13) BMCMC-PP reached support values of 95% or higher with fewer characters than MP-BP required to reach support values of 70% or higher. In the most extreme example, on internode 8 of the lncl topology, BMCMC-PP reached 95% support with 300 characters while BP-MP required 700 characters to reach a 70% support value.


Bootstraping values is low , anyone familiar with DNAman program? - the bootstrap value is low, any way to increase it? (Oct/15/2006 )

i have 9 protein sequences of one particular gene from different strains of a same virus.
all the sequences are 99.6% similar ( DNA man program multiple alignment )
but when i creat the phylogenetic tree with bootstrap 10000 times,, the confidence level , bootstrap % is low

other genes of these strains show good bootstrap% values on the tree

does anyone know what that means? how can i change it?
i tried telling my proff that it only shows the confidnece level and the phylogeny is right
but he is interested in the bootstrap% being atleat around 90%

i have 9 protein sequences of one particular gene from different strains of a same virus.
all the sequences are 99.6% similar ( DNA man program multiple alignment )
but when i creat the phylogenetic tree with bootstrap 10000 times,, the confidence level , bootstrap % is low

other genes of these strains show good bootstrap% values on the tree

does anyone know what that means? how can i change it?
i tried telling my proff that it only shows the confidnece level and the phylogeny is right
but he is interested in the bootstrap% being atleat around 90%

There is no precise rule to say how high a bootstrap percentage has to be before you are sure that the group of species in question forms a "true" clade. However, values greater than 70% are often thought to be reasonably strong evidence. Bootstrap numbers need to be treated with caution. They are often a very useful indication of the reliability of different parts of a phylogenetic tree, but they DO NOT PROVE ANYTHING CONCLUSIVELY.

You could try optimisation criterions (neighbour joining, UPGMA or even maximum likelihood) for making judgements about trees but remember these are only predictions.

I think you should just explain the above statement to your professor.

Forgot to add this website. it's a phylogenetic tree drawing system called phylodraw.

It provides two clustering methods:

UPGMA (I wouldn't use this as the algorithm assumes a molecular clock)

NJ (neighbor joining - would recommend this)

thanks for the suggestions , i will try that link and see too

i am using a program called DNAman, it uses NJ method for making the trees. and ya it calculates the bootstrap value by doing the sampling the no: of times one wants it to , in my case i done it 10000 times and got the value

i told my proff that its only a prediction and the value only shows how much the program can be sure about its prediction .
another explanation i came up is this :

the sequences are very similar 99.6 %
so i think the phylogenic tree was right , but the program couldnt say it for sure since there is so much little divergence ,, maybe thats why the bootstrap value is that low.

what do u guys think ? is it ok??

the sequences are very similar 99.6 %
so i think the phylogenic tree was right , but the program couldnt say it for sure since there is so much little divergence ,, maybe thats why the bootstrap value is that low.

what do u guys think ? is it ok??

Yes you could say that. Low bootstrap values could also indicate lack of phylogenetic subdivisions. Depending on the distribution of variation among other taxa, the wrongly clustered short branch clade can give low bootstrap values overall.


Fertin G, Labarre A, Rusu I, Tannier E, Vialette S: Combinatorics of Genome Rearrangements. MIT Press, Cambridge 2009.

Moret B, Warnow T: Advances in phylogeny reconstruction from gene order and content data. Molecular Evolution: Producing the Biochemical Data, Part B, Volume 395 of Methods in Enzymology. Edited by: Zimmer Roalson. Elsevier 2005, 673-700.

Tannier E: Yeast ancestral genome reconstructions: the possibilities of computational methods. პროკ. 7th RECOMB Workshop Comp. Genomics (RECOMB-CG’09), Volume 5817 of Lecture Notes in Comp. მეცნიერება Springer Verlag, Berlin 2009, 1-12.

Efron B, Tibshirani R: An Introduction to the Bootstrap. Chapman & Hall/CRC, Boca Raton 1993.

Felsenstein J: Confidence limits on phylogenies: an approach using the bootstrap. ევოლუცია. 1985, 39: 783-791. 10.2307/2408678

Anisimova M, Gascuel O: Approximate likelihood-ratio test for branches: A fast, accurate, and powerful alternative. Syst Biol. 2006, 55 (4): 539-552. 10.1080/10635150600755453

Guindon S, Gascuel O: PHYML—A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst Biol. 2003, 52 (5): 696-704. 10.1080/10635150390235520

Shi J, Zhang Y, Luo H, Tang J: Using jackknife to assess the quality of gene order phylogenies. BMC ბიოინფორმატიკა. 2010, 11: 168. 10.1186/1471-2105-11-168

Lin Y, Rajan V, Moret B: Fast and accurate phylogenetic reconstruction from high-resolution whole-genome data and a novel robustness estimator. Proc 8th RECOMB Workshop Comp Genomics (RECOMB-CG’10), Volume 6398 of Lecture Notes in Comp Sci. Springer Verlag, Berlin 2010, 137-148.

Saitou N, Nei M: The neighbor-joining method: A new method for reconstructing phylogenetic trees. მოლ ბიოლი ევოლ. 1987, 4: 406-425.

Desper R, Gascuel O: Theoretical Foundation of the Balanced Minimum Evolution Method of Phylogenetic Inference and Its Relationship to Weighted Least-Squares Tree Fitting. მოლ ბიოლი ევოლ. 2003, 21 (3): 587-598. 10.1093/molbev/msh049

Marron M, Swenson K, Moret B: Genomic distances under deletions and insertions. Theor Comput Sci. 2004, 325 (3): 347-360. 10.1016/j.tcs.2004.02.039

Lin Y, Moret B: Estimating true evolutionary distances under the DCJ model. Proc 16th Int’l Conf on Intelligent Systems for Mol. ბიოლი (ISMB’08), Volume 24(13) of Bioinformatics. 2008, i114-i122.

Swenson K, Marron M, Earnest-DeYoung J, Moret B: Approximating the true evolutionary distance between two genomes. პროკ. 7th SIAM Workshop on Algorithm Engineering & Experiments (ALENEX’05). 2005, SIAM Press, Philadelphia

Lin Y, Rajan V, Swenson K, Moret B: Estimating true evolutionary distances under rearrangements, duplications, and losses. Proc 8th Asia Pacific Bioinf Conf (APBC’10), Volume 11 (Suppl 1) of BMC Bioinformatics. 2010, S54-

Quenouille M: Approximate tests of correlation in time-series 3. Math Proc Cambridge Philos Soc. 1949, 45 (3): 483-484. 10.1017/S0305004100025123

Tukey J: Bias and confidence in not quite large samples. Ann Math Stat. 1958, 29 (2): 614.Miller R: The jackknifeMiller R: The jackknife

Efron B: Bootstrap methods: another look at the jackknife. Ann Stat. 1979, 7: 1-26. 10.1214/aos/1176344552

The jackknife, the bootstrap and other resampling plans. CBMS-NSF Regional Conf Series in Applied Math, Volume 38. 1982, SIAM

Efron B, Gong G: A leisurely look at the bootstrap, the jackknife, and cross-validation. Am Statistician. 1983, 37: 36-48.

Miller R: The jackknife-a review. Biometrika. 1974, 61: 1.

Efron B: Nonparametric estimates of standard error: the jackknife, the bootstrap and other methods. Biometrika. 1981, 68 (3): 589-10.1093/biomet/68.3.589. 10.1093/biomet/68.3.589

Soltis P, Soltis D: Applying the bootstrap in phylogeny reconstruction. Statist Sci. 2003, 18 (2): 256-267. 10.1214/ss/1063994980

Holmes S: Bootstrapping phylogenetic trees: theory and methods. Stat Sci. 2003, 18 (2): 241-255. 10.1214/ss/1063994979

Felsenstein J, Kishino H: Is There Something Wrong with the Bootstrap on Phylogenies? A Reply to Hillis and Bull. Syst Biol. 1993, 42 (2): 193-200.

Shao J, Wu C: A general theory for jackknife variance estimation. Ann Stat. 1989, 17 (3): 1176-1197. 10.1214/aos/1176347263

Farris J: The future of phylogeny reconstruction. Zoologica Scr. 1997, 26 (4): 303-311. 10.1111/j.1463-6409.1997.tb00420.x

Farris J, Albert V, Källersjö M, Lipscomb D, Kluge A: Parsimony jackknifing outperforms neighbor-joining. Cladistics. 1996, 12 (2): 99-124. 10.1111/j.1096-0031.1996.tb00196.x

Salamin N, Chase M, Hodkinson T, Savolainen V: Assessing internal support with large phylogenetic DNA matrices. Mol Phyl Evol. 2003, 27 (3): 528-10.1016/S1055-7903(03)00011-3. 10.1016/S1055-7903(03)00011-3

Mort M, Soltis P, Soltis D, Mabry M: Comparison of three methods for estimating internal support on phylogenetic trees. Syst Biol. 2000, 49: 160-171. 10.1080/10635150050207456

Rokas A, Holland P: Rare genomic changes as a tool for phylogenetics. Trends in Ecol and Evol. 2000, 15: 454-459. 10.1016/S0169-5347(00)01967-4

Swofford D, Olson G, Waddell P, Hillis D: Phylogenetic inference. მე -2 გამოცემა Edited by: Hillis D, Moritz C, Mable B. 1996, Sunderland, Sinauer Assoc,

Moret B, Tang J, Wang LS, Warnow T: Steps toward accurate reconstructions of phylogenies from gene-order data. J Comput Syst Sci. 2002, 65 (3): 508-525. 10.1016/S0022-0000(02)00007-7

Wang LS: Exact-IEBP: a new technique for estimating evolutionary distances between whole genomes. Proc 33rd Ann ACM Symp Theory of Comput (STOC’01). 2001, 637-646. ACM Press, New York,

Wang LS, Warnow T: Estimating true evolutionary distances between genomes. Proc 1st Workshop Algs in Bioinf (WABI’01), Volume 2149 of Lecture Notes in Comp Sci. 2001, 176-190. Springer Verlag, Berlin,

Hillis D, Huelsenbeck J: Assessing molecular phylogenies. Science. 1995, 267: 255-256. 10.1126/science.267.5195.255

Bergeron A, Mixtacki J, Stoye J: A unifying view of genome rearrangements. Proc 6th Workshop Algs in Bioinf (WABI’06), Volume 4175 of Lecture Notes in Comp Sci. 2006, 163-173. Springer Verlag, Berlin,

Yancopoulos S, Attie O, Friedberg R: Efficient sorting of genomic permutations by translocation, inversion and block interchange. ბიოინფორმატიკა. 2005, 21 (16): 3340-3346. 10.1093/bioinformatics/bti535

R Development Core Team: R: A Language and Environment for Statistical Computing. 2009, R Foundation for Statistical Computing, Vienna,

Madsen O, Scally M, Douady CJ, Kao DJ, DeBry RW, Adkins R, Amrine HM, Stanhope MJ, de Jong, Springer MS: Parallel adaptive radiations in two major clades of placental mammals. Ბუნება. 2001, 409: 610-614. 10.1038/35054544

Murphy W, Eizirik E, Johnson W, Zhang Y, Ryder O, O’Brien S: Molecular phylogenetics and the origins of placental mammals. Ბუნება. 2001, 409: 614-618. 10.1038/35054550

Amrine-Madsen H, Koepfli KP, Wayne R, Springer M: A new phylogenetic marker, apolipoprotein B , provides compelling evidence for eutherian relationships. Mol Phyl Evol. 2003, 28 (2): 225-240. 10.1016/S1055-7903(03)00118-0

Huttley G, Wakefield M, Easteal S: Rates of genome evolution and branching order from whole-genome analysis. მოლ ბიოლი ევოლ. 2007, 24 (8): 1722-1730. 10.1093/molbev/msm094

Wildman D, Uddin M, Opazo J, Liu G, Lefort V, Guindon S, Gascuel O, Grossman L, Romero R, Goodman M: Genomics, biogeography, and the diversification of placental mammals. Proc Nat’l Acad Sci, USA. 2007, 104 (36): 14395-14400. 10.1073/pnas.0704342104

Cannarozzi G, Schneider A, Gonnet G: A phylogenomic study of human, dog, and mouse. PLoS Comput Biol. 2007, 3: e2. 10.1371/journal.pcbi.0030002

Wang LS, Jansen R, Moret B, Raubeson L, Warnow T: Fast Phylogenetic Methods For Genome Rearrangement Evolution: An Empirical Study. Proc 7th Pacific Symp on Biocomputing (PSB’02). 2002, World Scientific Pub, Singapore, 524-535.

Hu F, Gao N, Tang J: Maximum likelihood phylogenetic reconstruction using gene order encodings. Proc 8th IEEE Symp Comput Intell in Bioinf & Comput Biol (CIBCB’11). IEEE Press, Piscataway, 2011, 117-122.

Lin Y, Rajan V, Moret B: Bootstrapping phylogenies inferred from rearrangement data. Proc 11th Workshop Algs in Bioinf (WABI’11), Volume 6833 of Lecture Notes in Comp Sci. Springer Verlag, Berlin, 2011, 175-187.


15.3 - Bootstrapping

Bootstrapping is a method of sample reuse that is much more general than cross-validation [1]. The idea is to use the observed sample to estimate the population distribution. Then samples can be drawn from the estimated population and the sampling distribution of any type of estimator can itself be estimated.

The steps in bootstrapping are illustrated in the figure above. Observed quantities are denoted by solid curves and unobserved quantities by dashed curves. The objective is to estimate the true sampling distribution of some quantity T, which may be numeric (such as a regression coefficient) or more complicated (such as a feature cluster dendrogram). The true sampling distribution is computed by taking new samples from the true population, computing T and then accumulating all of the values of T into the sampling distribution. However, taking new samples is expensive, so instead, we take a single sample (1) and use it to estimate the population (2). We then (3) take samples "in silico" (on the computer) from the estimated population, compute T from each (4) and accumulate all of the values of T into an estimate of the sampling distribution. From this estimated sampling distribution we can estimate the desired features of the sampling distribution. For example, if T is quantitative, we are interested in features such as the mean, variance, skewness, etc and also confidence intervals for the mean of T. If T is a cluster dendrogram, we can estimate features such as the proportion of trees in the sampling distribution than include a particular node.

There are three forms of bootstrapping which differ primarily in how the population is estimated. Most people who have heard of bootstrapping have only heard of the so-called nonparametric or resampling bootstrap.

Nonparametric (resampling) bootstrap

In the nonparametric bootstrap a sample of the same size as the data is take from the data with replacement. Რას ნიშნავს ეს? It means that if you measure 10 samples, you create a new sample of size 10 by replicating some of the samples that you've already seen and omitting others. At first this might not seem to make sense, compared to cross validation which may seem to be more principled. However, it turns out that this process actually has good statistical properties.

Semiparametric bootstrap

The resampling bootstrap can only reproduce the items that were in the original sample. The semiparametric bootstrap assumes that the population includes other items that are similar to the observed sample by sampling from a smoothed version of the sample histogram. It turns out that this can be done very simply by first taking a sample with replacement from the observed sample (just like the nonparametric bootstrap) and then adding noise.

Semiparametric bootstrapping works out much better for procedures like feature selection, clustering and classification in which there is no continuous way to move between quantities. In the nonparametric bootstrap sample there will almost always be some replication of the same sample values due to sampling with replacement. In the semiparametric bootstrap, this replication will be broken up by the added noise.

Parametric bootstrap

Parametric bootstrapping assumes that the data comes from a known distribution with unknown parameters. (For example the data may come from a Poisson, negative binomial for counts, or normal for continuous distribution.) You estimate the parameters from the data that you have and then you use the estimated distributions to simulate the samples.

All of these three methods are simulation-based ideas.

The nonparametric bootstrap does not work well because sampling with replacement produces exact replicates. The samples that are identical are going to get clustered together. So, you don't get very much new information.

The semi-parametric bootstrap perturbs the data with a bit a noise. For clustering, instead of taking a bootstrap sample and perturbing it, we might take the entire original sample and perturb it. This allows us to identify the original data points on the cluster diagram and see whether they remain in the same clusters or move to new clusters.

Obtaining a confidence interval for a Normal mean (a parametric example)

Suppose we have a sample of size n and we believe the population is Normally distributed. A parametric bootstrap can be done by computing the sample mean (ar) and variance (s^2). The bootstrap samples can be taken by generating random samples of size n from N((ar,s^2)). After taking 1000 samples or so, the set of 1000 bootstrap sample means should be a good estimate of the sampling distribution of (ar). A 95% confidence interval for the population mean is then formed by sorting the bootstrap means from lowest to highest, and dropping the 2.5% smallest and 2.5% largest. the smallest and largest remaining values are the ends of the confidence interval.

How does this compare to the usual confidence interval: (arpm t_<.975>s/sqrt)? Our interval turns out to approximate (arpm z_<.975>s/sqrt) - that is, is uses the Normal approximation to the t-distribution. This is because it does not take into account that we have estimated the variance. There are ways to improve the estimate, but we will not discuss them here.

Obtaining a confidence interval for (pi_0) with RNA-seq data (a complex parametric example)

For an example of using the parametric bootstrap let's consider computing a confidence interval for (pi_0) an RNA-seq experiment. In this case we will assume that the data are Poisson. Here is what we would do:

1) First we estimate (pi_0) from all of the data.

2) Now we need to obtain a bootstrap sample from the Poisson distribution. We will hold the library sizes fixed.

i) in each sample for each feature, recompute the count as the percentage of the library size.

ii) for each feature compute the mean percentage over all the samples from that treatment - call this (g_) where i is the feature.

iii) For each sample, multiply the library size (N_j) where j is the sample, by (g_i) to obtain (N_jg_i) the expected count for feature i in sample j.

iv) The bootstrap sample for feature i in sample j is generated as a random Poisson with mean (N_jg_i) .

b) Now that there is a bootstrap "observation" for each feature in each sample, redo the differential expression analysis and estimate (pi_0).

c) Repeat steps a0 and b0 1000 times. Now you have 1000 different estimates of (pi_0) - this is your estimate of the sampling distribution of the estimate.

3) Your 1000 bootstrap estimates can be used to draw a histogram of the sampling distribution of the estimate of (pi_0). The central 95% of the histogram is a 95% confidence interval for (pi_0). To estimate this interval, it is simplest to use the sorted bootstrap values instead of the histogram. For example, if you drop the 2.5% smallest and largest values, the remainder are in the 95% confidence interval. To form the ends of the interval, use the smallest and largest of this central 95% of the bootstrap values.

This is a parametric bootstrap confidence interval because the bootstrap samples were generated by estimating the Poisson means and then generating samples from the Poisson distribution.

[1] Efron, B. (1982). The jackknife, the bootstrap, and other resampling plans . 38 რა Society of Industrial and Applied Mathematics CBMS-NSF Monographs. ISBN 0-89871-179-7 .


Phylogenetic Bootstrapping (BS) is a standard technique for inferring confidence values on phylogenetic trees that is based on reconstructing many trees from minor variations of the input data, trees called replicates. BS is used with all phylogenetic reconstruction approaches, but we focus here on the most popular, Maximum Likelihood (ML). Because ML inference is so computationally demanding, it has proved too expensive to date to assess the impact of the number of replicates used in BS on the quality of the support values. For the same reason, a rather small number (typically 100) of BS replicates are computed in real-world studies. Stamatakis <em>et al.</em> recently introduced a BS algorithm that is 1---2 orders of magnitude faster than previous techniques, while yielding qualitatively comparable support values, making an experimental study possible.

In this paper, we propose <em>stopping criteria</em> , that is, thresholds computed at runtime to determine when enough replicates have been generated, and report on the first large-scale experimental study to assess the effect of the number of replicates on the quality of support values, including the performance of our proposed criteria. We run our tests on 17 diverse real-world DNA, single-gene as well as multi-gene, datasets, that include between 125 and 2,554 sequences. We find that our stopping criteria typically stop computations after 100---500 replicates (although the most conservative criterion may continue for several thousand replicates) while producing support values that correlate at better than 99.5% with the reference values on the best ML trees. Significantly, we also find that the stopping criteria can recommend very different numbers of replicates for different datasets of comparable sizes.


Configuration of the Bootstrap

There are two parameters that must be chosen when performing the bootstrap: the size of the sample and the number of repetitions of the procedure to perform.

Sample Size

In machine learning, it is common to use a sample size that is the same as the original dataset.

The bootstrap sample is the same size as the original dataset. As a result, some samples will be represented multiple times in the bootstrap sample while others will not be selected at all.

If the dataset is enormous and computational efficiency is an issue, smaller samples can be used, such as 50% or 80% of the size of the dataset.

Repetitions

The number of repetitions must be large enough to ensure that meaningful statistics, such as the mean, standard deviation, and standard error can be calculated on the sample.

A minimum might be 20 or 30 repetitions. Smaller values can be used will further add variance to the statistics calculated on the sample of estimated values.

Ideally, the sample of estimates would be as large as possible given the time resources, with hundreds or thousands of repeats.