ინფორმაცია

რა არის გენის სიგრძე TPM გამოთვლისას (ტრანსკრიპტები მილიონზე)


რა არის გენის სიგრძე TPM გამოთვლისას (ტრანსკრიპტები მილიონზე)? დავუშვათ, რომ მე მაქვს მონაცემთა მატრიცა k სტრიქონებით (თითოეული სტრიქონი არის გენი) და n სვეტით (თითოეული სვეტი არის ნიმუში), არის თუ არა რაიმე გზა გადავიტანო მონაცემთა ნაკრები TPM– ში? Დიდი მადლობა!


დავუშვათ, რომ გვაქვს

$$ : : begin {bmatrix} Gene : Name & Rep1 : Count & Rep2 : Count & Rep3 : Count A : (2kb) & 10 & 15 & 30 B : ( 5kb) & 25 & 25 & 70 C : (2kb) & 6 & 10 & 17 D ((8kb) & 1 & 1 & 3 end {bmatrix} : : $$


ამის გარდაქმნა TPM ფორმატი, ჩვენ უნდა გენი სიგრძის ნორმალიზებადა შემდეგ ნორმალიზდება გენის სიღრმეზე, იმ თანმიმდევრობით.


გენის სიგრძის ნორმალიზება…

  • ნაბიჯი (ები) შესასრულებლად: გაიმეორეთ თითოეული გამეორებული რაოდენობა მისი შესაბამისი გენის სიგრძეზე.

$ Gene A $, მას აქვს სიგრძე $ 2kb $ (კილობაზი), გამეორებით ითვლის $ 10, 15, $ და $ 30 $. ამ ოპერაციის შესრულება მთელ მაგიდაზე,

$$ : : begin {bmatrix} Gene : Name & Rep1 : Count & Rep2 : Count & Rep3 : Count A : (2kb) & frac {10} {2} & frac {15} {2} & frac {30} {2} B : (5kb) & frac {25} {5} & frac {25} {5} & frac {70} {5} C : (2kb) & frac {6} {2} & frac {10} {2} & frac {17} {2} D : (8kb) & frac {1} { 8} & frac {1} {8} & frac {3} {8} end {bmatrix} : : $$

მოსავლიანობას

$$ : : begin {bmatrix} Gene : Name & Rep1 : Count & Rep2 : Count & Rep3 : Count A : (2kb) & 5 & 7.5 & 15 B : ( 5kb) & 5 & 5 & 35 C : (2kb) & 3 & 5 & 8.5 D : (8kb) & .125 & .125 & .375 end {bmatrix} : : $$


გენის სიღრმის ნორმალიზება…

  • ნაბიჯი (ები) შესასრულებლად: 1) შეაჯამეთ ყველა რაოდენობა თითოეულ გამეორებულ სვეტში; 2) თითოეული სვეტის ჯამი გაყავით სასურველ სიღრმეზე (ეს იძლევა სკალირების ფაქტორებს); 3) გაყავით თითოეული გამეორებული რაოდენობა სვეტში მისი შესაბამისი სკალირების ფაქტორით.

$ Rep1 $

  • ჯამი: $ 5 + 5 + 3 + .125 = 13.125 $
  • სკალირების ფაქტორი: $ frac {13.125} {1,000,000} = 1.325 ჯერ 10^{-5} $

$ Rep2 $

  • ჯამი: $ 7.5 + 5 + 5 + .125 = 17.625 $
  • სკალირების ფაქტორი: $ frac {17.625} {1,000,000} = 1.7625 ჯერ 10^{-5} $

$ Rep3 $

  • ჯამი: $ 15 + 35 + 8.5 + .375 = 58.875 $
  • სკალირების ფაქტორი: $ frac {13.125} {1,000,000} = 5.8875 ჯერ 10^{-5} $

ამ მნიშვნელობების გამოყენება ცხრილში,

$$ : : begin {bmatrix} Gene : Name & Rep1 : Count & Rep2 : Count & Rep3 : Count A : (2kb) & frac {5} {1.325 times 10^ {-5}} & frac {7.5} {1.7625 ჯერ 10^{-5}} & frac {15} {5.8875 ჯერ 10^{-5}} B : (5 კბ) და frac {5} {1.325 ჯერ 10^{-5}} & frac {5} {1.7625 ჯერ 10^{-5}} & frac {35} {5.8875 ჯერ 10^{-5}} C : (2kb) & frac {3} {1.325 ჯერ 10^{-5}} & frac {5} {1.7625 ჯერ 10^{-5}} & frac {8.5} {5.8875 ჯერ 10^{-5}} D : (8kb) & frac {.125} {1.325 ჯერ 10^{-5}} & frac {.125} {1.7625 ჯერ 10^{-5} } & frac {.375} {5.8875 ჯერ 10^{-5}} end {bmatrix} : : $$

მოსავლიანობას

$$ : : begin {bmatrix} Gene : Name & Rep1 : Count & Rep2 : Count & Rep3 : Count A : (2kb) & 377358.49 & 425531.91 & 254777.07 B : ( 5 კბ) და 377358.49 & 283687.94 & 594479.83 C : (2 კბ) და 226415.09 & 283687.94 და 144373.67 D : (8 კბ) და 9433.96 & 7092.20 & 6369.43 ბოლოს {ბმატრიქსი} : : $ $

მონაცემთა ნაკრები არის TPM ფორმატირებული, რომელიც გთავაზობთ წაკითხული პროპორციების უფრო მარტივ ანალიზს მთელ ნიმუშზე.


RNA-Seq ნორმალიზება განმარტა

RNA-Seq (მოკლედ RNA თანმიმდევრობა) არის ექსპერიმენტის ტიპი, რომელიც საშუალებას გვაძლევს გავზომოთ გენის გამოხატულება. თანმიმდევრობის ნაბიჯი წარმოქმნის cDNA 1 ფრაგმენტის დიდ რაოდენობას (ათობით მილიონი) წაკითხულს. თითოეული წაკითხვა წარმოადგენს რნმ -ის მოლეკულის ნაწილს ნიმუშში 2.

შემდეგ ჩვენ თითოეულ წაკითხულს ("რუქას") ვაძლევთ ერთ იზოფორმს და ვთვლით რამდენი წაკითხული აქვს თითოეულ იზოფორმს.

ყველაფერი დანარჩენი თანაბარია, რაც უფრო მეტია იზოფორმი, მით უფრო სავარაუდოა, რომ მისგან ფრაგმენტები დალაგდება. აქედან გამომდინარე, ჩვენ შეგვიძლია გამოვიყენოთ წაკითხული რიცხვები, როგორც იზოფორმის სიმრავლის პროქსი.

თუმცა, ვინაიდან "ყველაფერი დანარჩენი" არასოდეს არის თანაბარი, რიცხვები უნდა იყოს მორგებული, რომ იყოს შესადარებელი იზოფორმებში, ნიმუშებსა და ექსპერიმენტებში. აქ ჩვენ შევისწავლით ამ შესწორებებს და რატომ არის ისინი საჭირო.

განვიხილოთ შემდეგი რუქული წაკითხული რნმ-სეკის ექსპერიმენტიდან. რომელი იზოფორმი უფრო უხვადაა, წითელი თუ ყვითელი?

ყვითელ იზოფორმს მეტი წაკითხვა აქვს მინიჭებული, მაგრამ ის ასევე გაცილებით გრძელია ვიდრე წითელი. რაც უფრო გრძელია იზოფორმი, მით მეტი ფრაგმენტი (და, შესაბამისად, კითხულობს) ჩვენ უნდა ველოდოთ მის წარმოქმნას.

იმისათვის, რომ შევძლოთ წაკითხული რიცხვების შედარება იზოფორმებთან, ჩვენ რიცხვებს ვყოფთ იზოფორმის სიგრძეზე. ასევე ჩვეულებრივია რიცხვის გამრავლება (1000 ), მოპოვებით კითხულობს თითო კილობაზაზე:

სადაც (n_i ) არის იზოფორმზე გამოსახული წაკითხვის რაოდენობა (i ), და (l_i ) არის ამ იზოფორმის სიგრძე.


გენის გამოხატვის ერთეულები განმარტებულია: RPM, RPKM, FPKM და TPM

RNA-seq გენის გამოხატვის მონაცემთა ანალიზში, ჩვენ ვხვდებით სხვადასხვა გამოხატვის ერთეულებს, როგორიცაა RPM, RPKM, FPKM და ნედლი კითხვის რაოდენობა. ხშირ შემთხვევაში ძნელია გავიგოთ ძირითადი მეთოდოლოგია, რომ გამოვთვალოთ ეს ერთეულები რუქული თანმიმდევრობის მონაცემებიდან. აქ შევეცადე ამ ერთეულების ახსნა ბევრად მარტივი გზით.

რატომ არის განსხვავებული ნორმალიზებული გამოხატვის ერთეული:

გამოხატვის ერთეულები უზრუნველყოფენ ტრანსკრიპტების სიმრავლის ციფრულ ზომას. ნორმალიზებული ექსპრესიული ერთეულები აუცილებელია თანმიმდევრული მონაცემების ტექნიკური მიკერძოებულობის მოსაშორებლად, როგორიცაა თანმიმდევრობის სიღრმე (თანმიმდევრობის უფრო მეტი სიღრმე გამოიმუშავებს იმავე დონეზე გამოხატული გენის მეტ წაკითხულ რაოდენობას) და გენის სიგრძე (გენების სიგრძეში განსხვავებები წარმოქმნის არათანაბარ კითხვას ერთსა და იმავე გენებში) გაათანაბრეთ გენი უფრო მეტად წაკითხული რაოდენობა).

გენის გამოხატვის ერთეულები და გამოთვლა:

RPM (კითხულობს მილიონ რუქაზე წაკითხულს)

მაგალითად, თქვენ დაათვალიერეთ ერთი ბიბლიოთეკა 5 მილიონი (M) წაკითხვით. მათ შორის, სულ 4 M ემთხვევა გენომის თანმიმდევრობას და 5000 კითხვა შეესაბამება მოცემულ გენს.

  • RPM არ განიხილავს ტრანსკრიპტის სიგრძის ნორმალიზებას.
  • RPM შესაფერისია პროტოკოლების თანმიმდევრობისთვის, სადაც წაკითხვა გენერირდება განურჩევლად გენის სიგრძისა

RPKM (კითხულობს პ კილოგრამი ბაზა მილიონ რუქაზე წაკითხული)

აქ 103 ნორმალიზდება გენის სიგრძისათვის და 10 6 ნორმალური თანმიმდევრობის სიღრმის ფაქტორისთვის.

FPKM (ფრაგმენტები თითო კილოგრამ ბაზაზე მილიონ რუქაზე ნათქვამია) არის RPKM– ის ანალოგი და გამოიყენება განსაკუთრებით დაწყვილებულ რნმ – სექს ექსპერიმენტებში. დაწყვილებულ რნმ-სექს ექსპერიმენტებში, ორი (მარცხენა და მარჯვენა) წაკითხვა განისაზღვრება ერთი და იგივე დნმ-ის ფრაგმენტიდან. როდესაც ჩვენ ვდებთ შეწყვილებულ მონაცემებს, ორივე კითხულობს ან მხოლოდ ერთს კითხულობს ფრაგმენტიდან მაღალი ხარისხით, შეუძლია შეადგინოს მითითების მიმდევრობა. დაბნეულობის ან მრავალჯერადი დათვლის თავიდან აცილების მიზნით, ფრაგმენტები, რომლებზეც ორივე ან ერთი წაკითხული რუქაზეა ასახული და წარმოდგენილია FPKM გამოთვლისთვის.

მაგალითად, თქვენ დაალაგეთ ბიბლიოთეკა 5 მ კითხვით. მათ შორის, სულ 4 M ემთხვევა გენომის თანმიმდევრობას და 5000 კითხვა შეესაბამება მოცემულ გენს, რომლის სიგრძეა 2000 bp.

  • RPKM განიხილავს გენის სიგრძეს ნორმალიზებისთვის
  • RPKM შესაფერისია პროტოკოლების თანმიმდევრობისთვის, სადაც წაკითხვის თანმიმდევრობა დამოკიდებულია გენის სიგრძეზე
  • გამოიყენება ერთჯერადი რნმ-სექს ექსპერიმენტებში (FPKM დაწყვილებული ბოლოს რნმ-სექ მონაცემებისთვის)

TPM (ტრანსკრიპტი მილიონზე)

აქ წაკითხვის სიგრძე გულისხმობს ნუკლეოტიდების საშუალო რაოდენობას, რომელიც ასახულია გენზე.


რა არის გენის სიგრძე TPM გამოთვლისას (ტრანსკრიპტები მილიონზე) - ბიოლოგია

RNA-seq გენის გამოხატვის მონაცემთა ანალიზში ჩვენ ვხვდებით სხვადასხვა გამოხატვის ერთეულებს, როგორიცაა RPM, RPKM, FPKM და ნედლი კითხვის დათვლა. ხშირ შემთხვევაში ძნელია გავიგოთ ძირითადი მეთოდოლოგია, რომ გამოვთვალოთ ეს ერთეულები შედგენილი თანმიმდევრობის მონაცემებიდან.

მე ვნახე ბევრი პოსტი ასეთი ნორმალიზაციის კითხვებისა და მათი დაბნეულობის შესახებ მკითხველებს შორის. აქედან გამომდინარე, მე შევეცადე ამ ერთეულების ახსნა ბევრად უფრო მარტივი გზით (თავიდან ავიცილე რთული მათემატიკური გამონათქვამები).

რატომ არის განსხვავებული ნორმალიზებული გამოხატვის ერთეული:

გამოხატვის ერთეულები უზრუნველყოფენ ტრანსკრიპტების სიმრავლის ციფრულ ზომას. ნორმალიზებული ექსპრესიული ერთეულები აუცილებელია თანმიმდევრული მონაცემების ტექნიკური მიკერძოებების მოსაშორებლად, როგორიცაა თანმიმდევრობის სიღრმე (თანმიმდევრობის უფრო მეტი სიღრმე აწარმოებს უფრო მეტ წაკითხულ რიცხვს იმავე დონეზე გამოხატული გენისთვის) და გენის სიგრძე (გენების სიგრძეში განსხვავებები წარმოქმნის არათანაბარ კითხვას ერთსა და იმავე გენებში) გაათანაბრეთ გენი უფრო მეტად წაკითხული რაოდენობა).

გენის გამოხატვის ერთეულები და გამოთვლა:

1. RPM (კითხულობს მილიონ რუქაზე წაკითხულს)

მაგალითად, თქვენ დაათვალიერეთ ერთი ბიბლიოთეკა 5 მილიონი (M) წაკითხვით. მათ შორის, სულ 4 M ემთხვევა გენომის თანმიმდევრობას და 5000 კითხვა შეესაბამება მოცემულ გენს.

  • RPM არ განიხილავს ტრანსკრიპტის სიგრძის ნორმალიზებას.
  • RPM შესაფერისია პროტოკოლების თანმიმდევრობისთვის, სადაც წაკითხვა გენერირდება განურჩევლად გენის სიგრძისა! [შეიყვანეთ სურათის აღწერა

2. RPKM (კითხულობს კილოგრამის ბაზაზე მილიონ რუქაზე წაკითხულს)

აქ, 10^3 ნორმალიზდება გენის სიგრძისთვის და 10^6 თანმიმდევრობის სიღრმის ფაქტორისთვის.

FPKM (ფრაგმენტები თითო კილოგრამ ბაზაზე მილიონ რუქაზე წაკითხული) არის RPKM– ის ანალოგი და გამოიყენება განსაკუთრებით დაწყვილებულ რნმ – სექს ექსპერიმენტებში. დაწყვილებულ რნმ-სექს ექსპერიმენტებში, ორი (მარცხენა და მარჯვენა) წაკითხვა განისაზღვრება ერთი და იგივე დნმ-ის ფრაგმენტიდან. როდესაც ჩვენ ვდებთ შეწყვილებულ მონაცემებს, ორივე კითხულობს ან მხოლოდ ერთს კითხულობს ფრაგმენტიდან მაღალი ხარისხით, შეუძლია შეადგინოს მითითების მიმდევრობა. დაბნეულობის ან მრავალჯერადი დათვლის თავიდან აცილების მიზნით, ფრაგმენტები, რომლებზეც ორივე ან ერთი წაკითხული რუქაზეა ასახული და წარმოდგენილია FPKM გამოთვლისთვის.

მაგალითად, თქვენ დაალაგეთ ბიბლიოთეკა 5 მ კითხვით. მათ შორის, სულ 4 M ემთხვევა გენომის თანმიმდევრობას და 5000 კითხვა შეესაბამება მოცემულ გენს, რომლის სიგრძეა 2000 bp.


RNA-Seq მონაცემთა სკალირება და ნორმალიზაცია

ტრანსკრიპტის სიგრძე

წაკითხული (ფრაგმენტები) თითო კილობაზის მილიონზე (RPKM) და ტრანსკრიპტები მილიონზე (TPM) არის მეტრიკა გენის გამოხატვის ასამაღლებლად ორი მიზნის მისაღწევად

  1. გენების გამოხატვა შეადარეთ ნიმუშებს შორის.
  2. შეადარეთ სხვადასხვა გენების გამოხატულება.

(1.), ბიბლიოთეკის ზომები (მთლიანი წაკითხვის რაოდენობა) ყოველთვის განსხვავდება ნიმუშებს შორის, როგორც რნმ -ის თანმიმდევრობის ტექნიკური არტეფაქტი. (2.), თითოეული გენის RNA ტრანსკრიპტების ზომა განსხვავებულია და ჩვენ ველით, რომ მეტი წაკითხვა ჩაითვლება უფრო დიდ ტრანსკრიპტებში.

RPKM და TPM ძალიან მსგავსი მეტრიკაა. თითოეული გენის თითოეულ ნიმუშში…

[TPM_ = frac < frac<>><>/1000 >> < თანხა_^G frac<>><>/1000 >> ჯერ 1E6 ] სადაც (G ) არის გენების საერთო რაოდენობა. განსხვავება დახვეწილია, მაგრამ გაითვალისწინეთ, რომ ბიბლიოთეკის ზომა RPKM– ისთვის ჩვენ ვაფართოვებთ ბიბლიოთეკის ზომას (ნედლი რიცხვების ჯამი), სადაც TPM– სთვის ჩვენ ვამრავლებთ ჯერ ტრანსკრიპტის ზომას, შემდეგ კი ვამრავლებთ ამ გარდაქმნილი რიცხვების ჯამით. მხოლოდ TPM უზრუნველყოფს, რომ ბიბლიოთეკის მასშტაბები თანაბარია ნიმუშებში, სადაც RPKM მნიშვნელობების ჯამი განსხვავდება ნიმუშებს შორის.


რა არის გენის სიგრძე TPM გამოთვლისას (ტრანსკრიპტები მილიონზე) - ბიოლოგია

გაიქეცი სიმებიანი ბრძანების სტრიქონიდან ასე:
პროგრამის მთავარი შეყვანა არის BAM ფაილი RNA-Seq წაკითხული რუკებით, რომელიც უნდა დალაგდეს მათი გენომიკური ადგილმდებარეობის მიხედვით (მაგალითად მიღებული_ დარტყმები.ბამ TopHat– ის მიერ წარმოებული ფაილი ან HISAT2– ის გამომუშავება samtools– ის გამოყენებით დახარისხების და კონვერტაციის შემდეგ, როგორც ეს განმარტებულია ქვემოთ).

ფაილების შეყვანა

ფაილი წარმოიშვა ზემოაღნიშნული ბრძანების შედეგად (alns.დალაგებულია.ბამ) შეიძლება გამოყენებულ იქნას როგორც შეყვანის StringTie.

შესასვლელი SAM ფაილში წაკითხული წაკითხვის ყველა შერწყმა (ანუ განლაგება მინიმუმ ერთ შეერთებაზე) უნდა შეიცავდეს ტეგს XS მიუთითოს გენომური შტრიხი, რომელმაც გამოიმუშავა რნმ, საიდანაც მოხდა კითხვის თანმიმდევრობა. TopHat და HISAT2– ის მიერ წარმოებული გასწორებები (როდესაც გამოიყენება -dta პარამეტრით) უკვე შეიცავს ამ ტეგს, მაგრამ თუ თქვენ იყენებთ სხვა წაკითხვის რუქას, უნდა შეამოწმოთ, რომ ეს XS ტეგი მოთავსებულია გასწორებული განლაგებისათვის.

შენიშვნა: დარწმუნდით, რომ გაუშვით HISAT2 გასწორების --dta ვარიანტით, წინააღმდეგ შემთხვევაში თქვენი შედეგები დაზარალდება.

როგორც ვარიანტი, საცნობარო ანოტაციის ფაილი GTF/GFF3 ფორმატში შეიძლება მიეწოდოს StringTie- ს. ამ შემთხვევაში, StringTie ამჯობინებს გამოიყენოს ეს "ცნობილი" გენები ანოტირების ფაილიდან და მათთვის, ვინც გამოხატულია, გამოთვლის დაფარვის, TPM და FPKM მნიშვნელობებს. იგი ასევე გამოიმუშავებს დამატებით ჩანაწერებს რნმ-ის მონაცემების აღრიცხვისათვის, რომლებიც არ არის დაფარული (ან ახსნილია) ანოტაციით. გაითვალისწინეთ, რომ თუ ვარიანტი -e არ გამოიყენება, საცნობარო ჩანაწერები სრულად უნდა იყოს დაფარული წაკითხვით, რათა შევიდეს StringTie– ის გამომავალში. ამ შემთხვევაში, სხვა ჩანაწერები, რომლებიც შედგენილია მონაცემებიდან StringTie– ს მიერ და არ არის მითითებულ ფაილში, ასევე დაიბეჭდება.

შენიშვნა: ჩვენ გირჩევთ, რომ მოგაწოდოთ ანოტაცია, თუ აანალიზებთ კარგად ანოტირებული გენომს, როგორიცაა ადამიანი, თაგვი ან სხვა მოდელი ორგანიზმები.

გამომავალი ფაილები

  1. სტრინგტიას მთავარი გამომავალი არის GTF ფაილი, რომელიც შეიცავს აწყობილ ტრანსკრიპტებს
  2. გენების სიუხვე ჩანართებით განსაზღვრული ფორმატით
  3. სრულად დაფარული ტრანსკრიპტები, რომლებიც შეესაბამება მითითების ანოტაციას, GTF ფორმატში
  4. Ballgown– ში შესასვლელად საჭიროა ფაილები (ცხრილები), რომლებიც მათ იყენებს დიფერენციალური გამოხატვის შესაფასებლად
  5. შერწყმის რეჟიმში, გაერთიანებულია GTF ფაილი GTF ფაილების ნაკრებიდან

თითოეული სვეტის ღირებულებების აღწერა:

  • სეკენა: აღნიშნავს ამ ტრანსკრიპტის ქრომოსომას, კონგს ან ხარაჩოს. აქ აწყობილი ტრანსკრიპტი არის X ქრომოსომაზე.
  • წყარო: GTF ფაილის წყარო. ვინაიდან ეს მაგალითი დამზადებულია StringTie- ს მიერ, ეს სვეტი უბრალოდ აჩვენებს 'StringTie'.
  • თვისება: ფუნქციის ტიპი მაგ., ეგზონი, ტრანსკრიპტი, mRNA, 5'UTR).
  • დაწყება: ფუნქციის საწყისი პოზიცია (ეგზონი, ტრანსკრიპტი და ა.შ.) 1-ზე დაფუძნებული ინდექსის გამოყენებით.
  • დასასრული: ფუნქციის ბოლო პოზიცია, 1-ზე დაფუძნებული ინდექსის გამოყენებით.
  • ანგარიში: ნდობის ქულა აწყობილი ტრანსკრიპტისთვის. ამჟამად ეს ველი არ გამოიყენება და StringTie იუწყება 1000 – ის მუდმივ მნიშვნელობას, თუ ტრანსკრიპტს აქვს კავშირი წაკითხული განლაგების პაკეტთან.
  • ძაფის: თუ ტრანსკრიპტი მდებარეობს წინა ხაზზე, '+'. თუ ტრანსკრიპტი მდებარეობს უკანა ხაზზე, '-'.
  • ჩარჩო: CDS მახასიათებლების ჩარჩო ან ფაზა. StringTie არ იყენებს ამ ველს და უბრალოდ ჩაწერს ".".
  • ატრიბუტები: მძიმით გამოყოფილი ტეგ-მნიშვნელობის წყვილების სია, რომელიც უზრუნველყოფს დამატებით ინფორმაციას თითოეული მახასიათებლის შესახებ. იმისდა მიხედვით, არის თუ არა ეგზემპლარი ტრანსკრიპტი თუ ეგზონი და ემთხვევა თუ არა ჩანაწერი მომხმარებლის მიერ მიწოდებულ საცნობარო ანოტაციურ ფაილს, ატრიბუტების ველის შინაარსი განსხვავდება. შემდეგი სია აღწერს ამ სვეტში ნაჩვენებ შესაძლო ატრიბუტებს:
    • gene_id: უნიკალური იდენტიფიკატორი ერთი გენისა და მისი შვილთა ჩანაწერისთვის და ეგზონებისთვის, განლაგებული ფაილის სახელის საფუძველზე.
    • transcript_id: ერთიანი ტრანსკრიპტის უნიკალური იდენტიფიკატორი და მისი შვილი ეგზონირდება განლაგებების ფაილის სახელის საფუძველზე.
    • exon_number: უნიკალური იდენტიფიკატორი ერთი ეგზონისთვის, 1 -დან დაწყებული, მოცემულ ტრანსკრიპტში.
    • reference_id: ტრანსკრიფტი_იდი მითითების ანოტაციაში (სურვილისამებრ), რომელსაც ეგზემპლარი ემთხვეოდა.
    • ref_gene_id: გენი_იდი საცნობარო ანოტაციაში (სურვილისამებრ), რომელსაც ინსტანცია დაემთხვა.
    • ref_gene_name: გენის_სახელი მითითების ანოტაციაში (სურვილისამებრ), რომელსაც ეგზემპლარი ემთხვეოდა.
    • cov: საშუალო დაფარვის დაფარვა ტრანსკრიპტის ან ეგზონისთვის.
    • FPKM: ფრაგმენტები თითო კილობაზაზე გადაწერილი მილიონი წაკითხული წყვილი. ეს არის ამ მახასიათებლის შესაბამისი წაკითხული წყვილების რაოდენობა, რომელიც ნორმალიზებულია ფრაგმენტების თანმიმდევრობით (მილიონებში) და ტრანსკრიპტის სიგრძით (კილობაზებში).
    • TPM: ტრანსკრიპტები მილიონზე. ეს არის ამ გენის ჩანაწერების რაოდენობა, რომელიც ნორმალიზდება ჯერ გენის სიგრძით, შემდეგ კი ნიმუშში სიღრმის მიხედვით (მილიონობით). TPM და FPKM– ის დეტალური ახსნა და შედარება შეგიძლიათ იხილოთ აქ.
    • სვეტი 1 / გენის ID: გენის იდენტიფიკატორი მოდის -G ვარიანტით გათვალისწინებული საცნობარო ანოტივიდან. თუ მითითება არ არის მოცემული, ეს ველი შეიცვლება სახელის პრეფიქსით გამომავალი ტრანსკრიპტებისთვის (-l).
    • სვეტი 2 / გენის სახელი: ეს ველი შეიცავს გენის სახელს საცნობარო ანოტაციაში -G ვარიანტით. თუ მითითება არ არის მოცემული, ეს ველი შევსებულია "-"-ით.
    • სვეტი 3 / მითითება: საცნობარო მიმდევრობის სახელი, რომელიც გამოყენებული იყო წაკითხვის გასწორებაში. მე –3 სვეტის ექვივალენტი .SAM განლაგებაში.
    • სვეტი 4 / სტრენდი: '+' აღნიშნავს, რომ გენი არის წინა ძაფზე, '-' საპირისპირო ძაფისთვის.
    • სვეტი 5 / დაწყება: გენის საწყისი პოზიცია (1 დაფუძნებული ინდექსი).
    • სვეტი 6 / Დასასრული: გენის საბოლოო პოზიცია (1 დაფუძნებული ინდექსი).
    • სვეტი 7 / დაფარვა: გენის დაფარვა ბაზაზე.
    • სვეტი 8 / FPKM: ნორმალიზებული გამოხატვის დონე FPKM ერთეულებში (იხ. წინა ნაწილი).
    • სვეტი 9 / TPM: ნორმალიზებულია გამოხატვის დონე RPM ერთეულებში (იხ. წინა ნაწილი).

    3. სრულად დაფარული ტრანსკრიპტები, რომლებიც შეესაბამება მითითების ანოტაციის ტრანსკრიპტებს (GTF ფორმატში)

    თუ StringTie გააქტიურებულია -C & ltcov_refs.gtf & gt ვარიანტით (მოითხოვს -G & ltreference_annotation & gt), ის აბრუნებს ფაილს ყველა ტრანსკრიპტით საცნობარო ანოტაციაში, რომელიც სრულად არის დაფარული, ბოლომდე, წაკითხვით. გამომავალი ფორმატი არის GTF ფაილი, როგორც ზემოთ აღწერილია. GTF- ის თითოეული ხაზი შეესაბამება გენს ან ტრანსკრიპტს საცნობარო ანოტაციაში.

    4. Ballgown შეყვანის მაგიდის ფაილები

    თუ StringTie მუშაობს -B პარამეტრით, ის აბრუნებს Ballgown შეყვანის ცხრილის ფაილს, რომელიც შეიცავს ყველა ტრანსკრიპტის დაფარვის მონაცემებს. გამომავალი ცხრილის ფაილები მოთავსებულია იმავე დირექტორიაში, როგორც მთავარი GTF გამომავალი. ამ ცხრილებს აქვთ ეს კონკრეტული სახელები: (1) e2t.ctab, (2) e_data.ctab, (3) i2t.ctab, (4) i_data.ctab და (5) t_data.ctab. ამ ხუთიდან თითოეული საჭირო შეყვანის დეტალური აღწერა Ballgown– ში შეგიძლიათ ნახოთ Ballgown– ის საიტზე, ამ ბმულზე.

    5. შერწყმის რეჟიმი: გაერთიანებულია GTF

    თუ StringTie გააქტიურებულია --merge ვარიანტით, ის იღებს როგორც შეყვანის GTF/GFF ფაილების ჩამონათვალს და აერთიანებს/აერთიანებს ამ ტრანსკრიპტებს ტრანსკრიპტების არაჭარბებულ ნაკრებში. ეს ნაბიჯი ქმნის ტრანსკრიპტების ერთგვაროვან კომპლექტს ყველა ნიმუშისთვის, რათა ხელი შეუწყოს დიფერენციალურად გამოხატული დონის შემდგომ გამოთვლას ყველა ტრანსკრიპტისათვის სხვადასხვა ექსპერიმენტულ პირობებს შორის. გამომავალი არის გაერთიანებული GTF ფაილი ყველა გაერთიანებული გენის მოდელებით, მაგრამ ყოველგვარი რიცხვითი შედეგების გარეშე დაფარვის, FPKM და TPM. შემდეგ, ამ გაერთიანებული GTF– ით, StringTie– ს შეუძლია ხელახლა შეაფასოს სიმრავლე, კვლავ გაუშვით –e პარამეტრით გასწორების ფაილების თავდაპირველ ნაკრებზე, როგორც ეს ილუსტრირებულია ქვემოთ მოცემულ ფიგურაში.

    ტრანსკრიპტების შეკრებების შეფასება

    StringTie- ს მიერ აწყობილი ტრანსკრიპტების შესახებ მეტი ინფორმაციის მიღების მარტივი გზა (გენისა და ტრანსკრიპტების რაოდენობის შეჯამება, რომანი ცნობილი და სხვ.), ან თუნდაც რნმ-სეკის მრავალჯერადი ექსპერიმენტის დროს აწყობილი იზოფორმების ძირითადი თვალყურის დევნება არის gffcompare პროგრამის გამოყენება რა ამ პროგრამის ძირითადი გამოყენების ინფორმაცია და გადმოტვირთვის პარამეტრები შეგიძლიათ იხილოთ GFF კომუნალური გვერდზე.

    დიფერენციალური გამოხატვის ანალიზი

    1. თითოეული RNA-Seq ნიმუშისთვის, ასახეთ წაკითხული გენომი HISAT2– ით გამოყენებით -დთა ვარიანტი. უაღრესად მიზანშეწონილია გამოიყენოთ საცნობარო ანოტაციის ინფორმაცია წაკითხვის რუქების შედგენისას, რომელიც შეიძლება ჩაითვალოს გენომის ინდექსში (აგებულია --სს და -ეგსონი პარამეტრები, იხილეთ HISAT2 სახელმძღვანელო), ან ცალკე გაშვებისას (გამოყენებისას -უცნობი-splicesite-infile ვარიანტი HISAT2). თითოეული HISAT2 გაშვების SAM გამომავალი უნდა იყოს დახარისხებული და გადაკეთებული BAM გამოყენებით samtools როგორც ზემოთ განმარტა.
    2. თითოეული RNA -Seq ნიმუშისთვის გაუშვით StringTie წინა საფეხურზე მიღებული წაკითხული განლაგების შესაგროვებლად, რეკომენდირებულია StringTie გაუშვათ –G ვარიანტით, თუ საცნობარო ანოტაცია ხელმისაწვდომია.
    3. გაუშვით StringTie ერთად -გაჩნდა რათა შეიქმნას ტრანსკრიპტების არასასურველი ნაკრები, რომელიც შეიმჩნევა ადრე შეკრებილ RNA-Seq ნიმუშებში. ის სიმებიანი -გაჩერება რეჟიმი შეყვანის სახით იღებს ყველა შეკრებილი ტრანსკრიპტების ფაილების ჩამონათვალს (GTF ფორმატში), რომელიც ადრე იყო მიღებული თითოეული ნიმუშისთვის, ასევე საცნობარო ანოტაციის ფაილს (-გ ვარიანტი) თუ შესაძლებელია.
    4. თითოეული RNA-Seq ნიმუშისთვის გაუშვით StringTie გამოყენებით -B/-b და -ე პარამეტრები, რათა შეაფასოს ტრანსკრიპტების სიმრავლე და შექმნას წაკითხული დაფარვის ცხრილები Ballgown– ისთვის. -E ვარიანტი არ არის საჭირო, მაგრამ რეკომენდებულია ამ გაშვებისთვის, რათა წარმოადგინოს შემავალი ტრანსკრიპტების უფრო ზუსტი სიუხვე. თითოეული StringTie გაშვებული ამ საფეხურზე მიიღებს შეყვანის დახარისხებულ წაკითხულ თანმიმდევრობას (BAM ფაილი), რომელიც მიიღება 1 ნაბიჯში შესაბამისი ნიმუშისა და -გ ვარიანტი შერწყმული ტრანსკრიპტებით (GTF ფაილი) გენერირებული სიმებიანი -გაჩერება ნაბიჯი 3. გთხოვთ გაითვალისწინოთ, რომ ეს არის ერთადერთი შემთხვევა, როდესაც -გ ვარიანტი არ გამოიყენება საცნობარო ანოტაციით, არამედ ტრანსკრიპტების გლობალური, გაერთიანებული ნაკრებით, როგორც ეს შეინიშნება ყველა ნიმუშში. (ეს ნაბიჯი არის ექვივალენტი სუფრის დამამზადებელი ნაბიჯი აღწერილია Ballgown– ის თავდაპირველ მილსადენში.)
    5. Ballgown ახლა შეიძლება გამოყენებულ იქნას წინა საფეხურზე წარმოქმნილი დაფარვის ცხრილების ასატვირთად და დიფერენციალური გამოხატვის სხვადასხვა სტატისტიკური ანალიზის ჩასატარებლად, ნაკვეთების შესაქმნელად და ა.

    ალტერნატიული, უფრო სწრაფი დიფერენციალური გამოხატვის ანალიზის სამუშაოების მიმდინარეობა შეიძლება გაგრძელდეს, თუ არ არსებობს ინტერესი ახალი იზოფორმებისადმი (მაგ. ნიმუშებში აწყობილი ჩანაწერები, მაგრამ არ არსებობს მითითების ანოტაციაში), ან თუ ინტერესთა ტრანსკრიპტების მხოლოდ ცნობილი ნაკრებია მიზნობრივი ანალიზი. ამ გამარტივებულ პროტოკოლს აქვს მხოლოდ 3 საფეხური (ნაჩვენებია ქვემოთ), რადგან ის გვერდს უვლის თითოეული RNA-Seq ნიმუშის ინდივიდუალურ შეკრებას და "ტრანსკრიპტის შერწყმა" ნაბიჯი. ეს გამარტივებული სამუშაო ნაკადი ცდილობს უშუალოდ შეაფასოს და გააანალიზოს ტრანსკრიპტების ცნობილი ნაკრების გამოხატულება, როგორც ეს მოცემულია საცნობარო ანოტაცია ფაილი

    R პაკეტი IsoformSwitchAnalyzeR შეიძლება გამოყენებულ იქნას StringTie- ს მიერ აწყობილი ტრანსკრიპტების გენის სახელების მინიჭებისთვის, რაც განსაკუთრებით გამოსადეგი იქნება იმ შემთხვევებში, როდესაც StringTie ვერ ასრულებდა ამ დავალებას ერთმნიშვნელოვნად.
    პაკეტის importIsoformExpression () + importRdata () ფუნქცია შეიძლება გამოყენებულ იქნას გამოხატვისა და ანოტაციის მონაცემების R. იმპორტისათვის. ამ იმპორტის დროს პაკეტი შეეცდება გაწმინდოს და აღადგინოს შეძლებისდაგვარად იზოფორმული ანოტაციები. შედეგად switchAnalyzeRlist ობიექტი, IsoformSwitchAnalyzeR შეუძლია გამოავლინოს იზოფორმის გადამრთველები პროგნოზირებულ ფუნქციურ შედეგებთან ერთად. ExtractGeneExpression () ფუნქცია შეიძლება გამოყენებულ იქნას გენის გამოხატვის (წაკითხვის დათვლის) მატრიცის მისაღებად სხვა ინსტრუმენტებთან გასაანალიზებლად.
    დამატებითი ინფორმაცია და კოდის მაგალითები შეგიძლიათ იხილოთ აქ.

    StringTie გამოყენებით DESeq2 და edgeR

    DESeq2 და edgeR არის ორი პოპულარული ბიოკონდუქტორული პაკეტი დიფერენციალური გამოხატვის გასაანალიზებლად, რომლებიც შეყვანის სახით იღებენ წაკითხული რიცხვების მატრიცას, რომლებიც ასახულია კონკრეტულ გენომურ მახასიათებლებზე (მაგ., გენებზე). ჩვენ გთავაზობთ პითონის სკრიპტს (prepDE.pyან Python 3 ვერსია: prepDE.py3 ), რომელიც შეიძლება გამოყენებულ იქნას ამ წაკითხული მონაცემების ამონაწერი უშუალოდ StringTie– ს მიერ წარმოქმნილი ფაილებიდან (გაუშვით -ე პარამეტრი).

    prepDE.py გამოაქვს ჰიპოთეტური წაკითხვის რაოდენობა თითოეული ტრანსკრიპტისათვის დაფარვის მნიშვნელობებიდან, რომელიც შეფასებულია StringTie თითოეული ტრანსკრიპტისთვის, ამ მარტივი ფორმულის გამოყენებით: კითხულობს_მწერლობა = დაფარვა * ტრანსკრიპტი_ლენ / წაკითხული_ლენ

    • ერთი ვარიანტია მიაწოდოს გზას დირექტორიაში, რომელიც შეიცავს ყველა ნიმუშის ქვე დირექტორიას, იგივე სტრუქტურით, როგორც ქურთუკი დირექტორია StringTie პროტოკოლის ქაღალდზე Ballgown– ის მოსამზადებლად. სტანდარტულად (არა -მე ვარიანტი), სკრიპტი აპირებს მიმდინარე დირექტორიაში მოიძიოს ყველა ქვე დირექტორიაში, სადაც არის .gtf ფაილები, როგორც ამ მაგალითში:
    • ალტერნატიულად, შეგიძლიათ მოგაწოდოთ ტექსტური ფაილი, რომელშიც მოცემულია ID– ს ნიმუშები და მათი შესაბამისი გზები (sample_lst.txt).

    გამოყენება: prepDE.py [პარამეტრები]
    გამოიმუშავებს ორ CSV ფაილს, რომელიც შეიცავს გენებისა და ტრანსკრიპტების მატრიცებს, დაფარვის მნიშვნელობების გამოყენებით stringtie -e

    Პარამეტრები:
    -ჰ, -დახმარება აჩვენეთ ეს დახმარების შეტყობინება და გამოდით
    -i INPUT, -input = INPUT, -in = INPUTსაქაღალდე, რომელიც შეიცავს ყველა ქვე-დირექტორიის ნიმუშს, ან ტექსტურ ფაილს ნიმუშის ID- ით და მის GTF ფაილის გზას თითოეულ სტრიქონზე [ნაგულისხმევი:. ]
    -გ გსად უნდა გამოვიტანოთ გენის რიცხვის მატრიცა [ნაგულისხმევი: gene_count_matrix.csv]
    -ტ თსად უნდა გამოვიტანოთ ტრანსკრიპტების რაოდენობის მატრიცა [ნაგულისხმევი: transcript_count_matrix.csv]
    -l LENGTH, -სიგრძე = LENGTHწაკითხვის საშუალო სიგრძე [ნაგულისხმევი: 75]
    -p PATTERN, -ნიმუში = PATTERNრეგულარული გამოთქმა, რომელიც ირჩევს ნიმუშის ქვე დირექტორიებს
    -გ, -კლასტერიდაჯგუფება თუ არა გენები, რომლებიც გადაფარავს სხვადასხვა გენის ID– ს, იგნორირებას უკეთებს გენეიდურ შაბლონს (იხ. ქვემოთ)
    -s STRING, --string = STRINGთუ StringTie– ს მიერ მინიჭებული geneID– ებისთვის გამოიყენება სხვა პრეფიქსი [ნაგულისხმევი: MSTRG]
    -k KEY, -key = KEYდაჯგუფების შემთხვევაში, რა პრეფიქსი გამოვიყენოთ ამ სკრიპტით მინიჭებული geneID– ებისთვის [ნაგულისხმევი: prepG]
    -ლეგენდა = ლეგენდათუ დაჯგუფებულია, სად უნდა გამოვიდეს ლეგენდის ფაილის რუქების ტრანსკრიპტები მინიჭებულ geneID– ებზე [ნაგულისხმევი: legend.csv]

    ეს დათვლის მატრიცები (CSV ფაილები) შემდეგ შეიძლება შემოვიდეს R– ში DESeq2 და edgeR (გამოყენებით DESeqDataSetFromMatrix და DGEList ფუნქციები, შესაბამისად).

    პროტოკოლი: გამოყენებით StringTie ერთად DESeq2

    GTF– ების ჩამონათვალის გათვალისწინებით, რომლებიც ხელახლა იქნა შეფასებული შერწყმისას, მომხმარებლებს შეუძლიათ დაიცვან ქვემოთ მოყვანილი პროტოკოლი, რათა გამოიყენონ DESeq2 დიფერენციალური გამოხატვის ანალიზისათვის. ნედლი კითხვისგან GTF– ების შესაქმნელად მიჰყევით StringTie პროტოკოლის ქაღალდს (Ballgown საფეხურამდე).


    სავარჯიშო 2: დიფერენციალური გამოხატვის გაზომვა

    კვლავ შეარჩიეთ მითითების თანმიმდევრობა და ახლა თქვენ უნდა ნახოთ გამოხატვის დონის ანოტაციის ჩანაწერები მასზე დატვირთული თითოეული ნიმუშის მდგომარეობისთვის. თუ თქვენ არ შეგიძლიათ ნახოთ ეს ჩანაწერები, შეამოწმეთ რომ ისინი ჩართულია ანოტაციისა და ტრეკების ჩანართში, მიმდევრობის დამთვალიერებლის მარჯვნივ. გენების საპოვნელად, რომლებიც განსხვავებულად არის გამოხატული ორ ნიმუშულ მდგომარეობას შორის, გადადით დანიშვნა და პროგნოზირება → შეადარეთ გამოხატვის დონეები.

    შეამოწმეთ, რომ წინა სავარჯიშოში შექმნილი ტრეკები არჩეულია შედარებისთვის: უნდა იყოს სიმღერა 1 – გამოხატვის: Sample_condition_1 და სიმღერა 2 – გამოხატვა: Sample_condition_2რა შეარჩიეთ შედარება ტრანსკრიპტები ნორმალიზებული მიერ გენის გამოხატვის კოეფიციენტების მედიანა – ეს არის რეკომენდებული მეთოდი (იხილეთ გამოხატვის დონის ზომები ამ მეთოდების შესახებ მეტი ინფორმაციისთვის). დააწკაპუნეთ კარგი.

    თქვენ ნახავთ მესამე ანოტაციის ჩანაწერს, რომელიც დაემატა თქვენს საცნობარო თანმიმდევრობას სახელწოდებით “Diff Expression: Sample_condition_1 vs Sample_condition_2 ”, და როგორც ინდივიდუალური გამოხატვის დონის ტრეკებს, ანოტაციები შეღებილია შედეგების მიხედვით. დააწკაპუნეთ ერთ – ერთ ანოტაციაზე და თქვენ ნახავთ ამომხტარი ფანჯარა, სადაც ჩამოთვლილია თითოეული ნიმუშის მდგომარეობის ნედლი წაკითხვისა და ტრანსკრიპტის რაოდენობა, პლუს დიფერენციალური გამოხატვის ქულების სია.

    ის დიფერენციალური გამოხატვის p მნიშვნელობა გეუბნებათ არის თუ არა დიფერენციალური გამოხატულება სტატისტიკურად მნიშვნელოვანი. ის დიფერენციალური გამოხატვის ნდობა არის p მნიშვნელობის უარყოფითი ბაზა 10 log, მორგებულია ნეგატიურად იმ გენებისთვის, რომლებიც მე -2 ნიმუშში ნაკლებადაა გამოხატული 1 ნიმუშთან შედარებით, ან დადებითია ზედმეტად გამოხატული გენებისთვის. ნაგულისხმევად, Geneious იყენებს ამ მნიშვნელობას ანოტაციების შესაღებად: ლურჯიდან ნაკლებად გამოხატული გენებისთვის, თეთრიდან იმ გენებისთვის, რომლებიც არ არის განსხვავებულად გამოხატული, წითელიდან მეტისმეტად გამოხატული გენებისთვის.

    სცადეთ ამ სფეროზე დაფუძნებული გაფილტვრა, რათა იპოვოთ ყველა ის გენი, რომელიც აჩვენებს მნიშვნელოვნად უფრო მაღალ გამოხატულებას ნიმუშის მდგომარეობაში 2 ვიდრე ნიმუშის მდგომარეობას 1: აჩვენეთ ანოტაციები და ტრეკები ჩანართი მიმდევრობის დამთვალიერებლის მარჯვნივ და ტიპი “ დიფერენციალური გამოხატვის ნდობა ” & gt2 (მათ შორის ბრჭყალები) საძიებო ველში, როგორც ქვემოთ მოცემულ ეკრანის სურათში. დიფერენციალური გამოხატვის კონფიდენციალურობის დონე 2 -ზე მეტი ტოლია p მნიშვნელობით 0.01 -ზე ნაკლები. ახლა თქვენ უნდა ნახოთ მხოლოდ 29 ანოტაცია ნაჩვენები, ყველა ვარდისფერი ან წითელი ფერის, რაც მიუთითებს ამ გენის მნიშვნელოვნად უფრო მაღალ გამოხატულებაზე ნიმუშის მდგომარეობაში 2 ვიდრე ნიმუშის 1 -ში (p & lt0.01). ამ ანოტაციების გადასატანად დააწკაპუნეთ ანოტაციებისა და ტრეკების ჩანართში ანოტაციის ჩანაწერის სახელის მარჯვნივ მდებარე ისრებით.

    თქვენ ასევე შეგიძლიათ აჩვენოთ შედეგები ცხრილის სახით დაჭერით ანოტაციები ჩანართი მიმდევრობის დამთვალიერებლის ზემოთ და აჩვენებს მხოლოდ “Diff Expression ” ანოტაციის ჩანაწერს. შეიძლება დაგჭირდეთ დიფერენციალური გამოხატვის ნდობისა და თანაფარდობის სვეტების დამატება ღილაკზე დაჭერით Სვეტები ღილაკი. შედეგების დასალაგებლად ყველაზე მეტად ნიმუშში 2 → ყველაზე ნაკლებად გამოხატული ნიმუში 2 დააწკაპუნეთ “Diefial Expression Confidence ” სათაურზე ორჯერ ისე, რომ უმაღლესი მნიშვნელობები იყოს ზედა.

    სურვილისამებრ შეგიძლიათ დააწკაპუნოთ ამ ცხრილის .csv ფორმატში საექსპორტო მაგიდა (ეს შეიძლება იყოს ორმაგი ისრების ქვეშ & gt & gt).


    შენიშვნა: არსებობს ორი შემოთავაზებული გზა შეფასების იმპორტისათვის დიფერენციალური გენის გამოხატვის (DGE) მეთოდებით. პირველი მეთოდი, რომელსაც ჩვენ ქვემოთ ვაჩვენებთ ზღვარი რ და ამისთვის DESeq2, არის გამოვიყენოთ გენის დონის სავარაუდო რაოდენობა რაოდენობრივი ინსტრუმენტებიდან და დამატებით გამოვიყენოთ ტრანსკრიპტების დონის სიმრავლე, რათა გამოვთვალოთ გენის დონის კომპენსაცია, რომელიც ასწორებს ნიმუშებში ტრანსკრიპტის საშუალო სიგრძის ცვლილებებს. ქვემოთ მოყვანილი კოდის მაგალითები ასრულებს ამ ნაბიჯებს თქვენთვის, თვალყურს ადევნებს შესაბამის მატრიცებს და ითვლის ამ გადახრებს. ამისთვის ზღვარი რ თქვენ უნდა მიანიჭოთ y $ ოფსეტური მატრიცა, მაგრამ ფუნქცია DESeqDataSetFromTximport ზრუნავს თქვენთვის კომპენსაციის შექმნაზე. დავარქვათ ამ მეთოდს ”ორიგინალური დათვლა და კომპენსირება”.

    მეორე მეთოდია გამოიყენოს tximport არგუმენტები countFromAbundance = & quotlengthScaledTPM & quot ან & quotscaledTPM & quot, და შემდეგ გამოვიყენოთ გენის დონის დათვლის მატრიცა txi $ პირდაპირ ითვლის როგორც ამ პროგრამული უზრუნველყოფის ჩვეულებრივი დათვლის მატრიცას. დავარქვათ ამ მეთოდს ”მიკერძოებულობამ შეასწორა დათვლა კომპენსაციის გარეშე

    Შენიშვნა: ხელით ნუ გადასცემთ გენის დონის თავდაპირველ რაოდენობას შემდგომ მეთოდებს კომპენსირების გარეშერა ერთადერთი შემთხვევა, როდესაც ამას აზრი ექნება არის ის, რომ არ არსებობდეს რიცხვების სიგრძისადმი მიკერძოება, როგორც ეს ხდება 3 'რნმ-სექს მონაცემებით (იხილეთ ქვემოთა ნაწილი). გენის დონის თავდაპირველი რაოდენობა არის txi $ რიცხვებში, როდესაც tximport გაშვებული იყო countsFromAbundance = & quotno & quot. ეს უბრალოდ გადარიცხავს შეჯამებულ სავარაუდო ტრანსკრიპტს და არ ასწორებს პოტენციური დიფერენციალური იზოფორმის გამოყენებას (ოფსეტური), რაც არის ტქსიმპორტი მეთოდები (Soneson, Love, and Robinson 2015) გენის დონის ანალიზისათვის. გენის დონის არაკორექტირებული რიცხვების გადატანა კომპენსირების გარეშე არ არის რეკომენდებული ტქსიმპორტი პაკეტის ავტორები. ორი მეთოდი, რომელსაც ჩვენ გთავაზობთ აქ არის: ”ორიგინალური დათვლა და კომპენსირება"ან"მიკერძოებულობამ შეასწორა დათვლა კომპენსაციის გარეშე“. Txi– ს გადაცემა DESeqDataSetFromTximport– ში, როგორც ქვემოთ არის ნათქვამი, სწორია: ფუნქცია ქმნის შესაბამის ოფსეტს, რომელიც თქვენ გენის დონის დიფერენციალური გამოხატვის შესასრულებლად.


    3 ’tagged RNA-seq

    თუ თქვენ გაქვთ 3 'რნმ-სექ მონაცემების აღნიშვნა, მაშინ გენის სიგრძის რიცხვის გასწორება გამოიწვევს მიკერძოებულობას თქვენს ანალიზში, რადგან რიცხვებს არ აქვთ სიგრძის მიკერძოება. ნაცვლად ნაგულისხმევი სრული ტრანსკრიპტის სიგრძის მილსადენისა, ჩვენ გირჩევთ გამოიყენოთ ორიგინალური რიცხვები, მაგ. txi $ ითვლება თვლის მატრიცად, მაგ. უზრუნველყოფა DESeqDataSetFromMatrix ან ზღვარი რ ან ლიმმა ფუნქციებს ოფსეტური გაანგარიშების გარეშე და გამოყენების გარეშე ითვლის სიუხვიდან.


    Mov10 მონაცემთა ნაკრების ნორმალიზების დათვლა DESeq2– ის გამოყენებით

    ახლა, როდესაც ჩვენ ვიცით დათვლის ნორმალიზაციის თეორია, ჩვენ ნორმალიზებას ჩავთვლით Mov10 მონაცემთა ნაკრებში DESeq2– ის გამოყენებით. ეს მოითხოვს რამდენიმე ნაბიჯს:

    1. დარწმუნდით, რომ მეტამონაცემების მონაცემთა ჩარჩოს სტრიქონების სახელები არსებობს და არის იმავე თანმიმდევრობით, როგორც დათვლის მონაცემთა ჩარჩოს სვეტების სახელები.
    2. შექმენით DESeqDataSet ობიექტი
    3. შექმენით ნორმალიზებული რიცხვები

    1. შეუსაბამეთ მეტამონაცემები და ითვლის მონაცემებს

    ჩვენ ყოველთვის უნდა დავრწმუნდეთ, რომ ჩვენ გვაქვს ნიმუშის სახელები, რომლებიც ემთხვევა ორ ფაილს შორის და რომ ნიმუშები ერთნაირია. DESeq2 გამოუშვებს შეცდომას, თუ ეს ასე არ არის.

    თუ თქვენი მონაცემები არ ემთხვევა, შეგიძლიათ გამოიყენოთ დამთხვევის () ფუნქცია მათი გადასალაგებლად.

    დავუშვათ, რომ ჩვენ გვაქვს სახელების ნიმუშები, რომლებიც შეესაბამება დათვლის მატრიცასა და მეტამონაცემების ფაილს, მაგრამ ისინი განსხვავებული თანმიმდევრობით არიან. ჩაწერეთ კოდის ხაზი (ები) ახალი მატრიცის შესაქმნელად სვეტებით ხელახლა დალაგებული ისე, რომ ისინი იდენტური იყოს მეტამონაცემების რიგის სახელებისათვის.

    2. შექმენით DESEq2 ობიექტი

    ბიო გამტარების პროგრამული პაკეტები ხშირად განსაზღვრავს და იყენებს პერსონალურ კლასს R– ში მონაცემების შესანახად (შეყვანის მონაცემები, შუალედური მონაცემები და ასევე შედეგები). These custom data structures are similar to lists in that they can contain multiple different data types/structures. But unlike lists, they have pre-specified data slots, which hold specific types/classes of data. The data stored in these pre-specified slots can be accessed by using specific package-defined functions.

    Let’s start by creating the DESeqDataSet object, and then we can talk a bit more about what is stored inside it. To create the object, we will need the count matrix და metadata table as input. We will also need to specify a design formulaრა The design formula specifies the column(s) in the metadata table and how they should be used in the analysis. For our dataset we only have one column we are interested in, which is

    sampletype . This column has three factor levels, which tells DESeq2 that for each gene we want to evaluate gene expression change with respect to these different levels.

    Our count matrix input is stored in the txi list objectრა So we need to specify that using the DESeqDataSetFromTximport() function, which will extract the counts component and round the values to the nearest whole number.

    ᲨᲔᲜᲘᲨᲕᲜᲐ: Since we had created a data variable in the last lesson which contains the counts, we could have also used that as input. However, in that case we would want to use the DESeqDataSetFromMatrix() function.

    You can use DESeq-specific functions to access the different slots and retrieve information. For example, suppose we want to retrieve the original count matrix, we would use counts() function (Note: we nest it within the View() function so that we can view the result in the script editor rather than in the console) :

    As we go through the workflow, we will use relevant functions to check what information is stored inside our object.

    3. Generate the Mov10 normalized counts

    The next step is to normalize the count data in order to make fair gene comparisons between samples.

    To perform the median of ratios method of normalization, DESeq2 has a single estimateSizeFactors() function that will generate size factors. We will demonstrate this function in the example below, but in a typical RNA-seq analysis, this step is automatically performed by the DESeq() function, which we will discuss later.

    By assigning the results back to the dds object, we are filling in the slots of the DESeqDataSet object with the appropriate information. We can take a look at the normalization factors of each sample using:

    Now, to retrieve the normalized counts matrix from dds , we use the counts() function and add the argument normalized=TRUE .

    We can save this normalized data matrix to file for later use:

    ᲨᲔᲜᲘᲨᲕᲜᲐ: DESeq2 doesn’t actually use normalized counts, rather it uses the raw counts and models the normalization inside the Generalized Linear Model (GLM). These normalized counts will be useful for downstream visualization of results, but cannot be used as input to DESeq2 or any other tools that perform differential expression analysis that use the negative binomial model.

    This lesson has been developed by members of the teaching team at the Harvard Chan Bioinformatics Core (HBC). These are open access materials distributed under the terms of the Creative Commons Attribution license (CC BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited.


    Უყურე ვიდეოს: ქართველი ერის გენეტიკური კოდი, მითი თუ რეალობა (იანვარი 2022).