本教程將使用短讀取下一代測序數(shù)據(jù)來執(zhí)行金黃色葡萄球菌基因組的部分重新組裝。這些基因組是高度重復(fù)的,對于短閱讀的組裝者來說是一個(gè)挑戰(zhàn),無需額外的信息就可以進(jìn)行重建。
大多數(shù)新一代測序平臺(tái),如Illumina,Solid,Ion Torrent和454都提供了雙端測序的選項(xiàng)。這會(huì)從相同的DNA片段中產(chǎn)生兩個(gè)序列讀數(shù),這些片段被已知的插入片段長度分開,這有助于數(shù)據(jù)的組裝。維基百科對如何在這里生成和使用配對的數(shù)據(jù)提供了很好的描述。
練習(xí)1:簡短閱讀匯編在本練習(xí)中,您將匯編短期閱讀數(shù)據(jù),而不使用配對結(jié)束信息,并通過將結(jié)果與您嘗試重建的基因組的原始部分進(jìn)行比較來了解匯編程序的效果。
練習(xí)2:組裝雙端數(shù)據(jù)接下來,您將使用雙端信息重新運(yùn)行組件。您將學(xué)習(xí)如何設(shè)置配對讀取,并了解額外信息如何影響程序集。
練習(xí)3:共識(shí)校正最后,您將看到從程序集產(chǎn)生的共有序列,并將其與您嘗試重建的基因組的原始部分對齊。然后,您將學(xué)習(xí)如何修改共識(shí)生成器來處理由原始數(shù)據(jù)中的讀取錯(cuò)誤引入的任何不正確的堿基調(diào)用。