无码中文a级毛片自慰-无码中文av在线-无码中文av有码中文av免费-无码中文av有码中文av-无码中文av有码中文a-无码制服丝袜人妻ol在线视频

Geneious中讀取下一代測序數據對基因組De Novo組裝教程

基于機器學習翻譯,僅供參考。

本教程將使用短讀取下一代測序數據來執行金黃色葡萄球菌基因組的部分重新組裝這些基因組是高度重復的,對于短閱讀的組裝者來說是一個挑戰,無需額外的信息就可以進行重建。

大多數新一代測序平臺,如Illumina,Solid,Ion Torrent和454都提供了雙端測序的選項。這會從相同的DNA片段中產生兩個序列讀數,這些片段被已知的插入片段長度分開,這有助于數據的組裝。維基百科對如何在這里生成和使用配對的數據提供了很好的描述

練習1:簡短閱讀匯編在本練習中,您將匯編短期閱讀數據,而不使用配對結束信息,并通過將結果與您嘗試重建的基因組的原始部分進行比較來了解匯編程序的效果。

練習2:組裝雙端數據接下來,您將使用雙端信息重新運行組件。您將學習如何設置配對讀取,并了解額外信息如何影響程序集。

練習3:共識校正最后,您將看到從程序集產生的共有序列,并將其與您嘗試重建的基因組的原始部分對齊。然后,您將學習如何修改共識生成器來處理由原始數據中的讀取錯誤引入的任何不正確的堿基調用。

練習1:簡短閱讀程序集

對于第一個練習,我們將使用數據作為單個讀取。如果您有雙端數據,通常不會這樣做,但我們只是演示匯編程序如何管理未配對的數據。選擇包含讀取的兩個文檔(正向讀取和反向讀取)。

現在單擊??Align / Assemble?并選擇De Novo Assemble?,然后在窗口左下角的Settings cog下單擊Reset to defaults?結果部分下,選擇保存程序集報告保存到子文件夾中保留共有序列已開啟,因為我們要將它們映射回原始參考序列以查看它們匹配的程度。

Click?OK. This should produce an assembly with 4 contigs which will be placed in the Assembly subfolder.

Two of these are very short, the others much longer as you can see from the?Assembly Report. When there are multiple contigs produced, this document will also give you the?N50 statistic?which is a commonly used measure of the quality of an assembly.

要查看這些重疊群如何與原始序列對齊,請選擇De Novo Assembly Tutorial?父文件夾,然后單擊新的Assembly?文件夾,以查看兩者的內容。按住cntrl /命令,選擇Consensus Sequences?NC_009487提取文檔。現在選擇對齊/組裝→映射到參考檢查NC_009487是否設置為參考序列,然后單擊確定

一旦這個程序集完成后,您可以查看重疊群,并查看組合的重疊群與原始序列的映射情況。您應該看到有一個區域匯編程序遇到麻煩,無法加入它生成的最長重疊群。

在程序集中選擇此區域(大約90,000)并放大。您應該看到有一部分沒有重建重疊群,這就是為什么兩個最長的重疊群無法連接的原因。在下一個練習中,我們將看看使用配對結束信息是否有幫助。

練習2:組裝雙端數據

所提供的數據實際上是125bp的雙末端讀數,插入大小約為500bp。為了在Geneious中使用雙端讀取,需要將這兩組讀取組合為一個配對讀取文件,其中包含有關其方向和距離的額外信息。為此,請選擇正向和反向讀取文檔,然后從頂部菜單中選擇序列→設置配對讀取...。您有兩個序列表,請選擇序列對列表,然后選擇預期距離為500的正向/反向(Illumina短讀取試劑盒)然后單擊確定

現在你有一個Paired Reads?文件,所以你可以選擇這個文件,然后再次運行Align / Assemble→De Novo Assemble ...?和以前相同的設置。這一次,匯編器將能夠使用配對信息來幫助它定位讀取的位置并希望重現原始序列。

完成后,將制作的共有序列與先前相同的方式映射回NC_009487序列:選擇De Novo Assembly Tutorial?父文件夾和新的Paired Reads Assembly?文件夾,然后選擇NC_009487提取和新的共識序列,然后單擊對齊/組裝→映射到參考

您現在應該可以看到最后的重疊群幾乎是原始序列的全長,但“?統計”?選項卡將顯示序列不是100%相同的。您可以使用CTRL / CMD + D單步執行錯誤,或查看身份圖以檢查錯誤。由于原始數據中的錯誤,會有幾個位置在裝配中不明確。在最后的練習中,我們將在共識中糾正這些基調。

練習3:共識糾正

返回上一練習中配對讀數組合文件夾并打開重疊群。為了確定變異的位置,選擇Annotate&Predict→Find Variations / SNPs?并重置為默認值,然后將Minimum Coverage?更改4,因為覆蓋率很低的區域會對變體調用做出貢獻。這些可能是組裝不良或閱讀錯誤的產物,但將它們稱為SNP將使我們能夠輕松找到它們。保留最小變化頻率設置并取消選中最大變量P值最小股數偏置P值因為我們只是使用SNP查找器更容易地在共識代中查找這些錯誤。點擊確定

一旦變異已被調用,在共有序列中的第340?位選擇它們中的第一個,然后放大該基地。這一組變體是由于讀取結束附近的缺口缺失的低覆蓋區域中的未對準引起的。由于使用的評分方法,對齊器難以完成讀取結束時的差距。

單擊“注釋和跟蹤”?選項卡中“變體”注釋控件旁邊的右箭頭,直到找到基于18033的變體。

該基因在共有序列中被稱為'R',因為讀數在該位置包含A和G的混合物。進入“顯示”選項卡中的共識設置,并根據0% - 多數改變設置以調用

您現在將看到該基地在共識中被稱為A。逐步通過其余變體來檢查在共有序列中調用的堿基是否反映了讀取中的大多數堿基,然后通過選擇整個序列并單擊提取將共有序列提取到新文檔

注意:對于大多數數據集,通過“最高質量”調用共識將產生最準確的結果,并且是推薦的選項。但是,對于本教程,我們使用了一個小的低覆蓋率數據集,因此使用“0%多數”可產生較少的歧義。

將新的共有序列重新映射到NC_009487參考序列,并查看您現在是否能夠找到任何分歧。“?統計信息”?選項卡應顯示對齊現在為100%,并且您已更正原始數據中的讀取錯誤。

您現在已經完成了De Novo Assembly Tutorial。

需要更多的信息?

本文檔頁面已被提取的Q&A部分,在那里你可以討論,并得到反饋。
相關問題
主站蜘蛛池模板: 午夜福利麻豆国产精品| 成人午夜A片产无码免费视频日本 成人午夜电影国产一区二区三 | 美女扒开腿让男人桶爽30分钟| 欧美日韩经典| 精品国产A∨无码一区二区三区| 国产成人无码免费看视频软件| 777亚洲精品自在在线观看| 色综合中文字幕| 欧美无修正| 精品成人毛片视频| 丁香五月综合缴清中文| 亚洲无码视频看| 欧美日韩国产专区| 国产亚洲综合久久系列| 成人AV无码一二二区视频免费看| 亚洲精品一区二区三区四区五区| 欧美精品一区二区三区在线 | 精品自产拍| 国产精品丝袜亚洲熟女| 91中文字幕无码永久在线| 亚洲麻豆av无码成人片在线观看 | 中文字幕2区| 人妻丰满熟妇av无码区hd| 久久精品亚洲精品国产色婷| 国产高清无码久久| 制服在线无码专区| 欧美综合精品| 国产亚洲欧美日韩剧的剧情介绍| 波多野结衣av高清中文字幕| 亚洲 自拍 欧美 小说 综合| 久久影视手机免费观看| 国产精品久久久久久久久久免费 | 国精品产露脸偷拍视频| 草色噜噜噜AV在线观看香蕉| 午夜久久免费视频| 久久久久久久99久久久国| 国产成人精品福利网站人| 亚洲日韩AV一区二区三区中文| 欧类av怡春院| 国产精品亚洲美女久久久| 2024国产亚洲美女精品久久久|