无码中文a级毛片自慰-无码中文av在线-无码中文av有码中文av免费-无码中文av有码中文av-无码中文av有码中文a-无码制服丝袜人妻ol在线视频

Geneious中讀取下一代測序數據對基因組De Novo組裝教程

基于機器學習翻譯,僅供參考。

本教程將使用短讀取下一代測序數據來執行金黃色葡萄球菌基因組的部分重新組裝這些基因組是高度重復的,對于短閱讀的組裝者來說是一個挑戰,無需額外的信息就可以進行重建。

大多數新一代測序平臺,如Illumina,Solid,Ion Torrent和454都提供了雙端測序的選項。這會從相同的DNA片段中產生兩個序列讀數,這些片段被已知的插入片段長度分開,這有助于數據的組裝。維基百科對如何在這里生成和使用配對的數據提供了很好的描述

練習1:簡短閱讀匯編在本練習中,您將匯編短期閱讀數據,而不使用配對結束信息,并通過將結果與您嘗試重建的基因組的原始部分進行比較來了解匯編程序的效果。

練習2:組裝雙端數據接下來,您將使用雙端信息重新運行組件。您將學習如何設置配對讀取,并了解額外信息如何影響程序集。

練習3:共識校正最后,您將看到從程序集產生的共有序列,并將其與您嘗試重建的基因組的原始部分對齊。然后,您將學習如何修改共識生成器來處理由原始數據中的讀取錯誤引入的任何不正確的堿基調用。

練習1:簡短閱讀程序集

對于第一個練習,我們將使用數據作為單個讀取。如果您有雙端數據,通常不會這樣做,但我們只是演示匯編程序如何管理未配對的數據。選擇包含讀取的兩個文檔(正向讀取和反向讀取)。

現在單擊??Align / Assemble?并選擇De Novo Assemble?,然后在窗口左下角的Settings cog下單擊Reset to defaults?結果部分下,選擇保存程序集報告保存到子文件夾中保留共有序列已開啟,因為我們要將它們映射回原始參考序列以查看它們匹配的程度。

Click?OK. This should produce an assembly with 4 contigs which will be placed in the Assembly subfolder.

Two of these are very short, the others much longer as you can see from the?Assembly Report. When there are multiple contigs produced, this document will also give you the?N50 statistic?which is a commonly used measure of the quality of an assembly.

要查看這些重疊群如何與原始序列對齊,請選擇De Novo Assembly Tutorial?父文件夾,然后單擊新的Assembly?文件夾,以查看兩者的內容。按住cntrl /命令,選擇Consensus Sequences?NC_009487提取文檔。現在選擇對齊/組裝→映射到參考檢查NC_009487是否設置為參考序列,然后單擊確定

一旦這個程序集完成后,您可以查看重疊群,并查看組合的重疊群與原始序列的映射情況。您應該看到有一個區域匯編程序遇到麻煩,無法加入它生成的最長重疊群。

在程序集中選擇此區域(大約90,000)并放大。您應該看到有一部分沒有重建重疊群,這就是為什么兩個最長的重疊群無法連接的原因。在下一個練習中,我們將看看使用配對結束信息是否有幫助。

練習2:組裝雙端數據

所提供的數據實際上是125bp的雙末端讀數,插入大小約為500bp。為了在Geneious中使用雙端讀取,需要將這兩組讀取組合為一個配對讀取文件,其中包含有關其方向和距離的額外信息。為此,請選擇正向和反向讀取文檔,然后從頂部菜單中選擇序列→設置配對讀取...。您有兩個序列表,請選擇序列對列表,然后選擇預期距離為500的正向/反向(Illumina短讀取試劑盒)然后單擊確定

現在你有一個Paired Reads?文件,所以你可以選擇這個文件,然后再次運行Align / Assemble→De Novo Assemble ...?和以前相同的設置。這一次,匯編器將能夠使用配對信息來幫助它定位讀取的位置并希望重現原始序列。

完成后,將制作的共有序列與先前相同的方式映射回NC_009487序列:選擇De Novo Assembly Tutorial?父文件夾和新的Paired Reads Assembly?文件夾,然后選擇NC_009487提取和新的共識序列,然后單擊對齊/組裝→映射到參考

您現在應該可以看到最后的重疊群幾乎是原始序列的全長,但“?統計”?選項卡將顯示序列不是100%相同的。您可以使用CTRL / CMD + D單步執行錯誤,或查看身份圖以檢查錯誤。由于原始數據中的錯誤,會有幾個位置在裝配中不明確。在最后的練習中,我們將在共識中糾正這些基調。

練習3:共識糾正

返回上一練習中配對讀數組合文件夾并打開重疊群。為了確定變異的位置,選擇Annotate&Predict→Find Variations / SNPs?并重置為默認值,然后將Minimum Coverage?更改4,因為覆蓋率很低的區域會對變體調用做出貢獻。這些可能是組裝不良或閱讀錯誤的產物,但將它們稱為SNP將使我們能夠輕松找到它們。保留最小變化頻率設置并取消選中最大變量P值最小股數偏置P值因為我們只是使用SNP查找器更容易地在共識代中查找這些錯誤。點擊確定

一旦變異已被調用,在共有序列中的第340?位選擇它們中的第一個,然后放大該基地。這一組變體是由于讀取結束附近的缺口缺失的低覆蓋區域中的未對準引起的。由于使用的評分方法,對齊器難以完成讀取結束時的差距。

單擊“注釋和跟蹤”?選項卡中“變體”注釋控件旁邊的右箭頭,直到找到基于18033的變體。

該基因在共有序列中被稱為'R',因為讀數在該位置包含A和G的混合物。進入“顯示”選項卡中的共識設置,并根據0% - 多數改變設置以調用

您現在將看到該基地在共識中被稱為A。逐步通過其余變體來檢查在共有序列中調用的堿基是否反映了讀取中的大多數堿基,然后通過選擇整個序列并單擊提取將共有序列提取到新文檔

注意:對于大多數數據集,通過“最高質量”調用共識將產生最準確的結果,并且是推薦的選項。但是,對于本教程,我們使用了一個小的低覆蓋率數據集,因此使用“0%多數”可產生較少的歧義。

將新的共有序列重新映射到NC_009487參考序列,并查看您現在是否能夠找到任何分歧。“?統計信息”?選項卡應顯示對齊現在為100%,并且您已更正原始數據中的讀取錯誤。

您現在已經完成了De Novo Assembly Tutorial。

Need more info?

This documentation page has been extracted from the Q&A section where you can discuss it and get feedback.
Related question
主站蜘蛛池模板: 99久久国产热无码精品| 国产熟女视频精品| 精品国产种子在线观看| 国产精品爽黄69天堂A片潘金莲 | bt天堂国产亚洲欧美在线| 2024久久国产最新免费观看| 天天碰免费视频| 麻豆精品久久久久久久综合| 久操精品在线| 国产欧美一区视频在线观看| 国产播放隔着超薄丝袜进入| a级毛片无码a免费| 亚洲一区二区三区| 日日摸夜夜添夜夜添A片公司| 欧美与黑人午夜性猛交久久久| 久久久久久三级毛片| 国产在线观看首页123| 国产成人免费网站| 中文字幕精品区先锋资源| 午夜亚洲影院在线观看| 麻豆视频免费观看入口| 精品久久久久久亚洲中文字幕 | 老熟妇高潮一区二区高清视频| 国产欧美在线观看精品一区二区 | 成人精品一区二区91毛片不卡| av一区二区在线观看国产| 亚洲欧美日韩专区第一页| 欧美综合图区| 国产亚洲欧美在线中文bt天堂 | 九一视频在线观看| 国产suv精品一区二区| 91久久久精品国产一区二区蜜臀| 日韩一区二区三区久久香蕉| 久久视频精品38在线播放| 国产丝袜在线观看免费完整版| chinese国产一区二区| 熟女人妇成熟妇女系列视频| 老司机午夜网站 | 柳岩老师好紧好爽再浪一点| 国产伦精品一区二区三区视频免费 | 久久久久综合网久久|