亚洲国产精品线路久久,国产va免费精品高清在线,久久精品国产亚洲AV蜜臀

基于機(jī)器學(xué)習(xí)翻譯，僅供參考

在本教程中，您將學(xué)習(xí)從Sanger測(cè)序運(yùn)行產(chǎn)生的典型原始序列數(shù)據(jù)，并學(xué)習(xí)如何編輯和對(duì)齊下游分析的色譜圖，如構(gòu)建系統(tǒng)發(fā)育樹或計(jì)算核苷酸多樣性。本教程涵蓋批量修剪質(zhì)量差的序列，編輯序列或程序集的序列，發(fā)現(xiàn)雜合體和錯(cuò)誤地稱為堿基，以及從同一基因的正向和反向讀取構(gòu)建共有序列。

練習(xí)1：編輯線粒體DNA序列??編輯和比對(duì)藍(lán)山雀特有的一組線粒體DNA序列。

練習(xí)2：?處理雙向核序列數(shù)據(jù)編輯和組裝來(lái)自三個(gè)蘆葦鳴鳥物種的核基因序列的正向和反向讀數(shù)。

本教程需要安裝Heterozygotes插件。要安裝它，請(qǐng)轉(zhuǎn)至工具 - >插件，在可用插件列表中找到它，然后單擊安裝。

線粒體DNA序列 - 簡(jiǎn)介

藍(lán)雀物種復(fù)合體包括在整個(gè)歐洲發(fā)現(xiàn)的C. caeruleus，在北非和加那利群島發(fā)現(xiàn)的C. teneriffae，以及在亞洲和東歐發(fā)現(xiàn)的C. cyanus。線粒體DNA數(shù)據(jù)可用于研究這些物種的系統(tǒng)地理學(xué)和種群結(jié)構(gòu)。

這里提供的數(shù)據(jù)集包括來(lái)自C. caeruleus和C. teneriffae的線粒體DNA控制區(qū)的34個(gè)序列。還包括來(lái)自大山雀帕魯斯大學(xué)的序列，因?yàn)檫@將是用于系統(tǒng)發(fā)育分析的合適的外群。

下表給出了本教程中序列的采樣位置和代碼

碼	種類	起源
CEH	C. teneriffae	加那利群島 - 埃爾耶羅
CFU	C. teneriffae	加那利群島 - 富埃特文圖拉
CGC	C. teneriffae	加那利群島 - 大加那利島
CLG	C. teneriffae	加那利群島 - 戈梅拉
CLP	C. teneriffae	加那利群島 - 拉帕爾馬
CLA	C. teneriffae	加那利群島 - 蘭薩羅特島
CTE	C. teneriffae	加那利群島 - 特內(nèi)里費(fèi)島
MCE	C. teneriffae	摩洛哥 - 休達(dá)
ECA	C. caeruleus	西班牙 - 加的斯
SRE	C. caeruleus	瑞典 - Revinge
GB	C. caeruleus	英國(guó) - 牛津
Pmaj	體育專業(yè)	瑞典 - Kvismaren

練習(xí)1：編輯線粒體DNA序列

選擇包含來(lái)自線粒體DNA控制區(qū)域的原始序列數(shù)據(jù)的序列列表。雙擊列表在新窗口中打開它。在序列視圖右側(cè)的常規(guī)選項(xiàng)卡中，選擇根據(jù)質(zhì)量顯示顏色。這將根據(jù)該基地的序列質(zhì)量突出顯示堿基電話 - 藍(lán)色越深，質(zhì)量越低。

縮小時(shí)，您將看不到各個(gè)堿基或色譜峰，但會(huì)顯示一張圖表，顯示序列質(zhì)量。如果向下滾動(dòng)序列，您會(huì)看到每個(gè)序列結(jié)束時(shí)序列質(zhì)量顯著下降。放大至少50％，查看色譜圖在良好質(zhì)量區(qū)域和低質(zhì)量區(qū)域中的效果。其中一個(gè)序列（CLG3）沒(méi)有序列，表明測(cè)序反應(yīng)失敗，因此將其從列表中刪除。在序列變得不可讀之前，序列SRE1只有一小段高質(zhì)量的序列，因此也要?jiǎng)h除這一序列。保存編輯后的序列列表并關(guān)閉窗口。

通過(guò)單擊注釋和預(yù)測(cè)→修剪結(jié)束來(lái)修剪序列末端的質(zhì)量較差的基礎(chǔ)。選擇“從序列中刪除新的修剪區(qū)域”，并將錯(cuò)誤概率限制設(shè)置為0.01，如下面的屏幕截圖所示。點(diǎn)擊確定，然后在修整完成后保存。

從這里開始清理和編輯序列一旦對(duì)齊后，效率會(huì)更高。再次選擇序列列表（Cyanistes CR序列），然后單擊對(duì)齊/組裝→多重對(duì)齊。選擇MUSCLE?對(duì)齊算法并使用默認(rèn)設(shè)置運(yùn)行它。

雙擊對(duì)齊將其打開并放大到約50％，以便可以看到堿基調(diào)用和色譜圖。您可能需要檢查顯示圖形的圖形選項(xiàng)卡中才能看到的色譜圖。滾動(dòng)到3'末端的堿基，您會(huì)看到在GGGGGGGGAAGGGGGGGGG motif之后堿基調(diào)用變?nèi)酰ㄕ?qǐng)參閱下面的截圖）。在許多序列中，這個(gè)主題之后的區(qū)域已經(jīng)被刪除。通過(guò)單擊允許編輯來(lái)修剪剩余的序列，然后從共同序列的堿基563開始選擇堿基并敲擊刪除鍵。編輯共有序列會(huì)將更改應(yīng)用于對(duì)齊中的所有序列。您還應(yīng)該刪除比對(duì)開始時(shí)的前20個(gè)堿基，以使序列長(zhǎng)度相同，因?yàn)樵搮^(qū)域已在多個(gè)序列中被刪除。

單擊保存并在詢問(wèn)您是否要將更改應(yīng)用于原始序列時(shí)選擇是。請(qǐng)注意，如果要保留原始原始數(shù)據(jù)文件，有時(shí)最好不要將更改應(yīng)用于原始序列。

現(xiàn)在可以使用Geneious中的Tree?函數(shù)，利用這種比對(duì)來(lái)構(gòu)建這些序列的系統(tǒng)發(fā)生樹。有關(guān)構(gòu)建和解釋系統(tǒng)發(fā)育樹的更多信息，請(qǐng)參閱我們網(wǎng)站上提供的Geneious系統(tǒng)發(fā)育分析教程。

練習(xí)2：處理雙向核子序列數(shù)據(jù)

本練習(xí)將為您提供更多練習(xí)處理和編輯Sanger測(cè)序產(chǎn)生的原始序列數(shù)據(jù)。

Acrocephalus序列列表包含來(lái)自3種不同尖頭war鶯物種的核基因的正向和反向序列。序列用三個(gè)字母的代碼來(lái)命名，以表明它們的物種（aru =?A. arundinaceus，大蘆葦鶯; dum =?A. dumetorum，Blyth's reed warbler;或=?orientalis，Oriental reed warbler），并用'F'或'R'來(lái)表明它們是用正向引物還是反向引物進(jìn)行測(cè)序。

雙擊Acrocephalus序列列表以在新窗口中打開它。向下滾動(dòng)以獲得序列的概述。請(qǐng)注意，在一些序列中，序列質(zhì)量會(huì)下降（例如dum2和dum4序列）。

通過(guò)單擊注釋和預(yù)測(cè)→修剪結(jié)束來(lái)修剪序列末端的質(zhì)量差序列。這次我們將注釋修剪區(qū)域而不是完全刪除它們，所以選擇“注釋新修剪區(qū)域”。將錯(cuò)誤概率限制設(shè)置為0.01，然后單擊確定。修剪完成后保存順序列表并關(guān)閉順序列表窗口。

我們現(xiàn)在需要從列表中提取序列文件以設(shè)置讀取方向并使用雜合子查找程序，因?yàn)檫@些選項(xiàng)在序列列表中不起作用。選擇Acrocephalus序列列表并單擊序列→從列表中提取序列。選擇將序列保存在稱為Acrocephalus序列的子文件夾中。

我們現(xiàn)在將在各個(gè)序列文件上運(yùn)行Heterozygote Finder，以識(shí)別并注釋在相同位置上調(diào)用兩個(gè)不同核苷酸的堿基。由于這些核序列均代表兩個(gè)等位基因，所以可能存在兩個(gè)等位基因具有不同堿基且存在雙色譜峰的雜合位置。選擇Acrocephalus Sequences文件夾中的所有文件并單擊Annotate and Predict→Find Heterozygotes?。取消選中已修整區(qū)域中的搜索，因?yàn)樾蛄匈|(zhì)量差的區(qū)域不會(huì)給出準(zhǔn)確的結(jié)果。將峰相似性設(shè)置為50％，并選擇注釋雜合體堿基。

點(diǎn)擊確定并在分析完成后保存序列。在我們組裝正向和反向序列之后，我們將回到被標(biāo)注為雜合體的堿基。

我們現(xiàn)在將為每個(gè)人組裝正向和反向序列。為確保序列在每一對(duì)中以相同方向組裝，我們首先需要設(shè)置讀取方向。按住命令/ cntrl鍵，選擇文件夾中的所有轉(zhuǎn)發(fā)序列（以F作為最后一個(gè)字母命名），然后選擇序列→設(shè)置讀取方向。選中Forward?框并點(diǎn)擊OK?。不需要設(shè)置反向讀取的方向。

現(xiàn)在選擇文件夾中的所有序列，然后選擇對(duì)齊/組裝→De Novo組裝。點(diǎn)擊Assemble by?，然后選擇名稱的第一部分，用下劃線分隔。這將為每對(duì)正向和反向序列產(chǎn)生一個(gè)重疊群。將靈敏度設(shè)置為最高靈敏度/慢速，并確保保存裝配報(bào)告，保存未使用讀數(shù)的列表，保存子文件夾并保存重疊群。選擇使用現(xiàn)有修剪區(qū)域- 使用此選項(xiàng)，匯編器將忽略注釋為修剪的區(qū)域，但您仍然能夠在序列中看到這些區(qū)域。點(diǎn)擊好的。

現(xiàn)在已創(chuàng)建一個(gè)名為Assembly的子文件夾，其中包含重疊群和Assembly報(bào)告。您還會(huì)看到未使用的讀取序列列表，其中包含無(wú)法組合的序列。看看這個(gè)序列列表，你會(huì)發(fā)現(xiàn)這些序列只包含一小段優(yōu)質(zhì)序列（dum2和dum4）。

練習(xí)2b：檢查程序集并提取共識(shí)

從組裝子文件夾打開aru2重疊群，了解正向和反向序列是如何組裝的。

在序列查看器右側(cè)的“?顯示”?選項(xiàng)卡下，檢查調(diào)用共有序列的選項(xiàng)。當(dāng)從同一個(gè)基因組裝正向和反向序列時(shí)，從每個(gè)基地的最高質(zhì)量序列中調(diào)用共識(shí)是合理的，因此選擇共識(shí)下的最高質(zhì)量。

在高級(jí)選項(xiàng)卡下，將基本號(hào)碼設(shè)置為全部序列。這將顯示來(lái)自每個(gè)序列上原始序列讀數(shù)的堿基編號(hào)，并使您能夠看到兩個(gè)序列是如何組裝的。您可以看到R序列現(xiàn)在處于相反的方向。

在Graphs?選項(xiàng)卡下，選中Coverage?和Identity?框。覆蓋圖顯示共有序列基于多少個(gè)序列，并且同一性圖表指示參與序列是否相同。盡管您仍然可以看到質(zhì)量差的序列已被標(biāo)記為修剪（粉紅色條），但您可以看到匯編器沒(méi)有使用此序列調(diào)用共有序列或計(jì)算覆蓋率 - 只有該區(qū)域中的單個(gè)良好序列具有已被使用。

對(duì)于Aru2，只有一個(gè)堿基在正向和反向序列之間存在分歧。放大并找到這個(gè)基地。您可以使用cntrl /命令D鍵盤快捷鍵快速跳轉(zhuǎn)到存在分歧的地方。在這個(gè)位置，反向序列中的堿基被錯(cuò)誤地稱為 - 它應(yīng)該是A，但被稱為C.

如果您愿意，您可以在此位置編輯錯(cuò)誤序列調(diào)用，但由于我們選擇基于最高質(zhì)量調(diào)用共有序列，所以共有序列中的堿基是正確的。這是用于下游分析的共有序列，因此如果共識(shí)是正確的，則不必編輯個(gè)體閱讀中的每個(gè)不同意見(jiàn)。選擇共識(shí)序列并單擊提取。命名您提取的序列（例如aru2 consensus）并單擊確定。

現(xiàn)在打開ort1程序集。這個(gè)序列有幾個(gè)雜合堿基被注釋，應(yīng)該檢查它們以確保它們被正確地調(diào)用。單擊ort1_R序列上的第一個(gè)雜合性注釋（在共有序列的基數(shù)68處）并放大到100％。在這個(gè)堿基上，單個(gè)“G”峰已被正確調(diào)用，所以這被錯(cuò)誤地鑒定為雜合堿基，因?yàn)榕c相鄰的“C”堿基重疊很小。通過(guò)右鍵單擊并刪除此注釋并選擇注釋→刪除。

現(xiàn)在使用cntrl / command-D跳轉(zhuǎn)到下一個(gè)雜合基。在此基礎(chǔ)上（共有序列上的第170位），在正向和反向讀數(shù)中存在真正的雙峰，其中C和T峰疊加在彼此之上，表明這是真正的雜合基。被稱為共有序列的堿基應(yīng)該是“Y”，表示該位置含有C和T核苷酸（見(jiàn)IUPAC注釋）。

現(xiàn)在檢查本裝配中剩余的雜合堿基，并根據(jù)需要添加IUPAC模糊編碼來(lái)編輯共有序列，以反映雜合位置。嘗試進(jìn)行任何更改之前，請(qǐng)勿忘記單擊允許編輯。保存更改并選擇是當(dāng)系統(tǒng)詢問(wèn)是否要應(yīng)用更改原來(lái)的順序，然后選擇保守序列并提取它。

打開每個(gè)其他重疊群，并檢查正向和反向閱讀和雜合體堿基之間的不一致。如果需要，編輯它們，然后提取每個(gè)序列的共有序列。

練習(xí)2c：裝配參考

為了組裝兩個(gè)以前不能工作的A.umeumeum序列（因?yàn)樾蛄械闹丿B部分質(zhì)量差并且被修剪掉），我們將組裝部分序列對(duì)照參考。點(diǎn)擊Assembly?上的Unused Reads?序列列表，然后按住控制/命令鍵，點(diǎn)擊我們將用作參考的dum3一致序列。點(diǎn)擊對(duì)齊/組裝→映射到參考。確保將dum3一致性序列設(shè)置為引用，然后選擇Assemble by?，然后選擇名稱的第一部分，并用下劃線分隔。設(shè)置其他選項(xiàng)，如下面的截圖所示。

現(xiàn)在應(yīng)該有兩個(gè)新的重疊群組件，一個(gè)用于dum2，一個(gè)用于dum4。打開dum2組件。您現(xiàn)在應(yīng)該能夠明白為什么這些不使用de-novo assembly進(jìn)行組裝，因?yàn)橛幸粋€(gè)4 bp的區(qū)域，沒(méi)有高質(zhì)量的序列在F和R序列之間重疊。在這兩個(gè)序列中進(jìn)行了修剪的雙峰區(qū)域從這里開始 - 這可能表示一個(gè)indel，其中兩個(gè)等位基因之一包含一個(gè)缺失。

通過(guò)在共有序列中選擇4 bp缺口并單擊添加注釋，為共有序列添加注釋以突出顯示indel?。將注釋類型設(shè)置為Polymorphism?，并將其命名為Indel?。點(diǎn)擊確定，你現(xiàn)在應(yīng)該看到這個(gè)注釋添加到共識(shí)序列。單擊保存，然后將dum2共有序列提取到新文件。

對(duì)包含dum4序列的其他引用程序集重復(fù)此過(guò)程。

練習(xí)2d：分析共識(shí)序列

您現(xiàn)在應(yīng)該已經(jīng)為所有9個(gè)樣本生成了共有序列。這些序列可以進(jìn)行比對(duì)，以便它們可以用于群體遺傳或系統(tǒng)發(fā)育分析。選擇所有共有序列，然后單擊對(duì)齊/組裝→多重對(duì)齊。使用Geneious Aligner進(jìn)行默認(rèn)設(shè)置。

打開對(duì)齊并單擊距離選項(xiàng)卡以獲得物種內(nèi)部和物種之間核苷酸多樣性的概述。如你所料，序列在物種內(nèi)比物種間更相似。事實(shí)上，A. arundinaceus（aru）的序列是相同的。您現(xiàn)在可以使用Geneious中的Tree構(gòu)建工具對(duì)序列進(jìn)行系統(tǒng)發(fā)育分析，或者對(duì)于更高級(jí)的群體遺傳分析，可以將Fasta或Nexus格式的比對(duì)輸出到DNAsp等程序中進(jìn)行分析。

教程結(jié)束。

需要更多的信息？

本文檔頁(yè)面已被提取的Q＆A部分，在那里你可以討論，并得到反饋。

相關(guān)問(wèn)題

无码中文a级毛片自慰-无码中文av在线-无码中文av有码中文av免费-无码中文av有码中文av-无码中文av有码中文a-无码制服丝袜人妻ol在线视频

Geneious中使用Sanger測(cè)序數(shù)據(jù)進(jìn)行系統(tǒng)發(fā)育和群體遺傳研究