練習(xí)2b:檢查程序集并提取共識(shí)
從組裝子文件夾打開aru2重疊群,了解正向和反向序列是如何組裝的。
在序列查看器右側(cè)的“?顯示”?選項(xiàng)卡下,檢查調(diào)用共有序列的選項(xiàng)。當(dāng)從同一個(gè)基因組裝正向和反向序列時(shí),從每個(gè)基地的最高質(zhì)量序列中調(diào)用共識(shí)是合理的,因此選擇共識(shí)下的最高質(zhì)量。
在高級(jí)選項(xiàng)卡下,將基本號(hào)碼設(shè)置為全部序列。這將顯示來(lái)自每個(gè)序列上原始序列讀數(shù)的堿基編號(hào),并使您能夠看到兩個(gè)序列是如何組裝的。您可以看到R序列現(xiàn)在處于相反的方向。
在Graphs?選項(xiàng)卡下,選中Coverage?和Identity?框。覆蓋圖顯示共有序列基于多少個(gè)序列,并且同一性圖表指示參與序列是否相同。盡管您仍然可以看到質(zhì)量差的序列已被標(biāo)記為修剪(粉紅色條),但您可以看到匯編器沒(méi)有使用此序列調(diào)用共有序列或計(jì)算覆蓋率 - 只有該區(qū)域中的單個(gè)良好序列具有已被使用。
對(duì)于Aru2,只有一個(gè)堿基在正向和反向序列之間存在分歧。放大并找到這個(gè)基地。您可以使用cntrl /命令D鍵盤快捷鍵快速跳轉(zhuǎn)到存在分歧的地方。在這個(gè)位置,反向序列中的堿基被錯(cuò)誤地稱為 - 它應(yīng)該是A,但被稱為C.
如果您愿意,您可以在此位置編輯錯(cuò)誤序列調(diào)用,但由于我們選擇基于最高質(zhì)量調(diào)用共有序列,所以共有序列中的堿基是正確的。這是用于下游分析的共有序列,因此如果共識(shí)是正確的,則不必編輯個(gè)體閱讀中的每個(gè)不同意見(jiàn)。選擇共識(shí)序列并單擊提取。命名您提取的序列(例如aru2 consensus)并單擊確定。
現(xiàn)在打開ort1程序集。這個(gè)序列有幾個(gè)雜合堿基被注釋,應(yīng)該檢查它們以確保它們被正確地調(diào)用。單擊ort1_R序列上的第一個(gè)雜合性注釋(在共有序列的基數(shù)68處)并放大到100%。在這個(gè)堿基上,單個(gè)“G”峰已被正確調(diào)用,所以這被錯(cuò)誤地鑒定為雜合堿基,因?yàn)榕c相鄰的“C”堿基重疊很小。通過(guò)右鍵單擊并刪除此注釋并選擇注釋→刪除。
現(xiàn)在使用cntrl / command-D跳轉(zhuǎn)到下一個(gè)雜合基。在此基礎(chǔ)上(共有序列上的第170位),在正向和反向讀數(shù)中存在真正的雙峰,其中C和T峰疊加在彼此之上,表明這是真正的雜合基。被稱為共有序列的堿基應(yīng)該是“Y”,表示該位置含有C和T核苷酸(見(jiàn)IUPAC注釋)。
現(xiàn)在檢查本裝配中剩余的雜合堿基,并根據(jù)需要添加IUPAC模糊編碼來(lái)編輯共有序列,以反映雜合位置。嘗試進(jìn)行任何更改之前,請(qǐng)勿忘記單擊允許編輯。保存更改并選擇是當(dāng)系統(tǒng)詢問(wèn)是否要應(yīng)用更改原來(lái)的順序,然后選擇保守序列并提取它。
打開每個(gè)其他重疊群,并檢查正向和反向閱讀和雜合體堿基之間的不一致。如果需要,編輯它們,然后提取每個(gè)序列的共有序列。