練習2b:檢查程序集并提取共識
從組裝子文件夾打開aru2重疊群,了解正向和反向序列是如何組裝的。
在序列查看器右側的“?顯示”?選項卡下,檢查調用共有序列的選項。當從同一個基因組裝正向和反向序列時,從每個基地的最高質量序列中調用共識是合理的,因此選擇共識下的最高質量。
在高級選項卡下,將基本號碼設置為全部序列。這將顯示來自每個序列上原始序列讀數的堿基編號,并使您能夠看到兩個序列是如何組裝的。您可以看到R序列現在處于相反的方向。
在Graphs?選項卡下,選中Coverage?和Identity?框。覆蓋圖顯示共有序列基于多少個序列,并且同一性圖表指示參與序列是否相同。盡管您仍然可以看到質量差的序列已被標記為修剪(粉紅色條),但您可以看到匯編器沒有使用此序列調用共有序列或計算覆蓋率 - 只有該區域中的單個良好序列具有已被使用。
對于Aru2,只有一個堿基在正向和反向序列之間存在分歧。放大并找到這個基地。您可以使用cntrl /命令D鍵盤快捷鍵快速跳轉到存在分歧的地方。在這個位置,反向序列中的堿基被錯誤地稱為 - 它應該是A,但被稱為C.
如果您愿意,您可以在此位置編輯錯誤序列調用,但由于我們選擇基于最高質量調用共有序列,所以共有序列中的堿基是正確的。這是用于下游分析的共有序列,因此如果共識是正確的,則不必編輯個體閱讀中的每個不同意見。選擇共識序列并單擊提取。命名您提取的序列(例如aru2 consensus)并單擊確定。
現在打開ort1程序集。這個序列有幾個雜合堿基被注釋,應該檢查它們以確保它們被正確地調用。單擊ort1_R序列上的第一個雜合性注釋(在共有序列的基數68處)并放大到100%。在這個堿基上,單個“G”峰已被正確調用,所以這被錯誤地鑒定為雜合堿基,因為與相鄰的“C”堿基重疊很小。通過右鍵單擊并刪除此注釋并選擇注釋→刪除。
現在使用cntrl / command-D跳轉到下一個雜合基。在此基礎上(共有序列上的第170位),在正向和反向讀數中存在真正的雙峰,其中C和T峰疊加在彼此之上,表明這是真正的雜合基。被稱為共有序列的堿基應該是“Y”,表示該位置含有C和T核苷酸(見IUPAC注釋)。
現在檢查本裝配中剩余的雜合堿基,并根據需要添加IUPAC模糊編碼來編輯共有序列,以反映雜合位置。嘗試進行任何更改之前,請勿忘記單擊允許編輯。保存更改并選擇是當系統詢問是否要應用更改原來的順序,然后選擇保守序列并提取它。
打開每個其他重疊群,并檢查正向和反向閱讀和雜合體堿基之間的不一致。如果需要,編輯它們,然后提取每個序列的共有序列。