Welcome!
This community is for professionals and enthusiasts of our products and services. Share and discuss the best content and new marketing ideas, build your professional profile and become a better marketer together.
- 以下基于機(jī)器學(xué)習(xí)翻譯,僅供參考。?
Geneious包含用于最大似然樹建立器PHYML,Garli,RAxML,PAUP *和FastTree的插件。在這篇文章中,我們將簡要回顧哪些數(shù)據(jù)集最適合哪種數(shù)據(jù)集,哪種數(shù)據(jù)集最快,以及每種數(shù)據(jù)集都有哪些選項(xiàng)。有關(guān)每個(gè)程序使用的算法的詳細(xì)信息,請(qǐng)參閱該程序的網(wǎng)站。如果您從這些插件發(fā)布您的結(jié)果,請(qǐng)記得引用您使用的程序的原作者。引用信息可以在各自的插件頁面上找到。
每個(gè)程序的背景
1.?PHYML
PHYML由?法國蒙彼利埃大學(xué)LIRMM的Stephane Guindon和他的同事撰寫??。它于2003年首次發(fā)布,Geneious插件使用本文中描述的3.2版本??。??PHYML是其最簡單,準(zhǔn)確和速度最好的最大似然程序之一。
2.?RAxML
RaxML來自??亞歷山德羅Stamatakis?'??Exelixis公司實(shí)驗(yàn)室??在海德堡研究所的理論研究,德國。它的開發(fā)目的是處理較大的數(shù)據(jù)集,其相對(duì)較低的內(nèi)存消耗,先進(jìn)的搜索算法和使用加速的可能性。 ?
Geneious插件當(dāng)前使用RAxML版本8.2.7,因此下表中列出的功能適用于該版本。
3.?GARLI
Garli由?當(dāng)前在堪薩斯大學(xué)的Derrick Zwickl撰寫和維護(hù)??。它基于GAML程序(Lewis,1998)。該程序的文檔可以在這里找到。
4.?PAUP *
PAUP *是Dave Swofford編寫的一個(gè)流行的系統(tǒng)發(fā)育程序,可用于構(gòu)建最大簡約性,距離和最大似然樹。本文中有關(guān)PAUP *的信息只涉及最大似然樹。PAUP * 4.0b10曾經(jīng)可以從Sinnauer Associates購買,但目前正在進(jìn)行重大更新。目前免費(fèi)“測(cè)試”版本都可以從這里。 ?
請(qǐng)注意,Geneious PAUP *插件不包含程序本身,它僅提供運(yùn)行您自己的PAUP *副本的界面。您必須下載自己的PAUP *副本,并在Geneious第一次運(yùn)行插件時(shí)將路徑設(shè)置為可執(zhí)行文件。該插件目前兼容舊4.0b10版本,新的測(cè)試alpha版本(4.0a149及以上版本)
4.?FastTree
FastTree由Morgan N. Price??在???Lawrence Berkeley國家實(shí)驗(yàn)室的Adam Arkin小組開發(fā)??。它針對(duì)多達(dá)一百萬個(gè)序列的極大比對(duì)進(jìn)行了優(yōu)化,并使用相鄰連接,最小演化和最大似然的組合來推斷近似最大似然樹。這里給出了它如何工作的詳細(xì)描述??,但總的來說,F(xiàn)astTree使用鄰居連接來獲得近似的起始樹,然后使用最小的演化方法來減少樹的長度,然后最大似然地進(jìn)一步改進(jìn)樹。Generate實(shí)現(xiàn)FastTree 2.1.5。
你可以用這些程序做什么?
所有程序都將從DNA和蛋白質(zhì)比對(duì)中構(gòu)建樹木,但是每種方法的選擇都有一些差異,總結(jié)在下表中。請(qǐng)注意,PAUP *將為蛋白質(zhì)比對(duì)構(gòu)建最大簡約性和距離樹,但不會(huì)構(gòu)建最大似然樹。
?**?由于Garli設(shè)置的方式,Geneious插件中目前只實(shí)現(xiàn)了GTR + G + I模型的默認(rèn)選項(xiàng)并且沒有引導(dǎo)。但是,如果您需要其他選項(xiàng)(如引導(dǎo)或分區(qū)),請(qǐng)與支持人員聯(lián)系,也可以根據(jù)Garli文檔自行編輯Garli配置文件(位于插件文件夾中)??。
PHYML和PAUP *為您提供最廣泛的模型選擇,并且可以輸入Modeltest比較DNA數(shù)據(jù)的大部分模型。但是,請(qǐng)記住,大多數(shù)這些模型都嵌套在其他程序中實(shí)施的通用時(shí)間可逆(GTR)模型中。PAUP *包含模型測(cè)試,因此您可以選擇將其作為樹構(gòu)建過程的一部分來運(yùn)行。對(duì)于PHYML和其他程序,您需要在Geneious之外運(yùn)行jModeltest,然后在Geneious中手動(dòng)配置適當(dāng)?shù)哪P瓦x項(xiàng)。?
PHYML也為您提供了多種計(jì)算支持值的方法,但它對(duì)分類群數(shù)量有內(nèi)在的限制。我不知道Garli,PAUP *和RAxML有相似的數(shù)據(jù)集大小約束(雖然正如您在下面看到的,這些程序都是由FastTree為超大型數(shù)據(jù)集執(zhí)行的)。
例如,如果您想估計(jì)不同密碼子位置或基因的不同比率,RAxML和PAUP *允許您劃分?jǐn)?shù)據(jù)。在PAUP *中,這是通過編輯自定義命令塊完成的 - 請(qǐng)參閱PAUP *命令行指南以獲取可以用這種方式實(shí)現(xiàn)的完整選項(xiàng)列表。 ?
關(guān)于這些程序如何在Geneious中運(yùn)行的簡要說明
這些插件不能在Geneious Java運(yùn)行時(shí)環(huán)境中運(yùn)行,因此它們不使用分配給Geneious的RAM。相反,他們作為獨(dú)立程序與Geneious提供接口。Geneious將您的文件導(dǎo)出到插件,運(yùn)行插件程序,然后將結(jié)果導(dǎo)入Geneious。盡管樹構(gòu)建過程本身并不使用分配給Geneious的RAM,但您需要為Geneious分配足夠的RAM才能處理文件的導(dǎo)出/導(dǎo)入 - 而對(duì)于大型文件,這可能需要大量數(shù)據(jù)。?
哪個(gè)最快?
這個(gè)問題的答案很大程度上取決于您所擁有的數(shù)據(jù)集類型。作為一個(gè)非常普遍的規(guī)則,速度如下所示:FastTree >> RAxML> PHYML> Garli >> PAUP *。 ?
FastTree是迄今為止擁有大量分類群的大樹最快的算法。FastTree可以在幾分鐘內(nèi)生成一個(gè)支持值為10,000的分類樹,而由RAxML或Garli構(gòu)建的同一棵樹可能需要幾天才能運(yùn)行。PHYML甚至不會(huì)運(yùn)行在這樣大的路線上,因?yàn)樗哂?000個(gè)分類群的內(nèi)置截止點(diǎn)。然而,由FastTree生成的樹是“近似最大似然”樹,而對(duì)于類群之間的關(guān)系不那么明確的數(shù)據(jù)集,它們可能不如其他方法生成的樹更精確地搜索樹拓?fù)浣Y(jié)構(gòu)(請(qǐng)參閱??FastTree網(wǎng)站??,以獲得關(guān)于FastTree與PHYML與RAxML的速度和準(zhǔn)確性的更全面討論)。 ?
如果您的序列非常長,但只有少數(shù)分類群(例如,如果您要從少量細(xì)菌基因組中構(gòu)建樹),那么RAxML和PHYML將執(zhí)行FastTree。一個(gè)長度為400萬個(gè)堿基(計(jì)算時(shí)沒有支持值)的5個(gè)序列的樹在FastTree中花了大約14分鐘,而在RaxML和PHYML中花了大約1分鐘。Garli不能很好地處理長序列,最好用于較短的比對(duì)。?
在全部最大似然樹建造者中,RAxML似乎對(duì)于來自DNA數(shù)據(jù)的大型樹木來說效率最高。對(duì)于較小的數(shù)據(jù)集,PHYML是一個(gè)不錯(cuò)的選擇,因?yàn)楦鶕?jù)PHYML手冊(cè),PhyML的“舒適區(qū)”通常位于100-200個(gè)序列中,少于2,000個(gè)字符長。該??PHYML網(wǎng)站??已采用了一系列數(shù)據(jù)集的PHYML和RAxML之間的一些廣泛的比較。 ?
PAUP *是最大似然樹構(gòu)建器中最慢的,特別是在使用默認(rèn)選項(xiàng)運(yùn)行時(shí)。PAUP *默認(rèn)??情況下使用樹分叉和重新連接(TBR)進(jìn)行拓?fù)渌阉鳎撍惴ū萈HYML(NNI,最近鄰居立交)或RAxML(快速爬山)中的默認(rèn)拓?fù)渌阉鬟x項(xiàng)評(píng)估更多的樹。要將PAUP *配置為使用NNI而不是PBR,請(qǐng)打開自定義命令塊并將SWAP = NNI添加到HSEARCH行。這將大大加快速度,但速度仍然不接近PHYML或RAxML。?
我怎樣才能讓我的樹跑得更快?
簡短的答案是獲得一臺(tái)更快的電腦。為你的treebuilder提供更多的內(nèi)存不一定會(huì)加速它,但是可能意味著你可以在不耗盡內(nèi)存的情況下構(gòu)建更大的樹。速度主要取決于處理器的速度,目前這里提到的所有樹建設(shè)者都只使用一個(gè)處理器,并且無法將其配置為跨多個(gè)核心運(yùn)行。
那么,哪棵樹最好?
這個(gè)問題沒有一個(gè)答案,因?yàn)樗耆Q于數(shù)據(jù)集的性質(zhì),以及所選模型適合您的數(shù)據(jù)的程度。考慮到您選擇的數(shù)據(jù)和模型,最大似然樹建造者返回最高可能性正確的樹,但由于算法的差異,每個(gè)程序產(chǎn)生的似然值不能直接進(jìn)行比較。使用多種建樹方法來評(píng)估樹形拓?fù)涞姆€(wěn)健性是一種很好的做法。