Follow by Email

sexta-feira, 25 de novembro de 2011

Kakusan e Aminosan

Kakusan é um "script" feito para facilitar a escolha de modelos evolucionários para análise filogenética. Ele pode ser baixado gratuitamente no site: http://www.fifthdimension.jp/products/kakusan/

Kakusan4 e Aminosan podem trabalhar com muitos formatos de sequências tais como GenBank, FASTA, PHYLIP, e NEXUS porque Kakusan4 e Aminosan usam ReadSeq para converter formatos de arquivos.
Kakusan4 e Aminosan calculam AIC (Akaike, 1974), AICc (Sugiura, 1978), e BIC (Schwarz, 1978).

Para rodar Kakusan no Mac o aplicativo e os arquivos de dados devem estar NO MESMO DIRETORIO.
Basta clicar no aplicativo. Ele vai gerar a seguinte tela:
To know script details, see above URL.
Copyright (C) 2006-2010 Akifumi S. Tanabe
This program is free software; you can redistribute it and/or modify
it under the terms of the GNU General Public License as published by
the Free Software Foundation; either version 2 of the License.
This program is distributed in the hope that it will be useful,
but WITHOUT ANY WARRANTY; without even the implied warranty of
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
GNU General Public License for more details.
You should have received a copy of the GNU General Public License along
with this program; if not, write to the Free Software Foundation, Inc.,
51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.
Parsing command line options...
No input files are specified.
Entering interactive mode.
Specified options are ignored.
Specify an input file name.
Note that you can use wild card.
===================================
Neste momento o usuário deve entrar com os arquivos de dados a serem concatenados, de preferencia no formato fasta. Ex. data1.fas, data2.fas, data3.fas, etc (PODE SER NEXUS).
Os arquivos sao digitados um de cada vez ou usando do "wild card" (ex. *.nex; *.fas).

*******
16s.nex
"16s.nex" was accepted.
Specify an input file name or just press enter to leave input file specification.
coii.nex
"coii.nex" was accepted.
Specify an input file name or just press enter to leave input file specification.
tmo.nex
"tmo.nex" was accepted.
Specify an input file name or just press enter to leave input file specification.
OK. Input file specification has terminated.
Após a introdução dos arquivos o programa apresenta as opções de saída que voce deve responder interativamente. No exemplo abaixo vou preencher com letras maiúsculas.
OUTPUT OPTIONS
Which is a target analysis software? (MrBayes/Treefinder/PAUP/PHYML/RAxML)
(default: Treefinder)
MRBAYES
You input multiple files.
Do you want to consider nonpartitioning of loci? (y/n)
If you say yes, applying nonpartitioned models to all-loci-concatenated sequences will be considered.
(default: n)
-> AQUI VOCE VAI USAR O DEFAULT, PORTANTO PRESSIONE A TECLA ENTER
OK. Nonpartitioning of loci is disabled.
Because you did not enable output option for Treefinder, MrBayes or RAxML, or because you did not give multiple files or protein-coding data, comparison among nonpartitioned, proportional and separate models
is forced to disable.
Which do you want to use the program for likelihood calculation? (baseml/tf/paup)
(default: baseml)
-> AQUI VOCE VAI USAR O DEFAULT, PORTANTO PRESSIONE A TECLA ENTER [PODE USAR PAUP]

Do you want to optimize the parameters of base composition? (y/n)
(default: n)
-> AQUI VOCE VAI USAR O DEFAULT, PORTANTO PRESSIONE A TECLA ENTER
OK. The likelihoods will be calculated by BASEML.
Do you want to optimize the parameters of base composition? (y/n)
(default: n)
OK. The empirical values will be used.
How many rate categories of discrete gamma rate heterogeneity do you want to consider? (integer)
(default: 8)
-->DIGITE 4
OK. The number of rate categories is set to 4.
Because you did not specify tf or paup as likelihood calculator, or because output option for RAxML is enabled, invariant model for among-site rate variation will not be considered.
Do you want to consider N-GAM model for among-site rate variation? (y/n)
Note that this model is very time-consuming.
(default: n)
-> AQUI VOCE VAI USAR O DEFAULT, PORTANTO PRESSIONE A TECLA ENTER
OK. N-GAM model for among-site rate variation will not be considered.
Do you want to consider autocorrelated discrete gamma model for among-site rate variation? (y/n)
Note that this model is very time-consuming.
(default: n)
-> AQUI VOCE VAI USAR O DEFAULT, PORTANTO PRESSIONE A TECLA ENTER
OK. A common tree topology will be used for parameter optimization on each locus.
If you want to give tree(s) for parameter optimization, specify an input file name.
Otherwise, just press enter.
-> AQUI VOCE VAI USAR O DEFAULT, PORTANTO PRESSIONE A TECLA ENTER
OK. Tree(s) for parameter optimization will be made by neighbor-joining based on JC69 distances.
How many processes do you want to run simultaneously? (integer)
(default: 1)
-> AQUI VOCE VAI USAR O DEFAULT, PORTANTO PRESSIONE A TECLA ENTER
OK. The number of processes is set to 1.
All configurations have been completed.
Just press enter to run!
Calculating AIC, AICc, and BIC...
done.
Outputting results...
done.
The model selection has been finished.
The results was output to "/Applications/Filogenetica/kakusan4-4.0.2011.05.28_for_MacOSX/16s.nex.kakusan".
Please press enter to close.
logout
###
O programa vai gerar um diretorio usando o nome do primeiro arquivo de dados introduzido.
No caso 16s.nex
16s.nex.kakusan
Neste diretorio o usuário vai encontrar uma pasta denominada "MrBayes"
Nesta pasta estao todos os resultados, abra o arquivo whole_BIC1_separate.nex (Exemplo resumido)

#NEXUS
Begin Data;
Dimensions NTax=40 NChar=1362;
Format DataType=DNA Gap=- Missing=?;
Matrix
[AQUI VEM A MATRIZ DE DADOS, NO EXEMPLO 4O TAXA E 1362 CARACTERES]
;
End;
;
Begin MrBayes;
CharSet 16s=1-486;
CharSet coii=487-963;
CharSet tmo=964-1362;
Partition Kakusan=3:16s,coii,tmo;
Set Partition=Kakusan;
Unlink TRatio=(all) RevMat=(all) StateFreq=(all) Shape=(all) PInvar=(all) Correlation=(all) BrLens=(all);
[16s]
[ GTR_Gamma 8.06540e+03 ] LSet ApplyTo=(1) NucModel=4by4 Nst=6 Rates=Gamma NGammaCat=4; PrSet ApplyTo=(1) StateFreqPr=Dirichlet(1,1,1,1);
[coii]
[ SYM_Gamma 1.29453e+04 ] LSet ApplyTo=(2) NucModel=4by4 Nst=6 Rates=Gamma NGammaCat=4; PrSet ApplyTo=(2) StateFreqPr=Fixed(Equal);
[tmo]
[ K80_Gamma 3.69471e+03 ] LSet ApplyTo=(3) NucModel=4by4 Nst=2 Rates=Gamma NGammaCat=4; PrSet ApplyTo=(3) StateFreqPr=Fixed(Equal);
End;

AGORA BASTA RODAR NO MRBAYES.

domingo, 30 de outubro de 2011

Teste de Homogeneidade de Partição

Este teste foi descrito por Farris et al. (1995) como ILD (“Incongruence-length difference test”). Ele mede a significância da incongruência entre conjunto de dados e tem sido amplamente usado na literatura com a finalidade de decidir entre modelos competitivos de análise filogenética nos casos onde os dados são colocados em diferentes partições.
A efetividade do teste foi questionada por Dowton & Austin (2002), que observaram que o ILD não é uma boa medida de congruência quando os conjuntos de dados diferem muito em relação ao tamanho.
A questão de combinar ou não conjunto de dados para análise filogenética permanece controversa. Veja os artigos (Bull et al., 1993; Eernisse and Kluge, 1993; Chippindale and Wiens, 1994; Miyamoto and Fitch, 1995; Huelsenbeck et al., 1996; de Queiroz et al., 1996; Cunningham, 1997; Ballard et al., 1998; Kluge, 1998).
Apesar da controvérsia muitas revistas científicas exigem que o teste seja feito.
Para usar o ILD no PAUP é necessário definir as partições dos dados. Estas podem ser seqüências de dois ou mais genes diferentes concatenados, genes codificadores e não codificadores, diferentes posições do códon, etc.
O bloco abaixo exemplifica as partições e o comando para o teste de homogeneidade no caso de dois genes diferentes concatenados.

Begin sets;
charset d1= 1-600;
charset d2= 601-.;
charpartition genes= gene1:d1, gene2:d2;
End
;
Begin PAUP;
Hompart partition= genes Nreps= 10000 seed= 1 Search= heuristic;
end;

domingo, 28 de março de 2010

RaxML

RAxML (Randomized Axelerated Maximum Likelihood) é um programa para reconstrução de arvores filogeneticas grandes baseada em inferência por máxima verossimilhança sequencial ou pararela. Este programa foi originalmente derivado fastDNAml, o qual por sua vez foi derivado do DNAML de Joe Felseinstein que é parte do pacote de análise filogenética PHYLIP.
O programa tem uma GUI agradável e pode ser obtido no "site" http://wwwkramer.in.tum.de/exelixis/software.html

terça-feira, 5 de janeiro de 2010

Bootphylml

Bootphylml é um "script" escrito em linguagem perl para for execução de "bootstrap" por maximaverossimilhança usando SEQBOOT e CONSENSE do pacote de analise phylogenetica "PHYLIP"(J. Felsenstein), junto com PHYML (Guindon & Gasquel, Syst. Biol. 2003).

Para rodar o programa é necessário compilar o "Seqboot" e "Consense" e usar a versão phyml 2.4 renomeada para "phyml". O programa quando executado pelo comando:

$perl bootphyml.pl -m[model] -n[nreps] -s[seed] -f[data.dat]

executa primeiro o "seqboot" criando "n" réplicas dos dados, depois executa o "phyml" para cada uma das "n" réplicas e em seguida usa o aplicativo "consense" para calcular o consenso pela regra da maioria.

domingo, 3 de janeiro de 2010

PHYML e BOOTPHYML

Bootphyml é um script em PERL para máxima verossimilhança. Ele usa dois aplicativos do pacote de J. Felseinstein (Seqboot e Consense) junto com o PHYM de Guindon & Gasquel (2003)

Método de Analise FIlogenética - Um guia Prático - 3a. Edição

A última edição deste livro foi publicada em 2007. A partir dai, muitos aplicativos novos foram desenvolvido e o campo tem se renovado celeramente, muito em função do desenvolvimento da genômica e da bioinformática. Portanto, a partir de agora, pretendo usar este espaço para apresentar novos programas e discutir velhos problemas.