O teste t de Student: da cervejaria Guinness para o mundo (e para as finanças quantitativas)
Como um método criado para otimizar a produção de cerveja se tornou essencial na análise de investimentos e no mundo dos números.
O segredo industrial
Uma das leituras mais interessantes que tive nos idos de pandemia foi o livro The Lady Tasting Tea, de David Salsburg. Nele, é possível encontrar relatos fascinantes sobre como as descobertas estatísticas do século XX impactaram, de forma dramática, a ciência que conhecemos hoje. Uma das histórias mais marcantes é a de William Sealy Gosset, um jovem estatístico da cervejaria Guinness que, em 1908, causou uma baita evolução na ciência estatística ao criar o teste t.
Gosset elaborou esse método para melhorar a produção de cerveja. A Guinness, sua empregadora e um dos maiores ícones da cultura irlandesa, preocupada em proteger seus processos, não permitiu que Gosset usasse o próprio nome em suas publicações, sendo necessário adotar o pseudônimo “Student”. Assim, o teste t de Student foi divulgado à comunidade acadêmica, mas sem revelar como a cervejaria usava esses conceitos internamente — uma forma de manter sua vantagem competitiva. Provavelmente, estava relacionado ao controle da qualidade do malte e cevada, na padronização dos processos de fermentação e na comparação de fertilizantes e métodos agrícolas para a matéria prima.
Mas, afinal, como funciona o teste t? Ele compara médias em cenários de alta variabilidade, analisando a relação entre “sinal” (diferença média) e “ruído” (variação interna). Apesar de ter surgido no universo cervejeiro, seu uso se espalhou para muitas (ou todas) áreas, inclusive nas finanças quantitativas.
Nas finanças quantitativas: um exemplo de avaliação de desempenho
Nas finanças quantitativas, o teste t é uma ferramenta interessante para entender e comparar o desempenho de investimentos. Um dos jeitos mais comuns de usá-lo é comparar os retornos de um fundo de investimento com seu benchmark. Isso ajuda a responder uma pergunta essencial: o fundo está realmente superando o mercado, ou essa diferença é só obra do acaso?
O benchmark, como o S&P 500, é uma referência que mede o desempenho geral do mercado. Quando um fundo apresenta retornos médios maiores (ou menores) que o benchmark, não dá pra sair comemorando ou culpando o gestor sem antes investigar se essa diferença é estatisticamente relevante. Afinal, o mercado financeiro é cheio de altos e baixos, e separar o que é "habilidade" do que é "sorte" é essencial.
É aí que o teste t pareado entra em cena. Esse tipo de teste é usado para comparar duas séries relacionadas, como os retornos mensais de um fundo e seu benchmark. Diferentemente do teste t convencional, que compara médias de duas amostras independentes, o teste t pareado analisa pares de observações, avaliando as diferenças entre os valores correspondentes de cada par. Isso é particularmente útil quando há uma relação intrínseca entre as amostras, como no caso de retornos de um fundo e seu índice de referência no mesmo período. No nosso exemplo, ele analisa as diferenças entre os pares de valores (no caso, as diferenças entre os retornos mensais do fundo e do índice) para verificar se a média dessas diferenças é significativamente diferente de zero. Em outras palavras, o teste verifica se o desempenho médio do fundo diverge de forma consistente do benchmark, considerando a variabilidade dos dados.
Pra deixar tudo mais prático, vamos usar como exemplo o ARKK, ou ARK Innovation ETF, um fundo que investe em empresas inovadoras de setores como tecnologia, biotecnologia e inteligência artificial, buscando capturar crescimento exponencial. O ARKK, conhecido por sua estratégia focada em inovação, é frequentemente comparado ao S&P 500, um índice amplo que representa o mercado americano.
No código python a seguir (também disponível em teste_t.py), vamos comparar os retornos mensais do ARKK com o S&P 500 usando o teste t pareado. Além disso, verificaremos se as diferenças entre os retornos seguem uma distribuição normal, um requisito essencial para a validade do teste.
Análise dos resultados
No período analisado (2014-2024), os retornos médios mensais do ARKK (1,47%) foram superiores aos do S&P 500 (0,98%). No entanto, o teste t pareado mostrou um valor-p de 0,4946, indicando que essa diferença não é estatisticamente significativa ao nível de 5%. Além disso, o teste de Shapiro-Wilk confirmou que as diferenças seguem uma distribuição normal (valor-p: 0,3266), validando o uso do teste t. Assim, não há evidências suficientes para concluir que o ARKK teve um desempenho consistentemente diferente do benchmark, apesar de sua média maior. A análise reforça a importância da estatística ao avaliar retornos financeiros. Embora tenhamos analisado um exemplo no mercado externo, você poderia comparar um fundo de ações de seu conhecimento com o Ibovespa e tirar conclusões a respeito.
O teste t pareado, embora útil para comparar médias, tem limitações importantes. Ele presume que as diferenças entre os pares seguem uma distribuição normal, o que foi atendido no nosso exemplo. No entanto, ele não aborda a relação risco-retorno, um aspecto crucial em finanças. Para isso, índices de desempenho como o índice de Sharpe, o índice de Treynor e o alfa de Jensen são mais indicados, pois combinam o retorno médio com medidas de risco. Além disso, para comparar esses índices, o teste t não é o mais adequado; alternativas como testes de bootstrap, análise de dominância estocástica e modelos de regressão multifatorial podem oferecer insights mais robustos. Assim, o teste t deve ser complementado por técnicas que integrem tanto o retorno quanto o risco para uma avaliação mais abrangente do desempenho financeiro.