Estatística Prática para Docentes
e Pós-Graduandos
de Geraldo Maia Campos
11. Aditividade e homogeneidade
Aditividade dos efeitos dos fatores de variação,
e homogeneidade das variâncias.
O termo variância já apareceu diversas
vezes neste texto. O que seria variância, afinal de contas? Eu poderia
dizer que variância é o quadrado do desvio-padrão.
Contudo ressalvaria que essa afirmativa, ainda que matematicamente correta,
é todavia estatisticamente incorreta. Isto porque, na verdade, o
que se calcula primeiro é a variância da amostra. Só
depois é que se extrai a sua raiz quadrada, para conhecer o desvio-padrão,
o qual, por isso mesmo, tem duplo sinal: + ou - (±s).
Variância e graus de liberdade.
Tecnicamente, a variância vem a ser a soma
de todos os desvios dos dados amostrais, em relação à
média, elevados ao quadrado, soma essa que depois é dividida
por (n-1), ou seja, pelo número de graus de liberdade da amostra.
Graus de liberdade, por sua vez, não é mais que o número
total de dados da amostra, menos 1. Por que esses desvios são elevados
ao quadrado? E por que se divide por (n-1), e não simplesmente por
n? As respostas a essas duas perguntas parecem-me simples:
-
elevam-se os desvios ao quadrado porque, em relação à
média, muitos deles são negativos e outros positivos, de
modo que se fossem simplesmente somados, o resultado seria zero, tal como
ocorre com a média desses mesmos desvios. Elevando-se cada um deles
ao quadrado, porém, todos se tornam positivos, inclusive os negativos.
-
os graus de liberdade indicam os espaços entre os dados; e são
iguais a (n-1) porque os espaços entre eles estão sempre
uma unidade abaixo do número dos próprios dados. Para comprovar
essa afirmativa, basta contar os dedos de uma das mãos e depois
os espaços existentes entre eles. O mesmo ocorre em qualquer conjunto
de dados amostrais.
Isso compreendido, percebe-se que dividir pelo número
de graus de liberdade significa dividir pelo número de espaços
entre os dados, e não pelo número de dados. A razão
de se fazer isso em Estatística é que os estudiosos da Ciência
Estatística descobriram que essa operação conduzia
a resultados mais coerentes do que a divisão por n, pura e simplesmente.
Variância e desvio-padrão.
Finalmente, torna-se compreensível também
a razão da expressão desvio-padrão: é que a
extração da raiz quadrada da variância que, por ser
um quadrado, representa uma grandeza em duas dimensões transforma
o quadrado dos desvios em uma grandeza unidimensional, ou seja, em um comprimento,
uma espécie de média geométrica dos desvios, a qual
pode ser encarada como um desvio realmente padrão. Ou, em outras
palavras, um desvio médio em relação à média
do conjunto de dados. Quanto a própria variância da amostra,
antes da divisão por (n-1) seria uma grandeza representativa da
variabilidade total dos dados amostrais em relação a essa
mesma média amostral. Após a divisão, seria uma variância
média.
Uma vez conhecidos e entendidos esses conceitos
básicos, estamos finalmente aptos a entender também o que
sejam homogeneidade das variâncias e aditividade dos efeitos causados
pelos fatores de variação sobre essas mesmas variâncias.
Quanto à independência dos erros, ficará para mais
adiante.
Aditividade dos efeitos dos fatores de variação.
Como já foi dito em capítulos anteriores,
a aplicação dos testes paramétricos exige, além
da normalidade da distribuição dos erros amostrais, que as
variâncias sejam homogêneas e que os efeitos dos fatores de
variação sejam aditivos; ou, em outras palavras, que sejam
passíveis de serem somados uns aos outros, tal como indicam os sinais
(+), presentes na expressão matemática transcrita no capítulo
anterior. Esses efeitos não devem ser, por exemplo, multiplicativos.
Sim, mas quando esses efeitos poderiam ser multiplicativos?
A resposta também nesse caso é simples,
como ademais são simples todas as respostas, uma vez que sejam conhecidas,
o que nem sempre é possível e nem sempre acontece, um fato
igualmente simples, que aliás constitui a própria razão
de existir da pesquisa científica.
Os efeitos de dois ou mais fatores de variação
são ditos não-aditivos quando, na associação
de um ou mais desses fatores, em vez de se somarem, esses efeitos se multiplicam,
de tal forma que o efeito resultante pode ser ampliado (quando o fator
multiplicativo é maior que 1), ou reduzido (quando esse fator é
menor que 1). É o que comumente ocorre nas chamadas interações
entre dois ou mais fatores de variação.
Importância da aditividade.
A aditividade talvez seja a menos rigorosa das restrições
que se fazem, quando do emprego da estatística paramétrica,
porque se referem às interações entre os fatores de
variação, e não aos próprios fatores em si
mesmos. Mas não pode ser negligenciada, uma vez que a não-aditividade
pode modificar o valor do erro não-controlado, inflando-o ou reduzindo-o,
dependendo essa alternativa de suas dimensões, ou de sua significância.
Esse inconveniente deve ter ocorrido muitas vezes no passado, quando o
efeito das interações era sistematicamente incorporado ao
erro não-controlado do experimento.
A importância de um erro inflado ou reduzido
será comentada mais adiante, quando se abordar o tema da significância
estatística. Por enquanto, basta saber que os efeitos das interações
só podem ser incorporados ao chamado erro residual (ou não-controlado),
quando a interação for estatisticamente não-significante.
Caso seja significante, a sua variância deve ser isolada, e tratada
como se fosse um fator de variação, pois se torna tão
relevante na análise estatística quanto qualquer dos fatores
de variação principais.
Homogeneidade das variâncias.
O bom desempenho dos testes paramétricos exige
que as variâncias nele envolvidas sejam homogêneas. Isso não
implica, porém, que elas devam ser idênticas, porque nada
é exatamente igual em Estatística, havendo sempre uma faixa
de tolerância em torno de qualquer suposta igualdade. O que os testes
exigem é que elas não sejam discrepantes a ponto de ultrapassarem
determinados limites de tolerância.
Para entender as razões dessa exigência,
basta imaginar o que aconteceria se alguém tentasse comparar a variação
do crescimento de melancias com a variação do crescimento
de jabuticabas. As variâncias nesse caso seriam heterogêneas,
ou seja, tão diferentes que tornariam impossível qualquer
comparação direta.
Todavia, mesmo nesse caso, aparentemente absurdo,
a comparação estatística não é de todo
impossível, bastando para isso que se encontre um denominador comum,
capaz de permitir o confronto entre esses dois tipos de crescimento tão
diferentes.
Por exemplo, a variável adequada nesse caso
poderia perfeitamente ser algo como a taxa de crescimento de cada fruto
em relação ao seu próprio peso, ou ao seu próprio
volume, taxa essa considerada a intervalos regulares, ao longo do período
de tempo estabelecido para as observações.
Em resumo: embora as variações (ou
variâncias), nos dois tipos de crescimento considerados em nossa
hipótese, pudessem ser heterogêneas e desproporcionais, as
variações das taxas de crescimento relativo poderiam ser
homogêneas, e portanto compatíveis e passíveis de comparação.
Teste de Cochran para a homogeneidade das variâncias.
Um teste muito simples e de fácil execução,
para verificar a homogeneidade das variâncias, é o teste de
Cochran que consiste em calcular todas as variâncias envolvidas
no experimento e dividir a maior delas pela soma de todas. O valor resultante
da divisão é então comparado com os valores críticos
de uma tabela estatística apropriada, que leva em conta o número
de variâncias envolvidas (k) e o número de graus de liberdade
(*) utilizado nos cálculos, número esse que evidentemente
deve ser o mesmo para todas, pois a tabela é construída dessa
forma.
Talvez a única dificuldade na execução
desse teste seja decidir quais variâncias testar. A experiência
de muitos anos acabou me ensinando que as variâncias que melhor se
prestam a essa finalidade são as que se referem à interação
maior envolvida no plano geral do experimento (binárias ou ternárias,
conforme o experimento fatorial tenha dois ou três fatores de variação).
Em última análise, essas variâncias da interação
maior que poderíamos chamar de interação de maior
grau referem-se à variação entre as repetições.
Assim, se o experimento tiver, digamos, 120 dados numéricos, correspondentes
ao produto fatorial de 4 colunas, 3 linhas, 2 blocos e 5 repetições,
(4 x 3 x 2 x 5 = 120), o teste de Cochran será realizado com 24
variâncias (k = 24), cada qual com 4 graus de liberdade (*=51, *=4).
O * é a letra n, no alfabeto grego.
Interpretação do resultado do teste de Cochran.
O teste de Cochran é um teste curioso porque
nele é de interesse que o valor calculado seja menor do que o valor
crítico da tabela, e não maior como ocorre na maioria dos
testes estatísticos, pois é exatamente isso que indica que
as variâncias são homogêneas. De fato, se o valor calculado
fosse maior, o resultado seria significante, o que negaria a hipótese
de igualdade (ou de homogeneidade) das variâncias envolvidas no experimento.
Dessa forma, a essa altura de nossas considerações,
já sabemos se a distribuição dos erros de nosso experimento
é ou não normal e se as variâncias são ou não
homogêneas. Se a distribuição for normal e as variâncias
homogêneas, estamos autorizados a usar os testes paramétricos.
Mas... o que fazer, na hipótese de a distribuição
não ser normal, ou as variâncias não serem homogêneas...?
Voltamos a insistir que só há duas alternativas: ou tentamos
uma transformação dos dados, ou usamos testes não-paramétricos.
Antes disso, porém, sobrou ainda um último
detalhe, que até agora não foi resolvido: o problema da independência
dos erros... |