Estatística Prática para Docentes
e Pós-Graduandos
de Geraldo Maia Campos
19. Filosofia de alguns testes estatísticos
A. Testes paramétricos, para duas amostras (independentes
ou vinculadas).
1. Filosofia do teste t de Student.
Uma população é definida por
dois parâmetros: a média e o desvio-padrão, que são
únicos para essa população como um todo. Entretanto,
a Estatística não lida com populações inteiras,
mas utiliza subconjuntos dessas populações, aos quais chama
amostras.
Como as amostras envolvem um número reduzido
de elementos representativos da população da qual fazem parte,
é natural que a sua média e o seu desvio-padrão difiram
alguma coisa em relação aos parâmetros da população
considerada em seu todo.
Os métodos estatísticos visam a possibilitar
que se possam tirar conclusões sobre os parâmetros populacionais,
partindo de informações obtidas a partir de amostras dela
retiradas.
Como a média e o desvio-padrão das
amostras, mesmo pertencendo estas à mesma população,
sempre divergem alguma coisa em relação aos parâmetros
reais da população, é compreensível que, se
forem traçados os gráficos das distribuições
amostrais e da população original, por certo haverá
alguma discrepância entre todos eles.
Como as amostras pertencem todas à mesma
população, e mesmo assim há diferenças, é
natural que a variação decorrente da própria variabilidade
casual da amostragem deva ser considerada, ao se avaliar a igualdade entre
os parâmetros da amostra e os da população original,
ou mesmo entre os de duas amostras entre si.
Em resumo: é preciso respeitar uma certa
faixa de variação, dentro da qual as amostras são
consideradas como provindas de uma mesma população, ou como
iguais entre si.
Os testes estatísticos em geral, e entre
eles o teste t, visam a estabelecer precisamente os limites além
dos quais duas amostras já não devam ser consideradas como
retiradas de uma mesma população, e sim como pertencentes
a populações diferentes.
Quando as amostras comparadas são independentes,
o teste t destina-se a verificar se mesmo assim pertencem à mesma
população, apenas com variações casuais de
amostragem. Quando são vinculadas, visam a verificar se algum tratamento
realizado teve o dom de modificar os parâmetros amostrais, fazendo
nascer assim uma nova população, com parâmetros típicos
diferentes da inicial.
B. Testes paramétricos, comparações múltiplas.
2. Filosofia da análise de variância (fatores de variação
independentes).
Para entender a análise de variância,
é preciso distinguir dois conceitos fundamentais: a) variável
e b) fator de variação.
Variável: é a medida pela qual alguma
coisa é avaliada, tal como o peso, a altura, a área, o volume,
o teor de alguma substância, etc.
Fator de variação: é tudo aquilo
que faz a variável realmente variar. Por exemplo, um tratamento
que faça variar o peso, a altura, o volume, o teor de glicose no
sangue, etc.
A variável é sempre uma só,
mas o fator de variação pode ser múltiplo. De fato,
fatores diversos podem atuar ao mesmo tempo, influindo todos sobre uma
característica qualquer da amostra.
A filosofia do teste admite que o efeito final dos
múltiplos fatores de variação que atuam ao mesmo tempo
sobre uma variável pode ser decomposto e analisado por partes (daí
o termo análise aplicada ao teste).
Esses efeitos parciais referem-se a três tipos
de variação:
a) a variação causada pelos fatores intencionalmente introduzidos
no experimento, até certo ponto controlada pelo pesquisador;
b) a variação determinada pelas possíveis interações
entre alguns ou entre todos esses fatores experimentais controlados; e
c) a variação ocasional, não-controlada, decorrente
de causas estranhas, muitas vezes desconhecidas, que em conjunto constituem
o erro experimental, presente em qualquer ensaio.
O erro experimental chamado de variação
residual, ou simplesmente resíduo é importantíssimo,
porque é por ele que se mede a significância estatística
de um experimento. A significância estatística não
é mais do que uma comparação entre a variação
experimental controlada e a variação não-controlada
(erro).
A filosofia geral do teste é muito simples:
ela admite que, se um fator de variação é realmente
ativo num experimento, os seus efeitos aparecem e podem ser isolados, mesmo
quando diversos fatores atuam simultaneamente. A variância final
do experimento seria, assim, uma adição de três variâncias
separáveis: a dos fatores principais, a de suas interações,
e a do erro.
Na análise de variância com múltiplos
fatores, chamados estes de critérios de variação,
ou de classificação, cada fator (ou interação)
é analisado separadamente, ignorando-se os demais, considerados
estes, para todos os efeitos, como simples repetições.
Por exemplo: se forem estudadas duas drogas (A e
B), administradas em duas circunstâncias diferentes (C e D), ao se
analisarem os efeitos das drogas A e B, o dados de C e D são classificados
apenas em relação a A ou a B. O efeito conjugado droga/circunstância
seria analisado também, é claro, mas como um fator secundário
denominado interação.
O número de fatores de variação
estudados deve limitar-se a 3 no máximo, porque o número
de interações possíveis aumenta consideravelmente
com números maiores, uma vez que a quantidade de variâncias
a serem analisadas é dada pela equação: N = 2n
- 1, onde N é o número de variâncias, e n é
o número de fatores de variação. Um excesso de variâncias
(principalmente de interações) leva a um emaranhado de interligações,
quase sempre de difícil interpretação. Num ensaio
com 5 variáveis, por exemplo, o número de variâncias
a serem estudadas seria: 25 - 1, ou seja, 32 - 1 = 31 variâncias!
3. Filosofia da análise de variância (fatores de variação
vinculados).
Imagine-se uma pesquisa feita para comparar a dureza
da dentina em cortes transversais de raízes dentais, nos terços
cervical, médio e apical, nas regiões junto ao canal radicular,
perto do cemento e a meia distância entre elas, após tratamento
das secções com diversas soluções auxiliares
da instrumentação dos canais radiculares, aplicadas durante
tempos diferentes.
Esse é um exemplo de um experimento em que
os fatores de variação estão todos vinculados, com
exceção das repetições (que seriam as diversas
raízes usadas para repetir o ensaio).
A experiência mostra que, quando existe vinculação,
há também uma certa hierarquia na dependência entre
os fatores vinculados. Por exemplo: no caso citado, os três terços
referem-se à mesma raiz dental, as três regiões da
dentina ao mesmo terço da raíz, e as soluções
irrigantes atuam durante tempos diferentes, porém sobre as mesmas
regiões de cada corte dental. Neste caso, começando com o
mais dependente, a hierarquia da vinculação seria: tempos
de ação, regiões da dentina e terços da raiz.
O modelo matemático-estatístico e
a forma de programação no computador (GMC Software) exigem
que os dados sejam introduzidos obedecendo a essa hierarquia. Assim, o
fator mais dependente deve ser sempre colocado nos blocos da tabela de
dados, seguindo-se as linhas e as colunas (a organização
da tabela pode ser vista no progama estatístico GMC, onde se explica
como os dados devem ser introduzidos no computador, para que a programação
funcione corretamente).
O progama estatístico GMC abrange modelos
estatísticos com dois ou com três fatores de variação,
podendo o primeiro ter um ou dois fatores vinculados, e o segundo um, dois
ou três fatores mutuamente vinculados. Quando todos os fatores são
interdependentes, o único fator que sempre permanece independente
são as repetições, cuja variação pode
ser isolada e o seu efeito avaliado.
Organize corretamente a sua tabela de dados, de
modo a introduzir os valores numéricos na ordem adequada, caso contrário
o programa fornecerá resultados incorretos, uma vez que os dados
estarão misturados.
4. Filosofia da análise de variância (1 fator de variação
com repetições).
A análise de variância geralmente envolve
uma amostra populacional equilibrada, na qual os grupos estudados têm
um número igual de repetições, principalmente quando
há diversos fatores de variação (ou critérios
de classificação dos dados) envolvidos.
Todavia, quando há apenas um fator de variação,
ou seja, quando o conjunto de dados consiste de vários grupos que
devem ser comparados entre si, é possível realizar uma análise
de variância desse conjunto de dados, mesmo que cada um dos grupos
tenha um número diferente de repetições, o que ocorre
freqüentemente.
Esses grupos poderiam ser comparados dois a dois,
pelo teste t de Student, por exemplo, mas isso às vezes envolve
a realização de um grande número de testes, dependendo
do número de grupos a serem comparados. A análise de variância
tem a vantagem de comparar todos os grupos com um único teste.
Quando uma pesquisa envolve mais de um fator de
variação, ainda que a análise de variância não
seja de todo impossível, ela seria muito complicada. Mais prático
será então usar amostras equilibradas, onde todos os grupos
tenham o mesmo número de repetições.
Testes não-paramétricos, amostras independentes
(uma só variável, duas amostras comparadas).
5. Filosofia do teste de Mann-Whitney.
Se duas amostras forem retiradas ao acaso de uma
mesma população, a ordenação crescente e conjunta
dos dados das duas amostras tende a misturá-los uniformemente. Isso
faz com que os dados se encaixem de maneira eqüitativa, tal como se
intercalam os números pares e ímpares na seqüência
natural dos números reais.
À medida em que os valores ordenados das
duas amostras se separam e se afastam, a probabilidade de elas pertencerem
à mesma população vai se tornando cada vez mais remota.
Os valores de U calculados pelo teste avaliam o grau de entrelaçamento
dos dois conjuntos de valores numéricos confrontados.
O caso extremo ocorre quando as duas amostras já
não se intercalam isto é, são disjuntas o que
indica tratar-se de amostras provindas de populações diferentes.
A disjunção dos dados traduz a significância estatística
máxima do teste, e ocorre quando o U menor é igual a 0 (zero).
6. Filosofia do teste da mediana (para 2 amostras).
O teste da mediana visa a verificar se duas amostras
diferem em relação às suas tendências centrais,
uma vez que a mediana e o valor que marca o centro da distribuição
amostral.
Assim, o teste exige que as amostras possam ser
pelo menos passíveis de uma ordenação por valores
ascendentes dos dados, para que se possa calcular o valor que divide o
conjunto de dados das amostras reunidas exatamente ao meio, ou seja, com
50% dos dados acima e 50% abaixo desse valor. Esse valor é a mediana.
A filosofia do teste admite que, se duas amostras
provêm de uma mesma população (isto é, se são
estatisticamente iguais), a mediana do conjunto de dados reunidos não
difere significantemente da mediana de cada uma delas considerada isoladamente.
O teste é, no final, um teste de c²
(qui-quadrado) em que as freqüências comparadas se referem ao
número de dados em cada uma das amostras comparadas que se encontram
acima ou abaixo da mediana comum, calculada para o conjunto das amostras
reunidas.
7. Filosofia do teste do c2 (qui-quadrado),
2 x 2.
O teste do c2 (qui-quadrado)
é um teste que compara freqüências obtidas experimentalmente
com freqüências teóricas, calculadas matematicamente
para o mesmo número de dados da amostra.
Os dados devem portanto ser grandezas discretas,
isto é, alguma coisa que possa ser contada e reduzida a uma tabela
de freqüências, tabela essa denominada tabela de contingência.
A tabela de contingência é formada
de duas linhas e duas colunas. O grau de liberdade é dado pelo produto
de (2-1) x (2-1) = 1 x 1 = 1.
O teste calcula a relação: quadrado
da diferença entre as freqüências obtida e esperada em
cada uma das quatro células da tabela de contingência, dividido
pela freqüência esperada, e soma esses quadrados.
O teste é considerado significante quando
essa soma ultrapassa determinados valores, relacionados em tabelas apropriadas,
valores esses que dependem do grau de liberdade da amostra.
Os testes não são exatamente iguais
para tabelas com apenas 1 ou mais de 1 grau de liberdade, e por isso essas
duas possibilidades são focalizadas separadamente neste programa
estatístico (para 2 x 2 ou para m x n freqüências).
Além disso, há uma série de
restrições:
A. Para 1 grau de liberdade:
a) pode ser aplicado para n maior que 40 (n = número total
de dados);
b) para n entre 20 e 40, o teste só pode ser aplicado se
todas as freqüências esperadas forem maiores ou iguais a 5;
c) se a menor freqüência for menor que 5, ou se n for
menor que 20, será preferível usar o teste exato de Fisher.
B. Para mais de 1 grau de liberdade:
a) nenhuma casela pode ter valor menor que 1;
b) o número de caselas com valores esperados menores do que
5 não pode ultrapassar 20 % do número total de caselas; e
c) se isso ocorrer, reformule a tabela (somando caselas vizinhas).
8. Filosofia do teste de igualdade entre proporções.
Esse teste é praticamente igual ao teste do
c²
(qui-quadrado), com a diferença de que as freqüências
são transformadas em proporções, dividindo-se as freqüências
obtidas em cada uma de duas amostras pelo respectivo número total
de dados dessa amostra.
A finalidade do teste é verificar se duas
proporções podem ser consideradas iguais, quando resultantes
de amostragens com números diferentes de dados. Por exemplo: será
que as proporções de 34 dados numa amostra com 147 dados,
e de 167 dados em outra com 985 dados, seriam iguais? As duas proporções
são respectivamente 0,23129 e 0,16954. Seriam elas estatisticamente
eqüivalentes?
Nesse caso, a resposta poderia ser dada tanto por
este teste como por um simples teste de c².
numa tabela 2 x 2.
Pode ocorrer, entretanto, que numa ou outra circunstância
não se possa usar o teste do c².
Nesse caso, o teste da diferença entre duas proporções
poderia ser utilizado, como uma alternativa para o teste do c².
Este teste, todavia, tem também as suas restrições,
tal como as tem o próprio teste do c².
Assim, como ocorre no c²,
convém que as amostras sejam grandes, de tal modo que as freqüências
obtidas (Fn), ou os seus complementos (NFn), sejam todas maiores que 5.
O teste do c² também
faz o mesmo tipo de exigência. A única diferença é
que o teste entre proporções não tem a correção
de Yates.
Diante disso, toda vez em que for possível,
é preferível usar o teste do c²
ou, se as freqüências forem muito pequenas, o teste exato de
Fisher.
Outra opção é usar a distribuição
de Poisson (para eventos raros). Um evento é considerado raro quando
sua probabilidade de ocorrência está próxima de 0 (zero).
Praticamente, considera-se raro o evento cuja ocorrência é
de 5 vezes (ou menos) em 50 (ou mais) tentativas (p £
0,1). Isto é, quando a probabilidade de 1 evento x o número
de tentativas (n) é igual a 5, ou menor que 5 (p.n £
5).
9. Filosofia do teste de Fisher.
O teste exato de Fisher testa diferenças entre
dois grupos independentes (G1 e G2), em relação a uma variável
qualquer que só admita duas alternativas como resposta: Sim/Não,
Positivo/Negativo, ou +/. Isso leva à construção
de uma tabela de contingência 2 x 2.
O teste é basicamente um c²
(qui-quadrado), porém o teste de Fisher é particularmente
adequado para pequenas amostras (com 20 dados ou menos), caso em que o
teste do c² estaria contra-indicado.
Em compensação quando o número
de dados da amostra é grande, o teste de Fisher é que não
deve ser usado, porque envolve o cálculo de fatoriais, o que pode
conduzir a números excessivamente elevados. Nesses casos, a opção
deve ser pelo teste do c².
Testes não-paramétricos, amostras vinculadas (uma
só variável, duas amostras comparadas).
10. Filosofia do teste de Wilcoxon.
Uma amostra A1 submetida a um tratamento T1, e o
seu efeito medido. Posteriormente, essa mesma amostra, chamada agora de
A2, é submetida a um segundo tratamento T2, medindo-se o seu efeito
pela mesma variável usada no primeiro tratamento.
Comparando-se o efeito dos dois tratamentos em cada
elemento da amostra, podem ocorrer 3 alternativas:
a) O efeito aumentou (+);
b) O efeito diminuiu (); e
c) O efeito permaneceu o mesmo (=).
Até este ponto, o teste seria idêntico
ao chamado teste dos sinais. A diferença porém é que,
no teste de Wilcoxon, leva-se em conta a magnitude do aumento ou da diminuição,
e não apenas a direção da variação para
mais ou para menos.
Assim, para cada par vinculado A1/A2, calcula-se
a diferença numérica T1 T2. Essa diferença poderá
ser positiva, negativa, ou igual a zero (quando não houver variação,
sendo T1 = T2).
Uma vez calculadas todas as diferenças entre
os valores obtidos para cada par de dados, essas diferenças são
ordenadas pelo seu valor absoluto (sem considerar o sinal), substituindo-se
então os valores originais pelo posto que ocupam na escala ordenada.
Feito isso, atribui-se a cada um desses novos valores
dos dados o mesmo sinal que eles tinham antes da transformação
em postos.
A filosofia do teste presume que, se os tratamentos
forem idênticos, a soma dos postos com sinais positivos será
equivalente à soma dos postos com sinais negativos.
O teste de Wilcoxon calcula um valor z, ao qual
está associada um valor de probabilidade. Essa probabilidade traduz
o grau de possibilidade de ocorrência desse valor de z por mero acaso,
e não por efeito dos tratamentos efetuados (T1 = T2). No caso do
GMC software, o programa já faz automaticamente o cálculo
da probabilidade do z obtido pelo teste, não havendo necessidade
de consultar qualquer tabela.
11. Filosofia do teste dos sinais.
Uma amostra A1 submetida a um tratamento T1, e o
seu efeito medido. Posteriormente, essa mesma amostra, chamada agora de
A2, é submetida a um segundo tratamento T2, medindo-se o seu efeito
pela mesma variável usada no primeiro ratamento.
Comparando-se o efeito dos dois tratamentos em cada
elemento da amostra, podem ocorrer 3 alternativas:
a) O efeito aumentou (+);
b) O efeito diminuiu (); e
c) O efeito permaneceu o mesmo (=).
Os dados serão codificados apenas como 1 ou
0, para os valores maior e menor de cada par. O valor real do dado não
afeta o teste.
Calculando-se a freqüência em cada uma
das duas primeiras alternativas e desprezando-se a terceira, em que não
houve alteração, pode-se estimar se as freqüências
dos sinais + e devem ser consideradas estatisticamente diferentes ou
não.
A decisão estatística envolve o cálculo
binomial da probabilidade de os sinais + e terem aquelas freqüências
por mero acaso.
Quando os pares vinculados puderem ser medidos quantitativamen-te,
de forma que seja possível estabelecer não só a hierarquia,
mas também o quanto um membro do par é maior ou menor do
que o outro, o teste mais preciso seria o de Wilcoxon, e não este.
12. Filosofia do teste de McNemar.
Uma amostra A1 submetida a um tratamento T1, e o
seu efeito medido. Posteriormente, essa mesma amostra, chamada agora de
A2, é submetida a um segundo tratamento T2, medindo-se o seu efeito
pela mesma variável usada no primeiro tratamento.
Comparando-se o efeito dos dois tratamentos em cada
elemento da amostra, podem ocorrer 4 alternativas:
a) Foi positivo em A1 e A2 : T1+ e T2+ ;
b) Foi negativo em A1 e A2 : T1 e T2 ; e
c) Foi negativo em A1 e positivo em A2 : T1 e T2+ .
d) Foi positivo em A2 e negativo em A1 : T1+ e T2
Calculando-se a freqüência em cada uma
das 4 alternativas, constrói-se uma tabela de contingência
2 x 2.
A decisão estatística é dada
por um teste de *² (qui-quadrado), cujo resultado dirá se a
distribuição de freqüências encontrada pode ser
considerada puramente casual, ou se as diferenças de freqüência
devem ser atribuídas realmente ao tratamento realizado.
13. Filosofia do teste binomial.
O teste binomial é particularmente útil
em experimentos que apenas admitem duas alternativas como resposta, tais
como certo ou errado, sim ou não, verdadeiro ou falso, masculino
ou feminino, positivo ou negativo, e assim por diante.
O teste utiliza o desenvolvimento matemático
binomial de duas freqüências relativas complementares p e q
(sendo p + q = 1) para avaliar a probabilidade de elas poderem ser consideradas
estatisticamente não-diferentes, ainda que desiguais em termos puramente
numéricos.
Assim, os dados experimentais utilizados pelo teste
são as freqüências relativas p e q, referentes às
duas alternativas possíveis naquele determinado experimento. A freqüência
esperada para p e q, em caso de igualdade perfeita, seria ½ para
ambos.
Como, num experimento, dificilmente p é igual
a q, o teste avalia, em última análise, até que ponto
os valores de p e q podem diferir, sem deixarem de ser estatisticamente
iguais.
Testes não-paramétricos, amostras independentes
(uma só variável, comparações múltiplas).
14. Filosofia do teste de Kruskal-Wallis.
O teste de Kruskal-Wallis é uma espécie
de análise de variância a um critério de variação,
para dados amostrais independentes.
Por exemplo: a superfície de n corpos-de-prova
construídos com k marcas comerciais de gesso para modelos seria
igualmente lisa?
A variável testada, nesse caso, é
o grau de lisura da superfície dos corpos-de-prova, e o único
fator que faz essa variável alterar os seus valores é a marca
comercial dos gessos.
O erro experimental é dado pela variação
casual determinada por diferenças eventuais ocorridas durante a
confecção dos diversos corpos-de-prova (repetições)
que constituem a amostra referente a cada um dos materiais envolvidos.
A filosofia do teste considera que, se os materiais
forem todos igualmente lisos, a única variação será
aquela decorrente dessa variabilidade natural, que sempre existe, mesmo
entre elementos de uma mesma população.
O teste não utiliza os valores numéricos
diretamente, mas sim os postos que eles ocupam numa série de dados
ordenados por valores crescentes, série essa que reúne num
só conjunto os dados de todas as amostras que vão ser comparadas.
Os dados são introduzidos amostra após amostra.
Ainda segundo a filosofia do teste, se as k amostras
comparadas provierem da mesma população (amostras iguais),
a média dos postos correspondentes a cada amostra será aproximadamente
igual.
Se isso não ocorrer, as amostras pertencerão
provavelmente a populações diferentes * ou seja, serão
diferentes entre si.
Embora o teste tenha sido idealizado para testar
um único fator de variação, parece viável utilizá-lo
também em casos de mais de um critério de variação,
desde que se faça a análise de um deles de cada vez, reunindo
em grupos todos os dados que tenham em comum esse fator, considerando os
demais como simples repetições.
15. Filosofia do teste da mediana (para k amostras).
O teste da mediana visa a verificar se duas ou mais
(k) amostras diferem em relação às suas tendências
centrais, uma vez que a mediana e o valor que marca o centro da distribuição
amostral.
Assim, o teste exige que as amostras possam ser
pelo menos passíveis de uma ordenação por valores
ascendentes dos dados, para que se possa calcular o valor que divide o
conjunto de dados das amostras reunidas exatamente ao meio, ou seja, com
50 % dos dados acima e 50 % abaixo desse valor. Esse valor é a mediana.
A filosofia do teste admite que, se duas ou mais
amostras provêm de uma mesma população (isto é,
se são estatisticamente iguais), a mediana do conjunto de dados
reunidos não difere significantemente da mediana de cada uma delas
considerada isoladamente.
O teste é, no final, um teste de c²
(qui-quadrado) em que as freqüências comparadas se referem ao
número de dados em cada uma das amostras comparadas que se encontram
acima ou abaixo da mediana comum, calculada para o conjunto das amostras
reunidas.
16. Filosofia do teste do c² (qui-quadrado),
m x n.
O teste do c² (qui-quadrado)
é um teste que compara freqüências obtidas experimentalmente
com freqüências teóricas, calculadas matematicamente
para o mesmo número de dados da amostra.
Os dados devem portanto ser grandezas discretas,
isto é, alguma coisa que possa ser contada e reduzida a uma tabela
de freqüências, tabela essa denominada tabela de contingência.
A tabela de contingência é formada
de (m) linhas e (n) colunas, sendo que a menor tabela que se pode formar
seria uma tabela com 1 linha x 2 colunas, ou 2 linhas x 1 coluna.
O grau de liberdade é dado pelo produto de
(m-1) x (n-1), quando m e n são iguais ou maiores do que 2; e por
(m-1) ou (n-1), caso um deles (n ou m) for igual a 1.
O teste calcula a relação: quadrado
da diferença entre as freqüências obtida e esperada em
cada casa da tabela de contingência, dividido pela freqüência
esperada, e soma esses quadrados.
O teste é considerado significante quando
essa soma ultrapassa determinados valores, relacionados em tabelas apropriadas,
valores esses que dependem do grau de liberdade da amostra.
Os testes não são exatamente iguais
para tabelas com apenas 1 ou mais de 1 grau de liberdade, e por isso essas
duas possibilidades são focalizadas separadamente neste programa
estatístico.
Além disso, há uma série de
restrições:
A. Para 1 grau de liberdade:
a) pode ser aplicado para n maior que 40 (n = número total
de dados);
b) para n entre 20 e 40, o teste só pode ser aplicado se
todas as freqüências esperadas forem maiores ou iguais a 5;
c) se a menor freqüência for menor que 5, ou se n for
menor que 20, será preferível usar o teste exato de Fisher.
B. Para mais de 1 grau de liberdade:
a) nenhuma casela pode ter valor menor que 1;
b) o número de caselas com valores esperados menores do que
5 não pode ultrapassar 20 % do número total de caselas;
c) se isso ocorrer, reformule a tabela (somando caselas vizinhas).
17. Filosofia do teste de Nemenyi.
O teste de Nemenyi é uma espécie de
análise de variância não-paramétrica, para um
fator único de variação, que faz comparações
entre várias amostras independentes.
O fator de variação estudado é
colocado nas colunas, com as repetições dispostas verticalmente,
ao longo das colunas. Os dados são introduzidos no computador seguindo
o sentido vertical da tabela, repetição após repetição,
e não no sentido horizontal.
Os dados de todas as amostras são ordenados
por valores crescentes, sendo os valores originais substituídos
pelo número de ordem ocupado por eles na série do conjunto
ordenado. Em caso de empates, faz-se a média dos postos correspondentes,
e se atribui esse mesmo valor a todos os dados empatados.
Se as amostras pertencerem à mesma população
isto é, se forem iguais as médias dos seus postos serão
mais ou menos iguais. A avaliação estatística é
feita pela comparação dessas médias.
Testes não-paramétricos, amostras vinculadas (uma
só variável, comparações múltiplas).
18. Filosofia do teste de Cochran.
Os (n) elementos de uma mesma amostra (A) são
julgados segundo (k) padrões ou métodos diferentes de avaliação
(P1,P2,P3,...Pk).
Os dados experimentais devem apresentar-se como
respostas do tipo (+/), (Sim/Não), ou (Positivo/Negativo).
A aplicação do teste, porém,
exige que essas respostas, seja como for que se apresentem, sejam convertidas
em valores numéricos 1 (um) para os Sim, Positivo ou (+), e em 0
(zero) para os Não, Negativo, ou ().
O teste procura responder a perguntas do tipo: Os
resultados dos diversos métodos de julgamento testados seriam equivalentes?
A filosofia do teste considera que, se os diversos
métodos produzem efeitos semelhantes sobre os elementos que compõem
a amostra, a distribuição dos 1 e 0 nos vários métodos
comparados será aproximadamente igual (a não ser, é
claro, pelas variações casuais, presentes em qualquer experimento).
Os dados amostrais (reduzidos a 0 e 1) devem ser
reunidos em uma tabela com (n) linhas e (k) colunas.
Torna-se possível, assim, definir se a proporção
(ou freqüência) de respostas é a mesma em cada uma das
(k) colunas comparadas, ou se, pelo contrário, houve influência
sobre ela dos métodos ou dos padrões de julgamento utilizados
para avaliá-las.
O teste aplica-se a uma grande variedade de situações,
bastando para isso que os dados possam ser reduzidos a valores 0 e 1, e
possam ser reunidos em tabelas desse tipo (n x k).
O teste é, no fundo, um teste de c²
(qui-quadrado), para (k-1) graus de liberdade.
O programa já calcula automaticamente qual
a probabilidade de haver igualdade entre as amostras comparadas. Indica
também o nível de significância estatística,
quando forem detectadas diferenças entre as amostras.
19. Filosofia do teste de Friedman.
O teste de Friedman é uma espécie de
análise de variância a dois critérios de variação,
para dados amostrais vinculados.
Por exemplo: a superfície de corpos-de-prova
construídos com diversos tipos de materiais poderia ser avaliada
sucessivamente por dois ou mais métodos diferentes.
Nesse caso, os dois critérios de variação
seriam: 1) os métodos de avaliação; e 2) os materiais
utilizados. As amostras são vinculadas porque as avaliações
se fazem na mesma superfície de cada corpo-de-prova.
O teste responde a este tipo de pergunta: seria
idêntica a avaliação da superfície pelos vários
métodos, em relação aos diversos materiais? Ou então:
responderiam os materiais igualmente aos diversos métodos de avaliação?
Ou ainda: haveria concordância entre os diversos métodos em
relação à avaliação da superfície
dos corpos-de-prova?
A resposta do teste depende de qual dos fatores
esteja colocado nas colunas de uma tabela de dados com k colunas e n linhas.
Desse modo, a organização da tabela
de dados é muito importante, uma vez que depende dela a interpretação
do resultado do teste. O fator comparado principal deve ser colocado nas
colunas, e os dados serão introduzidos no sentido das linhas da
tabela.
O teste de Friedman não utiliza os dados
numéricos diretamente, mas sim os postos ocupados por eles, após
a ordenação por valores ascendentes desses dados. A ordenação
numérica é feita separadamente em cada uma das amostras,
e não em conjunto.
A filosofia do teste considera que, se as diversas
amostras provêm de uma mesma população, isto é,
se elas são estatisticamente iguais (hipótese de nulidade,
ou de (H0), a distribuição dos postos nas diversas colunas
será mais ou menos eqüivalente, de modo que a soma dos postos
em cada coluna será aproximadamente igual.
A hipótese alternativa (H1) seria de que
as amostras não pertenceriam à mesma população
isto é, seriam diferentes e nesse caso haveria diferenças
entre as somas das diversas colunas.
Teste para mais de uma variável (regressão e correlação).
20. Filosofia dos testes de regressão e correlação.
O teste de regressão linear ¾
e seu complemento natural, que é o teste de correlação
¾
são testes estatísticos extremamente úteis porque
permitem estudar o comportamento de duas (ou mais) variáveis ao
mesmo tempo, buscando detectar uma possível relação
proporcional coerente entre a variação de uma em função
da variação da outra (ou das outras, quando mais de duas).
As variáveis podem ser as mais heterogêneas,
ao contrário de outros testes que, para que duas ou mais amostras
possam ser comparadas, exigem que a variável seja única.
Assim, esse teste de regressão e correlação pode reunir
variáveis tão heterogêneas quanto o tamanho das melancias
de uma plantação e o teor de cálcio ou de potássio
do adubo utilizado para fertilizar a terra onde elas crescem.
O teste é também particularmente útil
quando se deseja avaliar ou comparar tendências, tais como o comportamento
da inflação ao longo do ano, ou a tendência da queda
ou do aumento da inflação num determinado ano, em relação
ao de outro ano qualquer.
A regressão linear refere-se sempre à
linha reta. Contudo, nem sempre a equação matemática
que traduz um fenômeno científico se traduz por uma linha
reta. Porém muitas delas podem ser reduzidas a uma reta, por meio
de transformações algébricas adequadas.
Por exemplo: um determinado fenômeno natural
pode ser representado por uma hipérbole, cuja equação
matemática é y = 1 / a + bx. Caso se faça a inversão
dos termos (y) e (a + bx), obter-se-á uma nova expressão
algébrica para a mesma igualdade:
1 / y = a + bx. Chamando y' ao termo 1 / y, tem-se: y' = a + bx, que
é a expressão algébrica da linha reta. Assim, a transformação
y' = 1 / y tende a retificar uma linha originalmente curva, como é
o caso da hipérbole.
Essas transformações, que tornam possível
a regressão linear de algumas curvas comumente encontradas em pesquisa
científica, é o objeto do presente teste. A correlação
entre duas variáveis é expressa por r, cujo valor varia de
+1 (correlação direta) a -1 (correlação inversa).
O valor r = 0 indica ausência de correlação. |