Estatística Prática para Docentes e Pós-Graduandos
de Geraldo Maia Campos

17. Os testes de Regressão e Correlação

Teste de regressão: as duas retas de regressão.

    Consideremos a equação matemática da linha reta: y = a + bx. Para traçar o gráfico dessa reta, colocam-se os valores de x no eixo das abscissas e y no das ordenadas do sistema de eixos cartesianos. Todavia, é possível traçar outra reta com esses mesmos parâmetros a e b, agora em função de y, e não de x. Para isso, basta isolar o valor de x na equação acima transcrita, que ficará assim: x = (y - a) / b. O novo gráfico mostrará uma reta que, no caso da regressão ora focalizada, poderá apresentar um ângulo de inclinação diferente do da primeira reta, conforme se explicará mais adiante.

Cálculo dos parâmetros a e b da reta de regressão.

    Para se calcular o valor de b, basta dividir o valor da covariância (Equação 3) pelo da variância da variável que estiver no eixo das abscissas (Equações 1 ou 4). Calculam-se, pois dois valores para b, que podem ser identificados como bx e by .
Por sua vez, os valores de ax e ay são calculados pelas relações: ax = my – mx . bx , e
y = mx – my . by , nas quais mx e my são respectivamente as médias dos valores de x e de y.

Correlação: cálculo do valor de r (ou r).

    O valor de r (ou de r) é basicamente a média geométrica dos dois valores de b calculados (bx e by ), sendo portanto fornecido pela expressão:

    Todavia, a raiz quadrada acima indicada, embora forneça o valor numérico de r, não indica se esse valor é positivo ou negativo. A definição do sinal depende da expressão da covariância (Equação 3): se, nessa expressão, åx.y for maior que åx . åy / n, o valor de r será positivo; e, se for menor, o r será negativo.

O que indica o valor de r (ou de r)?

    O valor de r (ou de r) igual a +1 ou –1 somente ocorre quando a reta de regressão calculada passa exatamente sobre todos os pontos disponíveis. Graficamente, isso quer dizer que as duas retas de regressão (de x em y e de y em x) se sobrepõem plenamente, de modo que aparecem no gráfico como uma reta única. Conforme o valor de r se afaste de +1 ou –1, aproximando-se de 0 (zero), as duas retas já não mais se soprepõem, aparecendo no gráfico como duas retas que se cruzam, num ângulo que se abre cada vez mais, até que, quando o valor de r é igual a 0 (que indica a falta total de correlação entre as variaveis), elas se cruzam perpendicularmente uma à outra.

Exemplo de não-correlação entre variáveis.

    Para se ter uma idéia do que isso significa, imaginemos duas equações: y = a + bx0 e
x = (y0+ a) / b. Como qualquer número elevado a zero é igual a 1, as mesmas equações se reduziriam a y = a + b e x = a / b. Fazendo a = 10 e b = 2, elas ficariam assim: y = 12 e x = 5. Isto quer dizer que, na primeira equação, y seria igual a 12, qualquer que fosse o valor de x. Logo, o valor de y não depende do valor de x, uma vez que x0 será sempre igual a 1, não influindo no valor de y. O mesmo vale para a outra equação.
    Se essas duas equações fossem representadas graficamente no sistema de coordenadas cartesianas, a primeira seria uma linha reta horizontal, paralela ao eixo das abscissas, passando pelo ponto y = 12; e a segunda seria uma reta vertical, paralela ao eixo das ordenadas, passando pelo ponto x = 5. Essas duas retas seriam perpendiculares entre si, cruzando-se no ponto x = 5, y = 12. Mas não haveria qualquer correlação entre elas, uma vez que os valores de x e y de uma não teria nada a ver com os valores x e y da outra, e vice-versa. O único ponto comum a ambas seria o ponto de cruzamento das duas linhas.
    A tangente do ângulo de inclinação da reta horizontal teria um valor igual a 0 (zero), tangente essa que corresponde ao ângulo de 0º; e a do ângulo de inclinação da reta vertical teria um valor igual ao ¥ (infinito), que corresponde ao ângulo de 90º. Isso indica que as retas se cruzam em ângulo reto, sendo portanto perpendiculares. É por isso que as retas de regressão perpendiculares entre si representam a ausência completa de correlação entre as variáveis x e y, tal como ocorre no exemplo acima.

Comparações entre coeficientes de correlação.

    Quando se têm mais de uma reta de regressão, é possível comparar os seus coeficientes de regressão, para verificar estatisticamente se a relação entre as duas variáveis reunidas em pares para o traçado das linhas de regressão, bem como para o cálculo dos coeficientes de correlação correspondentes, é a mesma nas duas ou mais retas em estudo. O coeficiente de correlação avalia o grau de relacionamento entre causa e efeito de um fenômeno qualquer. Assim, a comparação entre dois coeficientes de correlação define se dois fenômenos mostram a mesma resposta de uma das variáveis (y), quando de faz variar a outra (x), ou se elas respondem de maneira diversa, mostrando diferentes tendências de variação, de um fenômeno para outro.
    Outro detalhe importante a respeito dos testes de regressão e correlação é que os três parâmetros calculados por eles ¾ isto é, os parâmetros a e b da reta de regressão, e o coeficiente de correlação (r) ¾ podem eventualmente ser usados como variáveis, quando o espaço amostral é representado por um conjunto de retas, cada qual com a, b e r diferentes de uma para outra reta.
    O emprego de parâmetros muitas vezes se torna absolutamente necessário, nos casos em que, sem esse recurso, a análise estatística seria totalmente impossível.
    Sei bem disso, porque eu próprio já tive necessidade de lançar mão desse artifício técnico para tornar possível análises estatísticas aparentemente inviáveis. Acabei imaginando uma porção delas, por absoluta necessidade prática. Ao processo que visa à criação desse tipo de variável, pelo qual se altera a própria natureza íntima dessas variáveis, a fim de adequá-las matematicamente ao tratamento estatístico e torná-lo viável, batizei-o de mudança de variável, que será o tema do capítulo que vem a seguir.


Figura 2. Linha de regressão hiperbólica, na qual y’=1/y. O valor de r é igual a 1 porque os pares foram deliberadamente escolhidos para fornecer uma correlação direta perfeita.

Esta página foi elaborada com apoio do Programa Incentivo à Produção de Material Didático do SIAE, Pró-Reitorias de Graduação e Pós-Graduação da USP.