Coeficiente de correlação de postos de Spearman

(Trecho redundante retirado: 29/11/14)

Olá. Venho cumprir minha promessa de abordar o coeficiente de correlação de Spearman. Ele permite estimar o coeficiente de correlação para variáveis aleatórias x e y relacionadas monotonicamente entre si, mas não necessariamente de maneira linear. Isto é, caso a relação entre x e y seja linear, geralmente se usa o coeficiente de correlação de Pearson, segundo a equação abaixo:

Correlacao Pearson

Considerando n medidas de pontos xi e yi de i até n, e as médias de x e y. Porém uma dependência exponencial de y em função de x, por exemplo, não deve ser tratada da mesma maneira. Se as variáveis aleatórias seguirem exatamente a função y = exp(x), o coeficiente de correlação de Pearson não será igual a 1. Por outro lado, o coeficiente de correlação de Spearman será igual a 1, refletindo a perfeita correlação entre as variáveis. Alguns exemplos da diferença podem observados no seguinte artigo do Artusi et al. (2002):

artusi-corr-2002

Antes de mostrar como se calcula o coeficiente de correlação de Spearman, gostaria de alertar para algo importância: “correlação não implica causa”. Isto é, se um coeficiente de correlação obtido é significante dado um certo grau de confiança, isso não significa que x causa y, por exemplo. Existem várias formas de se obter um elevado coeficiente de correlação sem que uma variável cause a outra. Só vou citar uma delas, baseado no exemplo do livro que usei como referência para as deduções finais deste post (A Basic Course in Statistics, do Clarke e do Cooke, 1992). Se você é um estudante que tem elevado desempenho em química e em física, isso significa que ser bom em física aumenta suas notas em química? Não necessariamente, e para exemplificar isso basta supor que o estudante seja bom em matemática. É possível que o estudante, por ser bom em matemática, tenha elevado desempenho nas duas disciplinas supostamente correlacionadas entre si, de modo que as notas em física e em química aumentam pela influência de outra variável não considerada, que são as notas em matemática. Ou seja, a princípio quando uma variável causa uma influência na outra há uma correlação entre elas, mas observar uma correlação entre elas não implica que uma influencie o resultado da outra. Consequentemente, cuidado com as interpretações.

Coeficiente de correlação de postos de Spearman

A forma deste coeficiente de correlação é a mesma do de Pearson, mas as variáveis xi e yi não são mais os valores originais coletados em n medidas. Ao invés de usar os valores de x e y e suas médias para calcular a correlação de acordo com Pearson (para associações lineares), faz-se o mesmo, mas com o chamado posto de cada variável. Os postos para cada valor de cada variável são resultantes de um ordenamento numérico, uma sequência de números inteiros positivos. Num conjunto x1, x2,… xn, por exemplo, o menor valor de x recebe posto 1, o segundo menor 2, e assim sucessivamente. Deste modo a cada valor xi corresponde um posto R(xi) de 1 até n. O mesmo é feito com o conjunto y1, y2,… yn, sendo que para cada yi há um R(yi). Caso não existam valores de x ou de y que coincidam, o coeficiente ρ (rho de Spearman) pode ser calculado pela equação abaixo:

Rho de Spearman

Em que d = R(xi) – R(yi), ou seja, a diferença entre os postos das variáveis no nível i. Para usar esta fórmula no Excel basta seguir a rotina apresentada neste vídeo, bastante instrutivo:

Para verificar a significância estatística do coeficiente de correlação obtido pode-se usar tabelas como a do Zar (Jerrold H. Zar; Significance Testing of the Spearman Rank Correlation; Journal of the American Statistical Association, Vol. 67, No. 339, pp. 578-580, 1972). Para amostras com n > 10 é possível usar a distribuição t de Student para este fim, mas não entrarei em mais detalhes.
Ok, vamos computar um coeficiente de correlação no mesmo formato do de Pearson, porem substituir xi por R(xi) e yi por R(yi), bem como as médias dos valores pelas médias dos postos. Vou manter a notação de xi e yi, mas lembrem-se que para o coeficiente de correlação de Spearman eles representam na verdade os postos de xi e yi, respectivamente. Para obter o coeficiente de correlação temos que saber os valores dos somatórios quadráticos, ou seja, de:

Somatorio quadratico

O mesmo podendo ser feito com o somatório quadrático de y. Agora para calcular os somatórios que restam, devemos primeiramente saber do somatório de x (ou y) de 1 até n. Ou seja, 1 + 2 + … + n. Sobre essa progressão aritmética há uma história interessante. Um professor perguntou a sua turma quanto era a soma de 1 a 100. Enquanto os outros alunos trabalhavam arduamente na resposta, um dos garotos entregou a resposta ao professor quase imediatamente: 5050. Incrédulo, o professor conferiu no final as respostas, das quais a única correta era a do garoto. Seu nome era Carl Friedrich Gauss, o “príncipe dos matemáticos”. Ele raciocinou que a soma dos extremos da série, 101, se conservava à medida que se somavam os algarismos do extremo da sequência para o meio. Isto é, 100 + 1 = 99 + 2 + 98 + 3 = … = 50 + 51 = 101. Deste modo a soma total dos algarismos é 101 multiplicado por 50, já que somamos até a metade da série. Neste caso 101 x 50 = 5050. Simples? No entanto vamos introduzir um pouco mais de rigor matemático nessa simplicidade. Neste exemplo o somatório leva a 101 x 50 = n x (n+1) / 2. Para verificar sua validade para qualquer somatório de 1 a n de números inteiros, usaremos o princípio da indução finita. Queremos verificar que a seguinte relação se aplica:

Somatorio de n inteiros

Em que x1 = 1, x2 = 2, …, xi = i. Para usar o princípio da indução matemática primeiro provamos uma proposição P(1), ou seja, para n = 1, é válida. Neste caso:

P(1)

Isso é óbvio. Nossa fórmula funciona para n = 1. Poderíamos testar para n = 2, de modo que P(n = 2) = 2x(2 + 1)/2 = 3, que sabemos que equivale a 1 + 2. Poderíamos fazer o mesmo para n = 3, verificando se de fato fornece 1 + 2 + 3, e por aí vai. Mais inteligente seria provar a equação para qualquer número natural n + 1, ou seja, a proposição P(n + 1). Pela nossa equação:

P(n+1)

Se a equação estiver correta poderíamos deduzi-la pela definição que demos ao somatório de n números inteiros positivos, de modo que:

PIF

Ou seja, provou-se que P(n) + (n +1) equivale à P(n + 1), e isso vale para qualquer n, como para n = 2, em que P(2 + 1) = P(3) = 1 + 2 + 3 = P(2) + (2 +1) = 3 + 3 = 6. Peço desculpas se não explico bem este tópico. Mas achei pertinente. Adaptei esta dedução da Revista Cálculo (Excelente!), Edição 11, Ano 1, pg. 27. A história de Gauss, por outro lado, foi coletada na net (deixo a vocês o interesse de procurar ao menos neste caso).

Voltemos a nossa problemática de calcular:

Somatorio quadratico

Já temos duas partes, o somatório de xi de i = 1 até n e, de quebra, x médio:

Media

Falta calcular a soma dos quadrados de n números inteiros. Uma maneira de deduzir isso é considerando que:

Cubo

Sendo ‘a’ uma constante. Substituindo ‘a’ por diferentes números inteiros temos que:

Valores de a

Observe que (1 + 1)^3, termo da primeira soma no lado esquerdo da equação, equivale a 2^3, termo da segunda soma no lado direito da equação. O mesmo ocorre para (1 + 2)^3 e 3^3, e assim sucessivamente. Esta observação é importante, pois se somarmos os termos de todas as somas:

Soma dos cubos 1

Com alguma atenção nota-se que:

Soma dos cubos 2

E portanto:

Soma dos quadrados

Esta dedução é apresentada no blog http://www.problemasteoremas.wordpress.com, especificamente em http://problemasteoremas.wordpress.com/2011/09/07/soma-dos-quadrados-dos-primeiros-n-numeros-inteiros-positivos/, que mostra inclusive soluções mais gerais, para somatório de xi^b, de i = 1 até n, onde deduzimos neste post os casos para b = 1 e b = 2.
Voltando para nosso problema inicial do somatório dos quadrados de xi menos x médio, usando agora nossas séries recém-deduzidas:

Soma quadratica em funcao de n 1

Lembrando que, de modo similar:

Soma quadratica em funçao de n 2

O coeficiente de correlação pode então ser aos poucos obtido:

Spearman 1

Como:

Transformacao

Temos que:

Spearman 2

Geralmente o coeficiente de correlação de Spearman é computado considerando a diferença entre os postos de x e y, d, segundo a seguinte relação:

Somatorio das diferencas

Substituindo na equação do coeficiente de correlação:

Spearman 3

E assim temos nosso rho. Espero que tenham gostado deste post. Nele deduzi boa parte das equações que usei, pois acho isso fundamental. O problema é que nem sempre é possível, pelas minhas limitações matemáticas, pela dificuldade em encontrar algumas deduções (espalhadas em diferentes fontes, e não juntas como faço aqui), e porque leva muito tempo e dá muito trabalho. Espero que a ferramenta seja útil para vocês em algum momento. Se não for, é sempre bom ter mais uma em mãos para escrutinar dados. Até logo.

Advertisements
This entry was posted in Estatística. Bookmark the permalink.

One Response to Coeficiente de correlação de postos de Spearman

  1. Many people might in contrast to it, nevertheless, you say what’s true.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s