Coeficiente de correlação de Pearson

Em estatística descritiva, o coeficiente de correlação de Pearson, também chamado de "coeficiente de correlação produto-momento" ou simplesmente de "ρ de Pearson" mede o grau da correlação (e a direcção dessa correlação - se positiva ou negativa) entre duas variáveis de escala métrica (intervalar ou de rácio/razão).

Este coeficiente, normalmente representado por ρ assume apenas valores entre -1 e 1.

  • ρ = 1 {\displaystyle \rho =1} Significa uma correlação perfeita positiva entre as duas variáveis.
  • ρ = 1 {\displaystyle \rho =-1} Significa uma correlação negativa perfeita entre as duas variáveis - Isto é, se uma aumenta, a outra sempre diminui.
  • ρ = 0 {\displaystyle \rho =0} Significa que as duas variáveis não dependem linearmente uma da outra. No entanto, pode existir uma dependência não linear. Assim, o resultado ρ = 0 {\displaystyle \rho =0} deve ser investigado por outros meios.

Cálculo

Calcula-se o coeficiente de correlação de Pearson segundo a seguinte fórmula:

ρ = i = 1 n ( x i x ¯ ) ( y i y ¯ ) i = 1 n ( x i x ¯ ) 2 i = 1 n ( y i y ¯ ) 2 = cov ( X , Y ) var ( X ) var ( Y ) {\displaystyle \rho ={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{{\sqrt {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\cdot {\sqrt {\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}}}={\frac {\operatorname {cov} (X,Y)}{\sqrt {\operatorname {var} (X)\cdot \operatorname {var} (Y)}}}}

onde x 1 , x 2 , , x n {\displaystyle x_{1},x_{2},\dots ,x_{n}} e y 1 , y 2 , , y n {\displaystyle y_{1},y_{2},\dots ,y_{n}} são os valores medidos de ambas as variáveis. Para além disso

x ¯ = 1 n i = 1 n x i {\displaystyle {\bar {x}}={\frac {1}{n}}\cdot \sum _{i=1}^{n}x_{i}}

e

y ¯ = 1 n i = 1 n y i {\displaystyle {\bar {y}}={\frac {1}{n}}\cdot \sum _{i=1}^{n}y_{i}} são as médias aritméticas de ambas as variáveis.[1]

A análise correlacional indica a relação entre 2 variáveis lineares e os valores sempre serão entre +1 e -1. O sinal indica a direção, se a correlação é positiva ou negativa, e o tamanho da variável indica a força da correlação.

Cabe observar que, como o coeficiente é concebido a partir do ajuste linear, então a fórmula não contém informações do ajuste, ou seja, é composta apenas dos dados.

Interpretando ρ {\displaystyle \rho } [2]

  • 0.9 para mais ou para menos indica uma correlação muito forte.
  • 0.7 a 0.9 positivo ou negativo indica uma correlação forte.
  • 0.5 a 0.7 positivo ou negativo indica uma correlação moderada.
  • 0.3 a 0.5 positivo ou negativo indica uma correlação fraca.
  • 0 a 0.3 positivo ou negativo indica uma correlação desprezível.

Interpretação geométrica

As duas séries de valores X ( x 1 , , x n ) {\displaystyle X(x_{1},\ldots ,x_{n})} e Y ( y 1 , , y n ) {\displaystyle Y(y_{1},\ldots ,y_{n})} podem ser consideradas como vetores em um espaço de n dimensões. X ( x 1 x ¯ , , x n x ¯ ) {\displaystyle X(x_{1}-{\bar {x}},\ldots ,x_{n}-{\bar {x}})} e Y ( y 1 y ¯ , , y n y ¯ ) {\displaystyle Y(y_{1}-{\bar {y}},\ldots ,y_{n}-{\bar {y}})} .

O cosseno do ângulo α entre estes vetores é dado pela fórmula (produto escalar normado):

cos ( α ) = i = 1 N ( x i x ¯ ) ( y i y ¯ ) i = 1 N ( x i x ¯ ) 2 i = 1 N ( y i y ¯ ) 2 {\displaystyle \cos(\alpha )={\dfrac {\displaystyle \sum _{i=1}^{N}(x_{i}-{\bar {x}})\cdot (y_{i}-{\bar {y}})}{{\sqrt {\displaystyle \sum _{i=1}^{N}(x_{i}-{\bar {x}})^{2}}}\cdot {\sqrt {\displaystyle \sum _{i=1}^{N}(y_{i}-{\bar {y}})^{2}}}}}}

Portanto cos ( α ) = ρ {\displaystyle \cos(\alpha )=\rho }

O coeficiente de correlação não é outro senão o cosseno do ângulo α entre os dois vetores!

Se ρ {\displaystyle \rho } = 1, o ângulo α = 0, os dois vetores são colineares (paralelos).
Se ρ {\displaystyle \rho } = 0, o ângulo α = 90°, os dois vetores são ortogonais.
Se ρ {\displaystyle \rho } = -1, o ângulo α = 180°, os dois vetores são colineares com sentidos opostos.
Mais geralmente : α = arccos ( ρ ) {\displaystyle \alpha =\arccos(\rho )} , ( arccos {\displaystyle \arccos } é a inversa da função cosseno).

Referências

  1. «Coeficiente de Pearson». leg.ufpr.br. Consultado em 27 de maio de 2024 
  2. Mukaka, M.M. «Statistics Corner: A guide to appropriate uso of Correlation coefficient in medical research». Malawai Medical Journal. PMC 3576830Acessível livremente. Consultado em 4 de janeiro de 2016 

Ver também

  • v
  • d
  • e
Estatística
Estatística descritiva
Gráficos estatísticos
Inferência estatística
Estatística não-paramétrica
Análise de sobrevivência
  • Função de sobrevivência
  • Kaplan-Meier
  • Teste log-rank
  • Taxa de falha
  • Proportional hazards models
Amostragem
Distribuição de probabilidade
Correlação
Regressão
Análise multivariada
Séries temporais
  • Modelos para séries temporais
  • Tendência e sazonalidade
  • Modelos de suavização exponencial
  • ARIMA
  • Modelos sazonais
  • Portal de probabilidade e estatística