Variáveis aleatórias – O básico – Parte 2 (Discretas/Variância)

Atualizado: (11/07/14 = falta apêndice no final) (26/07/14 = apêndice adicionado)

O próximo parâmetro importante na descrição da distribuição de probabilidade de variáveis aleatórias é a variância, ou dispersão. Ela é definida como o valor esperado do quadrado do desvio da variável aleatória em relação ao seu valor esperado (\Delta X = X-\text{E}[X]). Isto é:

\text{Var}[X]=\text{E}\displaystyle\left[(X-\text{E}[X])^2\right]=\text{E}[\Delta X^2]= \langle \Delta X^2 \rangle=\langle (\Delta X-\langle x \rangle)^2 \rangle\qquad(6)

E mede o quanto que a variável aleatória se distribui em torno seu valor esperado, qual proporção dos valores que a variável aleatória pode assumir estariam próximos ou distantes dele. A definição em termos de somatório é:

\displaystyle\sum_{i=1}^{k}(x_i-\text{E}[X])^2 P_X(x_i)\qquad(7)

Que torna evidente que a variância é sempre maior que zero (se não considerarmos o exemplo trivial em que só existe um x_1 com probabilidade 1 – mais detalhes na propriedade i’) da variância), pois o quadrado de qualquer número real (neste caso x_i-\text{E}[X]) é positivo.

Obs. 4: O n-ésimo momento (ou momento de ordem n) em relação à média (ou simplesmente momento central de ordem n) é definido como \text{E}\displaystyle\left[(X-\text{E}[X])^n\right]=\displaystyle\sum_{i=1}^{k}(x_i-\text{E}[X])^n P_X(x_i). Medem a dispersão sem efeitos da localização da distribuição. A variância é, portanto, o momento central de 2ª ordem de uma variável aleatória. Para informações básicas, vide wikipédia.

O chamado desvio médio quadrático ou desvio médio, \Delta x, está relacionado com a variância pela seguinte relação:

\Delta x = \sqrt{\langle \Delta X^2 \rangle}=\sqrt{\text{Var}[X]}\qquad(8)

E possui a mesma unidade de medida de x, diferente da variância.
Geralmente é mais fácil obter a variância não pela equação (7), mas através do segundo momento (ou momento de ordem 2) da variável X, definido como se segue:

\text{E}[X^2]=\displaystyle\sum_{i=1}^{k}x_i^2P_X(x_i)\qquad(9)

Obs. 5: O n-ésimo momento (ou momento de ordem n) em relação à origem da variável aleatória X (ou simplesmente momento ordinário de ordem n) é definido como \text{E}[X^n]=\displaystyle\sum_{i=1}^{k}x_i^nP_X(x_i). Mais informações básicas no wikipédia.

Para isso usemos a definição de variância:

\text{Var}[X]=\text{E}\displaystyle\left[(X-\text{E}[X])^2\right]=\text{E}\displaystyle\left[X^2-2X\text{E}[X]+E[X]^2\right]

Usando a propriedade ii-a) mencionada anteriormente (ver post Variáveis aleatórias – O básico – Parte 1), verifica-se que:

\text{Var}[X]=\text{E}\displaystyle\left[X^2-2X\text{E}[X]+E[X]^2\right]=\text{E}[X^2]- \text{E}\left[2X\text{E}[X]\right]+ \text{E}\left[\text{E}[X]^2\right]

Usando a propriedade ii-b) verifica-se que:

\text{Var}[X]=\text{E}[X^2]- \text{E}\left[2X\text{E}[X]\right]+ \text{E}\left[\text{E}[X]^2\right]=\text{E}[X^2]-\text{E}[X]\text{E}[2\text{E}[X]]+ \text{E}\left[\text{E}[X]^2\right]

Considerando que tanto 2\text{E}[X] e \text{E}[X]^2 são constantes, podemos usar a propriedade i) para simplificar a equação acima:

\text{Var}[X]=\text{E}[X^2]-2\text{E}[X]\text{E}[X]+\text{E}[X]^2=\text{E}[X^2]-2\text{E}[X]^2+\text{E}[X]^2
\text{Var}[X]=\text{E}[X^2]-\text{E}[X]^2\qquad(10)

Ou seja, a variância pode ser obtida pela diferença entre o momento de 2ª ordem de X pelo quadrado do valor esperado (que é, na verdade, o momento de 1ª ordem de X). Como \text{Var}[X]\geq 0, tem-se que:

\text{E}[X^2]\geq \text{E}[X]^2\qquad(11)

(este resultado tem implicações interessantes em termodinâmica estatística)

Vejamos, para o caso do dado, qual a variância calculada. O valor esperado de X, necessário para o cálculo de \text{E}[X]^2, foi calculado anteriormente como 3,5. Pelo emprego da equação (9) podemos calcular \text{E}[X^2]:

\text{E}[X^2]=1^2\cdot\displaystyle\frac{1}{6}+2^2\cdot\displaystyle\frac{1}{6}+3^2\cdot\displaystyle\frac{1}{6}+4^2\cdot\displaystyle\frac{1}{6}+5^2\cdot\displaystyle\frac{1}{6}+6^2\cdot\displaystyle\frac{1}{6}=15,17

(Que, como previsto pela equação (11), é superior a \text{E}[X]^2=3,5^2=12,25)

E pela equação (10):

\text{Var}[X]=\text{E}[X^2]-\text{E}[X] ^2=15,17-12,25=2,92

Podemos fazer o mesmo cálculo no Scilab dados quaisquer vetores x e p. Usando o comando diag(x) constrói-se uma matriz quadrada só com zeros, exceto pelo traço, que é preenchido pelo vetor x. O produto desta matriz pelo próprio x gera um vetor linha com o quadrado do número de cada célula de x na mesma posição. Ou seja, se \bold{x}=[1,...,6]^{\text{t}}, \text{diag}(\bold{x})*\bold{x}=[1^2,...,6^2], como pode-se verificar abaixo:

–>diag(x)
ans =

1. 0. 0. 0. 0. 0.
0. 2. 0. 0. 0. 0.
0. 0. 3. 0. 0. 0.
0. 0. 0. 4. 0. 0.
0. 0. 0. 0. 5. 0.
0. 0. 0. 0. 0. 6.

–>diag(x)*x
ans =

1.
4.
9.
16.
25.
36.

Para obter \text{E}[X^2] basta multiplicar este vetor pelo p:

–>Eq=(diag(x)*x)’*p
Eq =

15.166667

E para calcular a variância subtraímos este valor do quadrado do valor esperado:

–>Var=Eq-E^2
Var =

2.9166667

Repetindo: conhecendo os momentos de 1ª e 2ª ordem com relação à origem (\text{E}[X] e \text{E}[X^2]) é possível obter a variância (\text{E}[X^2]-\text{E}[X]^2), um momento central de 2ª ordem.

As propriedades básicas da variância seguem abaixo:

i’) Se c é uma constante, então \text{Var}[c]=0. Prova: \text{Var}[c]=\text{E}[c^2]-\text{E}[c]^2=c^2-c^2=0 (Pela equação (10) e pela propriedade i) do valor esperado);
ii’) Se X e Y são duas variáveis aleatórias independentes: \text{Var}[X\pm Y]=\text{Var}[X]+\text{Var}[Y]. Prova:
\text{Var}[ X\pm Y]=\text{E}\left[(X\pm Y)^2\right]-\text{E}[X\pm Y]^2 \\  \text{Var}[ X\pm Y]=\text{E}\left[X^2\pm 2XY+Y^2\right]-(\text{E}[X]\pm \text{E}[Y])^2 \\  \text{Var}[ X\pm Y]=\text{E}[X^2]\pm \text{E}[2XY]+\text{E}[Y^2]-\text{E}[X]^2\mp 2\text{E}[X] \text{E}[Y]- \text{E}[Y]^2 \\  \text{Var}[ X\pm Y]=\text{E}[X^2]\pm 2\text{E}[X]\text{E}[Y]+\text{E}[Y^2]-\text{E}[X]^2\mp 2\text{E}[X] \text{E}[Y]- \text{E}[Y]^2 \\  \text{Var}[ X\pm Y]=\text{E}[X^2]-\text{E}[X]^2+\text{E}[Y^2]-\text{E}[Y]^2=\text{Var}[X]+ \text{Var}[Y]

Obs. 6: Observe que a variância da subtração de duas variáveis aleatórias independentes é também a soma da variância das duas. Essa equação lembra a fórmula de propagação de erros para a soma, muito usada em química analítica. Se X=A\pm B, sendo A e B duas variáveis aleatórias, temos que \text{Var}[X]=\text{Var}[A]+\text{Var}[B], ou em termos dos desvios médios quadráticos (equação (6)): \Delta x^2=\Delta a^2+\Delta b^2.

iii’) \text{Var}[cX]=c^2\text{Var}[X]. Prova: \text{Var}[cX]=\text{E}\left[(cX)^2\right]-\text{E}[cX]^2=\text{E}[c^2X^2]-\left(c\text{E}[X]\right)^2=c^2\text{E}[X^2]-c^2\text{E}[X]^2=c^2\text{Var}[X]. Esta propriedade, em associação com a i’) leva a seguinte relação: \text{Var}[aX+b]=a^2\text{Var}[X];

Obs. 7: Para o erro do produto de A e B, ou seja, se X=A\cdot B, considere que \text{Var}[X]=\Delta x^2 e que \text{E}[X]=x, \text{E}[A]=a e \text{E}[B]=b. Tendo em mente que a grandeza X/\text{E}[X] = X/x tem variância \text{Var}[X]/x^2=\Delta x^2/x^2:

\displaystyle\frac{\Delta x^2}{x^2}=\frac{\text{Var}[X]}{x^2}=\frac{\text{Var}[A\cdot B]}{\text{E}[A\cdot B]^2}=\frac{\text{E}[(A\cdot B)^2]-\text{E}[A\cdot B]^2}{\text{E}[A\cdot B]^2}=\frac{\text{E}[(A\cdot B)^2]}{\text{E}[A\cdot B]^2}-1=\frac{\text{E}[A^2\cdot B^2]}{\text{E}[A\cdot B]^2}-1=\frac{\text{E}[A^2] \text{E}[B^2]}{\text{E}[A]^2\text{E}[B]^2}-1
\displaystyle\frac{\Delta x^2}{x^2}=\displaystyle\left(\frac{\text{E}[A^2]}{ \text{E}[A]^2}\right)\left(\frac{\text{E}[B^2]}{\text{E}[B]^2}\right)-1\qquad(\text{I})

Fazendo algo similar com as variáveis A e B:

\displaystyle\frac{\Delta a^2}{a^2}=\frac{\text{Var}[A]}{a^2}=\frac{\text{E}[A^2]-\text{E}[A]^2}{\text{E}[A]^2}=\frac{\text{E}[A^2]}{\text{E}[A]^2}-1
\displaystyle\frac{\text{E}[A^2]}{\text{E}[A]^2}=1+\frac{\Delta a^2}{a^2}\qquad(\text{II})
\displaystyle\frac{\Delta b^2}{b^2}=\frac{\text{Var}[B]}{b^2}=\frac{\text{E}[B^2]-\text{E}[B]^2}{\text{E}[B]^2}=\frac{\text{E}[B^2]}{\text{E}[B]^2}-1
\displaystyle\frac{\text{E}[B^2]}{\text{E}[B]^2}=1+\frac{\Delta b^2}{b^2}\qquad(\text{III})

Substituindo as equações (II) e (III) na (I):

\displaystyle\frac{\Delta x^2}{x^2}=\left(\frac{\text{E}[A^2]}{ \text{E}[A]^2}\right)\left(\frac{\text{E}[B^2]}{\text{E}[B]^2}\right)-1=\left[1+\left(\frac{\Delta a}{a}\right)^2\right] \left[1+\left(\frac{\Delta b}{b}\right)^2\right]-1
\displaystyle\frac{\Delta x^2}{x^2}=1+\left(\frac{\Delta a}{a}\right)^2+\left(\frac{\Delta b}{b}\right)^2+\left(\frac{\Delta a}{a}\right)^2\left(\frac{\Delta b}{b}\right)^2-1
\displaystyle\frac{\Delta x^2}{x^2}=\left(\frac{\Delta a}{a}\right)^2+\left(\frac{\Delta b}{b}\right)^2+\left(\frac{\Delta a}{a}\right)^2\left(\frac{\Delta b}{b}\right)^2\qquad(\text{IV})

Se a>>\Delta a e b>>\Delta b, as frações (\Delta a/a)^2 e (\Delta b/b)^2 são próximas a zero, de modo que se ao se chegar ao limite desta aproximação, o primeiro termo a ser aproximadamente zero é o produto das duas grandezas pequenas, isto é, (\Delta a/a)^2(\Delta b/b)^2 \approx 0. Logo:

\displaystyle\frac{\Delta x^2}{x^2} \approx \left(\frac{\Delta a}{a}\right)^2+\left(\frac{\Delta b}{b}\right)^2\qquad(\text{V})

Ou seja, como constatado por Goodman, a fórmula (V) é aproximada e leva a menores valores de variância do produto de duas variáveis aleatórias (independentes) que a equação exata (IV). Para mais detalhes sobre a propagação de erros ver wikipédia. Uma dedução mais formal da equação de Goodman (equação (IV)) pode ser encontrada no artigo do Frishman. Observe que ao usar a propriedade \text{E}[A\cdot B]=\text{E}[A]\text{E}[B] assumimos que A e B são estatisticamente independentes, de modo que a equação (IV) só vale para este caso, sendo um caso particular referente ao mais geral, isto é, variância de produto de duas variáveis aleatórias quaisquer, levando a equações que envolvem covariância.

A estas alturas do campeonato é útil definir uma variável adimensional z chamada escore z (ou escore padronizado, ou escore padrão) com valor esperado 0 e variância 1:

Z=\displaystyle\frac{X-\text{E}[X]}{\Delta x}=\frac{\Delta X}{\Delta x}\qquad(12)

Pois \text{E}[Z]=(1/\Delta x)\text{E}[\Delta X] pela propriedade ii-a) em conjunção com a i), e com a iii)(\text{E}[\Delta X]), e portanto \text{E}[Z]=0. Já \text{Var}[Z]=(1/\Delta x)^2\text{Var}[X-\text{E}[X]] pela propriedade iii’). Pela propriedade ii’): \text{Var}[Z]=(1/\Delta x)^2\{ \text{Var}[X]+\text{Var}[\text{E}[X]]\}. Como \text{E}[X] é uma constante, pela propriedade i’) sua variância é nula, e como \Delta x^2=\text{Var}[X], temos que \text{Var}[Z]=\text{Var}[X]/\text{Var}[X]=1.
O escore z (ou escore padronizado) é importante porque é invariante na escala (assim como o coeficiente de correlação). Ou seja, mudar a escala dos valores de x (multiplicando por uma constante k, por exemplo) não altera a variável z e sua distribuição.

Z(kx)=\displaystyle\frac{kX-\text{E}[kX]}{\sqrt{\text{Var}[kX]}}=\frac{kX-k\text{E}[X]}{\sqrt{k^2\text{Var}[X]}}=\frac{ kX-k\text{E}[X]}{k\sqrt{\text{Var}[X]}}=\frac{kX-k\text{E}[X]}{k\Delta x}=\frac{X-\text{E}[X]}{\Delta x}=Z(x)

A variância correspondente a função f(X) é dada pela expressão abaixo:

\text{Var}[f(X)]=\text{E}[f(X)^2]-\text{E}[f(X)]^2\qquad(12)

————————————————————————————————————————

Momento de inércia

Como foi feita uma analogia entre o centro de massa de um conjunto de k partículas distribuídas em um espaço p dimensional, podemos ir além e associar o momento de inércia deste conjunto à variância de uma variável aleatória discreta. O momento de inércia (I) neste caso é definido como:

I=\displaystyle\sum_{i}m_ir_i^{2}

Em que r_i é a distância da massa i até o centro de massa. O momento de inércia (observe que não é um vetor, como o centro de massa) é o equivalente a massa na expressão da energia cinética translacional, só que na energia cinética rotacional. Enquanto a massa está relacionada à inércia translacional do objeto, I está relacionada à inércia rotacional, de modo que quanto maior a massa ou o momento de inércia maior as energias translacionais e rotacionais, respectivamente, para valores fixos de velocidade (ou momento) linear e angular.
A distância euclidiana entre dois vetores está relacionada com a diferença entre as coordenadas dos mesmos. Ou seja, se temos um vetor \bold{x}_i, referente ao vetor que representa as coordenadas da partícula i, e queremos saber a distância entre o mesmo e outro vetor \langle \bold{x}\rangle, o vetor do centro de massa (que vimos anteriormente estar associado ao valor esperado, por isso os colchetes angulares), a distância entre eles é r_i=\sqrt{(\bold{x}_i-\langle \bold{x}\rangle)^2}. Substituindo esta relação na expressão para o momento de inércia:

I= \displaystyle\sum_{i}m_i(\bold{x}_i-\langle \bold{x}\rangle)^2

No produto direto (ou escalar) entre dois vetores \bold{x} e \bold{y} é \bold{x}^{\text{t}}\bold{y} ou \bold{y}^{\text{t}}\bold{x}, de maneira que um vetor linha seja multiplicado por um vetor coluna. Quando \bold{x}=\bold{y}, o produto \bold{x}^{\text{t}}\bold{x}=\bold{x}^2 é a soma do quadrado das coordenadas do vetor. Estes argumentos são considerados no desenvolvimento da expressão acima:

I=\displaystyle\sum_{i}m_i(\bold{x}_i-\langle \bold{x}\rangle)^2=\sum_{i}m_i(\bold{x}_i^{\text{t}}\bold{x}_i-2\bold{x}_i^{\text{t}}\langle \bold{x}\rangle + \langle \bold{x}\rangle^{\text{t}}\langle \bold{x}\rangle)

I=\displaystyle\sum_{i}m_i(\bold{x}_i^2-2\bold{x}^{\text{t}}\langle \bold{x}\rangle+\langle \bold{x}\rangle^2)

I=\displaystyle\sum_{i}m_i\bold{x}_i^2-2\sum_{i}m_i\bold{x}_i^{\text{t}}\langle \bold{x}\rangle+\sum_{i}m_i\langle \bold{x}\rangle^2

Considerando que \langle \bold{x}\rangle independe de i, pode-se retirá-lo dos somatórios:

I=\displaystyle\sum_{i}m_i\bold{x}_i^2-2\langle \bold{x}\rangle\sum_{i}m_i\bold{x}_i+\langle \bold{x}\rangle^2\sum_{i}m_i

Lembrando que \langle \bold{x}\rangle=\displaystyle\frac{1}{M}\sum_{i}m_i\bold{x}_i e que \displaystyle\sum_{i}m_i=M (com derivado neste post):

I=\displaystyle\sum_{i}m_i\bold{x}_i^2-2M\langle \bold{x}\rangle^2+M\langle \bold{x}\rangle^2=\sum_{i}m_i\bold{x}_i^2-M\langle\bold{x}\rangle^2

Dividindo por M:

\displaystyle\frac{I}{M}=\sum_{i}(m_i/M)\bold{x}_i^2-\langle \bold{x}\rangle^2

Ora, o somatório na expressão acima é o momento ordinário de segunda ordem de \bold{x}, ou seja, \langle \bold{x}^2\rangle:

I=M\left[\displaystyle\sum_{i}(m_i/M)\bold{x}_i^2-\langle \bold{x}\rangle^2  \right]=M\left[\langle\bold{x}^2\rangle-\langle\bold{x}\rangle^2\right]

Ou seja, aparentemente o momento de inércia é proporcional a variância. Ou seja, mais dispersões os pontos de massa em torno do centro de massa, maior a variância, e consequentemente maior o momento de inércia (maior “massa rotacional”). Perfeitamente razoável do ponto de vista físico. Porém, observem que na dedução acima em não escrevi I=M\text{Var}[X], pois X é uma variável aleatória que pode assumir um de muitos valores, e não vários ao mesmo tempo. Em outras palavras, ela não é um vetor, e a grandeza análoga à variância deduzida acima gira em torno de distribuição de pontos ao redor do centro de massa no espaço (obtido para uma dimensão p qualquer, embora só “vejamos” até 3 dimensões). Ou seja, a menos que definamos algo como um vetor aleatório ou algo assim, que pode assumir todas as possíveis combinações de coordenadas no espaço p-dimensional escolhido, a analogia entre momento de inércia e variância só vale caso consideremos um segmento linear com pontos de massa ao longo dele, de modo que o vetor \bold{x} passa a ser um escalar x, podendo este ser relacionado com uma variável aleatória X, e termos a expressão abaixo:

I=M\left[\langle\bold{x}^2\rangle-\langle\bold{x}\rangle^2\right]= M\left[\langle x^2\rangle-\langle x\rangle^2\right]=M\text{Var}[X]

A mesma restrição vale para a relação entre o valor esperado e o centro de massa (ou seja, a analogia só vale para p=1). Analogias são poderosas e permitem cruzarmos fronteiras na ciência, mas acho importante delimitarmos explicitamente as fronteiras das analogias possíveis de se detectar, e por isso tentei explicitá-la usando este exemplo.

Advertisements
This entry was posted in Geral. Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s