Variáveis aleatórias – O básico – Parte 1 (Discretas/Valor esperado)

Atualizado: (11/07/14 = acréscimo no final)

Pontos principais do post: Aprender a calcular valor esperado e variância de variáveis aleatórias e discretas. Este tipo de conhecimento é bastante útil para quem trabalha com mecânica quântica e termodinâmica estatística, além de fenômenos físicos estocásticos, como o movimento browniano.

Olá pessoal. Venho por meio deste post falar de alguns conceitos que podem ser úteis dependendo da(s) área(s) da Química(s) que vocês dedicam seus esforços. Mas tenho especialmente em mente que, aos interessados em termodinâmica estatística, teoria cinética dos gases e movimento browniano, alguns posts posteriores podem ser um pouco difíceis de acompanhar sem um mínimo de revisão ou espaço para definições de certos termos e derivações de certas equações. Portanto, aqui estou e espero que gostem.

Primeiro de tudo, vamos do básico. Uma variável aleatória (e aqui usarei o símbolo X para me referir a ela) é uma variável que pode assumir um valor (neste caso x_i), com uma probabilidade p_i (cujas propriedades reviso no post Probabilidade – O básico).

Obs. 1: Em alguns livros mais antigos variáveis aleatórias às vezes são descritas pelo símbolo \xi e, muito embora eu goste bastante dele, observei que não é a tendência atual. Usa-se uma letra romana maiúscula em itálico, como X, para representar a variável aleatória, e a correspondente minúscula para os possíveis valores que ela pode assumir, como x_1, x_2,… . Para mais informações consultar: http://jeff560.tripod.com/stat.html e
http://en.wikipedia.org/wiki/Notation_in_probability_and_statistics)

Variáveis aleatórias discretas

Uma variável aleatória discreta só pode assumir um número finito (enumerável) de valores x_1, x_2,…, x_k, estes com probabilidades p_1, p_2,…, p_k. Um exemplo prático comum é o de um dado idealizado (não-viciado) de 6 lados, para jogadores de RPG, onde cada um dos números de 1 a 6 tem a probabilidade de 1/6 de ser sorteado num lançamento. Se definirmos os vetores \textbf{x} e \textbf{p}, de modo que:

\textbf{x}=\left[\begin{array}{ccc} x_1 \\ x_2 \\ ... \\ x_k\end{array}\right]

\textbf{p}=\left[\begin{array}{ccc} p_1 \\ p_2 \\ ... \\ p_k\end{array}\right]

No caso do dado estes vetores são:

\textbf{x}=\left[\begin{array}{ccc} 1 \\ 2 \\ 3 \\ 4 \\ 5 \\ 6\end{array}\right]

\textbf{p}=\left[\begin{array}{ccc} 1/6 \\ 1/6 \\ 1/6 \\ 1/6 \\ 1/6 \\ 1/6\end{array}\right]

No Scilab eu posso defini-los usando os seguintes comandos (em negrito; o resto é o output ou resultado do programa, exceto o que vem depois de “//” – em itálico -, que são comentários para quem não sabe usar o Scilab ainda):

–>x=[1:6]’//Produz um vetor-linha com números de 1 a 6 (função do “:”) e depois transpões para vetor-coluna (função do ” ‘ “)
x =

1.
2.
3.
4.
5.
6.

–>p=(1/6)*ones(6,1)//Produz um vetor-coluna com 6 linhas, cada uma com o número 1 (função do “ones(6,1), e depois multiplica pelo escalar 1/6

p =

0.1666667
0.1666667
0.1666667
0.1666667
0.1666667
0.1666667

A probabilidade de que X assuma o valor x_i, descrita anteriormente como p_i, por vezes é escrita desta maneira: P_X(x_i)=\text{P}\{X=x_i\}.
As probabilidades, além de obedecerem às propriedades básicas tais como se situar entre 0 e 1, também obedecem à condição de normalização. Isto é:

\displaystyle\sum_{x=-\infty}^{x=+\infty}P_X(x)=1\qquad(1)

Que reflete o bom senso, já que X deve assumir pelo menos um dos valores de x, e como os eventos x_i são mutuamente excludentes (isto é, só podem ocorrer um por vez, por assim dizer, a cada sorteio para determinar o valor de X), então a probabilidade de ocorre pelo menos 1 deles, dada pela soma das probabilidades de todos os possíveis eventos, é 1 (ou 100% = certeza absoluta). Caso tenha dúvidas sobre quando somar ou multiplicar probabilidades consultar o post Probabilidade – O básico.
Na notação vetorial de anteriormente, podemos dizer que \textbf{1}^{\text{t}}\textbf{p}=1 (em que \textbf{1} é um vetor coluna com o número k de 1’s = mesmo número de colunas de p) .
Se plotarmos os valores de p em função dos de x para o caso do dado observa-se um gráfico tal como obtive através do Scilab:

–>plot(x,p,’*’)// Plota um gráfico dos vetores x e p como asteriscos

–>xtitle(“Grafico de p em função de x para dado ideal”,”x”,”p”) // Coloca título do gráfico e legendas dos eixos x e y

–>replot([0,0,7,0.35]) //Ajusta os valores mínimos e máximos do gráfico

1

Este gráfico mostra a distribuição de probabilidade discreta associada à variável aleatória X, que neste caso é o número obtido num lançamento do dado. Dois parâmetros são importantes na descrição de distribuições probabilísticas: o valor esperado (ou esperança matemática ou valor médio) e a variância. O primeiro parâmetro tem haver com a tendência central dos valores de x, enquanto que o segundo tem haver com a dispersão dos valores de x em torno do valor esperado.
Primeiro analisemos a por vezes chamada esperança matemática (\text{E}). Calcula-se este parâmetro de uma variável aleatória (\text{E}[X]) com certa distribuição de probabilidade discreta através da seguinte equação:

\text{E}[X]=\langle x \rangle=\displaystyle\sum_{x=-\infty}^{x=+\infty}xP_X(x)

Como só podemos ter valores discretos x_1, x_2,…, x_k, a probabilidade de ocorrência de outros valores é zero, e a equação acima pode ser arranjada na seguinte forma:

\text{E}[X]=\langle x \rangle=\displaystyle\sum_{i=1}^{k}x_iP_X(x_i)\qquad(2)

Note que a condição de normalização fica \displaystyle\sum_{i=1}^{k}P_X(x_i)=1.

Obs. 2: Em física e química é bastante comum usar a \langle x \rangle ou \bar{x} ao invés de \text{E}[X], aludindo mais ao valor esperado dentre os possíveis valores de x do que à variável aleatória em si, X. Ambos são mais práticos, e usarei com mais freqüência em outros posts os parênteses angulares (\langle\ \rangle), pois reservo ao \bar{x} o símbolo de média amostral mais pra frente. Neste post será mais comum usar E[variável aleatória] para simbolizar o valor esperado.

Para o caso do dado, considerando que a probabilidade de que ele mostre números além de 1, 2, 3, 4, 5 e 6 é zero, só precisamos nos preocupar com estes valores de x xe suas respectivas probabilidades para calcular o valor esperado:

\text{E}[X]=1\cdot\displaystyle\frac{1}{6}+2\cdot\displaystyle\frac{1}{6}+3\cdot\displaystyle\frac{1}{6}+4\cdot\displaystyle\frac{1}{6}+5\cdot\displaystyle\frac{1}{6}+6\cdot\displaystyle\frac{1}{6}=\displaystyle\frac{1}{6}\cdot (1+2+3+4+5+6)= \displaystyle\frac{21}{6}=\displaystyle\frac{7}{2}=3,5

Para calcular o valor esperado (\textbf{e}) no Scilab basta multiplicar apropriadamente os vetores \textbf{x} e \textbf{p} (\textbf{e}=\textbf{x}^{\text{t}}\textbf{p}=\textbf{p}^{\text{t}}\textbf{x}):

–>e=x’*p// Multiplica o vetor x transposto pelo vetor p
e =

3.5

Bom, qual é o significado do valor esperado? E daí conhecer o valor 3,5 obtido para o caso do dado? Bom, levando em consideração que os primórdios da teoria das probabilidades vieram de jogos de azar (ver artigo sobre Girolamo Cardano baixando aqui: Cardano), nada mais justo pensar numa analogia desta ordem para o jogo de dados. Suponha que o número que cai do dado é quanto ganhamos em reais. Ou seja, se o dado der 1, ganha-se R$ 1,00, se cair 2, ganha-se R$ 2,00, e assim por diante. O valor esperado neste caso mostra uma maneira de saber de antemão qual o lucro (ou prejuízo, dependendo do caso) que tenho ao misturar meu ganho financeiro com probabilidades. Uma maneira comum de representar este tipo de problema é através das árvores de decisão ou de probabilidade, cujos galhos são podados para mostrar o ganho líquido associado a vários valores (neste caso o dinheiro ganho para cada face do dado) e a probabilidade da ocorrência de cada um:

2

Esse tipo de árvore tem especial utilidade quando se trata de decisões em que sabemos o ganho ou perda associado a cada uma delas e o elemento probabilístico parece nublar nosso discernimento (daí o nome “árvores de decisão”). Em outras palavras, permite-nos verificar se o certo é realmente melhor que o duvidoso para cada caso. Vou dar dois exemplos para fixar como usar estas árvores. Um é de cunho histórico e ficará como um mini-Apêndice 1 (Aposta de Pascal) e o segundo reflete uma situação baseada em fatos reais (e usa dados reais) onde se quer saber se deve-se trocar o certo pelo duvidoso.

Exemplo:

Digamos que você tem um emprego ou uma bolsa que lhe fornece uma remuneração fixa de R$ 1200,00 por mês. Um concurso público (admissão imediata por causa de greve ilegal dos antigos funcionários, por exemplo) bate a sua porta, e você precisa parar tudo para se dedicar a ele, estudando tanto quanto possível. Seu trabalho impede que isso aconteça, e você tem que escolher entre largar o emprego (juntando umas economias antes) e passar um ou dois meses estudando direto. Tenho certeza que você dificilmente faria isso. Deixaria de dormir para estudar no lugar, mas não jogaria algo certo fora (acho que eu mesmo não faria isso). Mas podemos usar as árvores de decisão para tentar verificar numericamente se devemos tomar esta decisão ou não. O vencimento (salário do servidor público) no cargo que você concorre (e com todos os adicionais de titulação e outros possíveis) é R$ 3980,00. Agora precisa-se estimar a probabilidade de você passar no concurso. Isso pode ser um pouco subjetivo, mas vamos usar o bom senso. Primeiro precisamos saber o número de candidatos por vaga. Este dado sai depois do concurso, mas digamos que você fez um levantamento ao longo dos anos, e encontrou um valor de 58,5 candidatos por vaga em média. Se sua aprovação fosse unicamente devida ao acaso, a probabilidade de você passar seria de 1/58,5 = 0,017, ou 1,7%. Muito baixa, mas nos dá um limite inferior. Digamos que das tantas pessoas que se inscreveram um percentual de 20% não estudou nada, 40% estudaram pouco e outros 40% estudaram bastante, como você pretende fazer. Então você concorre com estes 40% dos estudiosos mais ou menos em pé de igualdade, de modo que o que decide quem passa é paciência, sorte nas questões do teste, e uma série de outros fatores que digamos que sejam aleatórios. Isso quer dizer que sua probabilidade, ao invés de 1/58,5 é algo em torno de 1/23,4 (58,5×0,4=23,4), sendo igual a 0,043, ou 4,3%. Ok, o vencimento é maior que seu salário, mas a probabilidade de você passar parece baixa. O que fazer? Uma árvore de decisão ajuda. O salário que você recebe é 100% garantido, e o vencimento do concurso tem um valor líquido que você ainda está por determinar. Digamos que o dinheiro que você gasta na inscrição não seja considerado. Se você passa no concurso (com probabilidade de 0,043), ganha R$ 3980,00 por mês. Se não passar (com probabilidade de 1-0,043 = 0,957), você não ganha nada, e fica desempregado. Ou seja, temos a seguinte árvore abaixo, onde calculamos o valor esperado no ramo do concurso:

3

Aqui obviamente a melhor escolha é ficar com seu emprego mesmo, o que muitos de vocês achariam óbvio neste caso, com uma probabilidade tão baixa de sucesso. Mas a pergunta é: vocês saberiam que é tão baixa de antemão, sem pensar com calma no assunto? Neste caso é bem imediata a decisão mesmo sem árvores de decisão, isso porque a probabilidade de aprovação, de acordo com as considerações acima, é muito baixa. Mas quis mostrar um exemplo com dados reais pra ficar mais interessante de ler, do que exemplos idealizados. E você que se sente esperto pra tomar decisões sem precisar dessa racionalização, responda rápido: você prefere ganhar 25 reais “na lata” (de antemão), ou jogar cara ou coroa, de modo que se der cara você ganha 100 reais e se der coroa você perde 50? Pelos cálculos tanto faz, certo? Errado! Depende de quem escolheu a moeda do sorteio. Ninguém garantiu que a moeda não era viciada!

——————————————————————————————————————–

Aposta de Pascal

Blaise Pascal foi um matemático/físico/filósofo francês que trouxe grandes contribuições para a teoria das probabilidades. Uma delas foi trazer a idéia de esperança matemática por meio do que hoje é chamada de aposta de Pascal. Ele era bastante religioso, e como um grande pensador, não pôde deixar de tentar misturar um pouco de argumentação lógica com a crença em Deus. Argumentos ontológicos procuram justificar a existência de Deus por meio de uma lógica. Descartes, por exemplo, forneceu um famoso argumento ontológico. Pascal, por outro lado, usa um argumento baseado no bom senso de um jogo de aposta. Você pode apostar que Deus existe, ou não. Para cada uma dessas possibilidades, Deus de fato pode existir ou não, com uma certa probabilidade. O ganho que você tem por acreditar ou não é o que determinaria se é sensato ou não acreditar Nele. Para colocar de maneira mais formal (um pouco simplificada e desprovida de argumentos morais): se você acredita em Deus e Ele existe seu ganho é infinito (\infty), a glória eterna; se você acredita e Ele não existe seu ganho (ou perda) é a; se você não acredita e Ele existe você tem um lucro ou perda b; e se você não acredita e Ele não existe você tem um ganho ou prejuízo de c (em todos os casos não especifico se a, b e c são positivos ou negativos, isto é, se são vantajosos ou não, para tirar um pouco da subjetividade neste ponto). A probabilidade de Deus existir é p (p\neq 0) e, obviamente, a Dele não existir, 1-p. Se fizermos uma árvore de decisão para este caso, temos algo do tipo:

4

Contanto que a, b e c sejam finitos e p\neq 0, o esquema acima mostra que é mais conveniente (se é que se pode usar este termo) acreditar em Deus, pois qualquer valor de x (finito) será inferior a um ganho infinito. Há argumentações lógicas contra esta forma de pensar, e procurando bastante encontrei este endereço com várias referências, bastante acadêmico, sobre a aposta de Pascal e algumas destas argumentações: http://plato.stanford.edu/entries/pascal-wager/index.html#3. Eu tenho uma em particular: qualquer entidade que ofereça “ganho infinito” da mesma forma que acima leva ao mesmo resultado ou decisão. Considerando que geralmente se escolhe uma crença para seguir, a abordagem acima não permitiria escolher em quais entidades acreditar. Mas é só uma divagação. Este é um blog acadêmico, e portanto só tento colocar aqui argumentos baseados no raciocínio (dedutivo, indutivo, …), não sendo o lugar para se discutir religião e fé. Mas é uma curiosidade instrutiva que quis trazer pra vocês da maneira mais acadêmica possível (afinal, o autor tem suas próprias crenças não necessariamente baseadas em lógica, que não cabem no presente blog). Espero que tenham gostado.

——————————————————————————————————————–

Pela forma da esperança matemática e pela condição de normalização (equação (1)) pode-se observar que a equação (2) pode ser expressa da seguinte forma:

\text{E}[X]=\langle x \rangle=\displaystyle\sum_{i=1}^{k}x_iP_X(x_i)=\displaystyle\frac{\displaystyle\sum_{i=1}^{k}x_iP_X(x_i)}{\displaystyle\sum_{i=1}^{k}P_X(x_i)}\qquad(3)

Ou seja, a o valor esperado de um conjunto x é simplesmente a média dos valores que o compões tendo as probabilidades de ocorrência de cada um como pesos. Essa constatação leva a uma interessante analogia física do valor esperado com o centro de massa num segmento linear, e que gostaria de compartilhar com vocês, embora a ausência deste conhecimento seja, talvez, aceitável. Por isso coloco como um mini-Apêndice. Se não tiver interesse, pule.

——————————————————————————————————————–

Valor esperado de variável aleatória discreta e centro de massa

Considere que ao longo de um eixo ou linha uma série de pontos de massa m_1, m_2,… , m_k são dispostos nas posições x_1, x_2,… , x_k. Objetos reais podem ser considerados pontos de massa se suas dimensões forem muito inferiores a do eixo de comprimento L. O centro de massa (c.m.) ao longo deste segmento é dado pela seguinte equação:

c.m.=\displaystyle\frac{\displaystyle\sum_{i=1}^{k}x_i m_i}{\displaystyle\sum_{i=1}^{k}m_i}=\displaystyle\frac{\displaystyle\sum_{i=1}^{k}x_i m_i}{M}

Em que M é a massa total. Como o denominador é uma constante, pode ser englobada pelo somatório do numerador:

c.m.=\displaystyle\frac{\displaystyle\sum_{i=1}^{k}x_i(m_i/M)}{1}=\displaystyle\frac{\displaystyle\sum_{i=1}^{k}x_i(m_i/M)}{ \displaystyle\sum_{i=1}^{k}(m_i/M)}

Em que m_i/M é a massa do ponto localizado na posição x_i em relação à massa total, e naturalmente que a soma de todas essas massas relativas equivale a 1. Observe que a expressão acima tem a mesma forma da equação (3). Ou seja, pode-se interpretar o valor esperado como um análogo a um centro de massa probabilístico, em as massas relativas são as probabilidades de ocorrência em diferentes posições x, análogas aos possíveis valores que a variável aleatória pode assumir.
O centro de massa pode ser obtido quando as massas pontuais são dispostas em mais de uma dimensão. O valor de x_i, que é o valor da coordenada da i-ésima massa pontual m_i, é substituído por um vetor \textbf{x}_i de dimensão p, com as coordenadas da massa i-ésima para cada uma das p dimensões escolhidas (naturalmente que na prática só vamos até p=3). Desta vez o centro de massa não é um valor só, referente a um único eixo, mas um vetor cujas coordenadas indicam o centro de massa (\textbf{c.m.}) no espaço p-dimensional. Cada coordenada indica o centro de massa em relação a um eixo, de modo que (considerando x_{jk} a coordenada da massa k no eixo j):

\textbf{c.m.}=\left[\begin{array}{ccc} \displaystyle\sum_{i=1}^{k}(m_i/M)x_{1i}\\ \displaystyle\sum_{i=1}^{k}(m_i/M)x_{2i} \\ ... \\  \displaystyle\sum_{i=1}^{k}(m_i/M)x_{pi}\end{array}\right]=\left[\begin{array}{ccc} \displaystyle\frac{m_1 x_{11}}{M}+\frac{m_2 x_{12}}{M}+...+\frac{m_k x_{1k}}{M}\\ \\ \displaystyle\frac{m_1 x_{21}}{M}+\frac{m_2 x_{22}}{M}+...+\frac{m_k x_{2k}}{M} \\ ... \\  \displaystyle\frac{m_1 x_{p1}}{M}+\frac{m_2 x_{p2}}{M}+...+\frac{m_k x_{pk}}{M}\end{array}\right]

\textbf{c.m.}=\left[\begin{array}{ccc} \displaystyle\frac{m_1x_{11}}{M}\\ \\ \displaystyle\frac{m_1x_{21}}{M} \\ ... \\ \displaystyle\frac{m_1x_{p1}}{M}\end{array}\right]+\left[\begin{array}{ccc} \displaystyle\frac{m_2x_{12}}{M}\\ \\ \displaystyle\frac{m_2x_{22}}{M} \\ ... \\ \displaystyle\frac{m_2x_{p2}}{M}\end{array}\right]+...+\left[\begin{array}{ccc} \displaystyle\frac{m_kx_{1k}}{M}\\ \\ \displaystyle\frac{m_kx_{2k}}{M} \\ ... \\ \displaystyle\frac{m_kx_{pk}}{M}\end{array}\right]

\textbf{c.m.}=\displaystyle\frac{m_1}{M}\left[\begin{array}{ccc} x_{11}\\ x_{21} \\ ... \\ x_{p1}\end{array}\right]+\displaystyle\frac{m_2}{M}\left[\begin{array}{ccc} x_{12}\\ x_{22} \\ ... \\ x_{p2}\end{array}\right]+...+ \displaystyle\frac{m_k}{M}\left[\begin{array}{ccc} x_{1k}\\ x_{2k} \\ ... \\ x_{pk}\end{array}\right]

\textbf{c.m.}=\displaystyle\frac{m_1}{M}\textbf{x}_1+\frac{m_2}{M}\textbf{x}_2+...+\frac{m_k}{M}\textbf{x}_k=\displaystyle\sum_{i=1}^{k}=(m_i/M)\textbf{x}_i

(naturalmente que se só há uma coordenada, o vetor \textbf{x}_i só tem um elemento x_i, coordenada da massa m_i nesta única dimensão, como mostrado no caso do segmento linear).
O rearranjo acima serve para mostrar a equação unidimensional do centro de massa como um caso particular para o centro de massa em p dimensões, ambas apresentando a mesma forma. Obviamente que o arranjo matricial acima facilita bastante a obtenção do centro de massa no Scilab, o que pode ser tema de outro post (provavelmente sobre cálculo de funções de partição molecular em termodinâmica estatística).

——————————————————————————————————————–

Algumas propriedades inerentes ao cálculo do valor esperado de uma variável aleatória discreta são apresentados abaixo:

i) Se c é uma constante, \text{E}[c]=c. Prova: Pela definição de valor esperado: \text{E}[c]=\displaystyle\sum_{i=1}^{k}cP_X(x_i)=c\displaystyle\sum_{i=1}^{k}P_X(x_i), e pela condição de normalização \displaystyle\sum_{i=1}^{k}P_X(x_i)=1, de modo que \text{E}[c]=c\cdot 1 = c.
ii) Sejam duas variáveis aleatórias discretas X e Y estatisticamente independentes, temos que:
ii-a) \text{E}[X\pm Y]=\text{E}[X]\pm \text{E}[Y]. Prova: pela definição de valor esperado e considerando que, por serem estatisticamente independentes, a probabilidade resultante de X e Y (ocorrência de x_i em X ou y_j em Y) é o produto de P_X(x_i) por P_Y(y_j):

\text{E}[X\pm Y]=\displaystyle\sum_{i=1}^{k}\sum_{j=1}^{l}(x_i\pm y_j)P_X(x_i) P_Y(y_j)=\displaystyle\sum_{i=1}^{k}\sum_{j=1}^{l}x_iP_X(x_i) P_Y(y_j)\pm \displaystyle\sum_{i=1}^{k}\sum_{j=1}^{l}y_jP_X(x_i)P_Y(y_j)
\text{E}[X\pm Y]=\displaystyle\sum_{i=1}^{k}x_iP_X(x_i) \sum_{j=1}^{l}P_Y(y_j) \pm \displaystyle\sum_{j=1}^{l}y_jP_Y(y_j) \sum_{i=1}^{k}P_X(x_i)
\text{E}[X\pm Y]=\text{E}[X]\pm \text{E}[Y]

Mais uma vez usando a condição de normalização: \displaystyle\sum_{i=1}^{k}P_X(x_i)=\displaystyle\sum_{j=1}^{l}P_Y(y_j)=1. Da propriedade ii-a) decorre, junto com a i), que \text{E}[X+c]=\text{E}[X]+c.

ii-b) \text{E}[XY]=\text{E}[X]\text{E}[Y]. Prova:

\text{E}[XY]=\displaystyle\sum_{i=1}^{k}\sum_{j=1}^{l}(x_iy_j)P_X(x_i) P_Y(y_j)=\displaystyle\sum_{i=1}^{k}x_i P_X(x_i) \sum_{j=1}^{l}y_jP_Y(y_j)=\text{E}[X] \text{E}[Y]

Desta propriedade pode-se deduzir que \text{E}[cX]= c\text{E}[X] (mais uma vez pelo uso da propriedade i)), muito embora ela seja facilmente deduzida pela definição do valor esperado:

\text{E}[cX]=\displaystyle\sum_{i=1}^{k}(cx_i)P_X(x_i)= c\displaystyle\sum_{i=1}^{k}x_iP_X(x_i)=c\text{E}[X]

iii) Seja \Delta X=X-\text{E}[X] o desvio da variável aleatória em relação ao valor esperado. Então \text{E}[\Delta X]=0. Prova: \text{E}[\Delta X]=\text{E}\{X-\text{E}[X]\}, pela definição de \Delta X. Pela propriedade ii-a) temos que \text{E}[\Delta X]=\text{E}[X]-\text{E}\{\text{E}[X]\}, e pela propriedade i) \text{E}[\Delta X]=\text{E}[X]-\text{E}[X]=0.

Todas estas propriedades evidenciam com clareza que o valor esperado é um operador linear.
A função (com imagem nos números reais) de uma variável aleatória f(X) também é uma variável aleatória, tendo, portanto, seu próprio valor esperado:

\text{E}[f(X)]=\displaystyle\sum_{i}f(x_i)P_{f(X)}\{f(x_i)\}\qquad(4)

(o símbolo \displaystyle\sum_{i} sem os limites inicial e final do somatório, como em \displaystyle\sum_{i=1}^k é similar a uma integral indefinida, onde os limites da integral não são especificados, só a variável de integração, embora neste caso seja uma “variável de somatório”. Esta abordagem é interessante quando os limites do somatório não necessitam de especificação em demonstrações, e é bastante comum)

Mas, ao invés de descobrir a distribuição de f(X) a partir da de X para casos particulares, pode-se mostrar, pela Lei do Estatístico Inconsciente, que:

\text{E}[f(X)]=\displaystyle\sum_{i}f(x_i)P_X(x_i)\qquad(5)

Obs. 3: Muitos livros de física, química e (antigamente) de estatística/probabilidade apresentam a equação acima como uma definição do valor esperado da função f(X) de uma variável aleatória, quando de fato é um teorema. A lei do estatístico inconsciente, cujo nome foi cunhado por Sheldon Ross em edições antigas do seu livro “A First Course in Probability”, de 1976, é demonstrado de maneira bastante didática em edições mais novas, como a 8ª Edição. O motivo pelo qual o a equação recebeu este nome é explicado na edição antiga citada, página 181 (e mais informações na 235): “Esta proposição [equação (5)] tem seu nome devido aos então chamados estatísticos ‘inconscientes’ que a usam como se ela fosse a definição de E[g(X)] [no nosso caso E[f(X)]]” [tradução livre]. Uma demonstração detalhada da equação (5) pode ser encontrada na 8ª edição do A First Course in Probability. No apêndice opcional abaixo ofereço uma prova, no meu ponto de vista, mais simples de entender, e mais longa.

——————————————————————————————————————–
Lei do estatístico inconsciente (Prova da equação (5) a partir da (4))

Antes, considere que numa função y=f(x), mais de um valor de x pode resultar no mesmo valor de y. Isso fica claro no exemplo f(x)=x^2, já que f(x)=1 tanto para x=1 quanto para x=-1. Agora considere que nosso x é na verdade uma variável aleatória X. A probabilidade da função f(X) assumir um valor y_j, por exemplo, é simplesmente a soma das probabilidades de que a variável aleatória assuma certo conjunto de valores x_k, e já que só um deles pode ser escolhidos eles representam eventos mutuamente excludentes (dúvidas, ver post Probabilidade – O básico). Ou seja, para um dado valor y_j=f(x_k):

\left.\begin{aligned}  P_X(x_1) \rightarrow x_1\\  P_X(x_2) \rightarrow x_2\\  ...\\  P_X(x_k) \rightarrow x_k\\  ...\\  \end{aligned}   \right\} y_j\rightarrow P_{f(X)}(y_j)=P_X(x_1)+ P_X(x_2)+...=\displaystyle\sum_{k}P_X(x_k)

Isso para um valor qualquer que pode assumir y_j. Se considerarmos todos os valores que a função f(X) pode assumir, e os valores de x a eles associados (não necessariamente um valor de x para cada y_j), o esquema fica ampliado:

\left.\begin{aligned}  P_X(x_{11}) \rightarrow x_{11}\\  P_X(x_{12}) \rightarrow x_{12}\\  ...\\  P_X(x_{1k}) \rightarrow x_{1k}\\  ...\\  \end{aligned}   \right\} y_1\rightarrow P_{f(X)}(y_1)=\displaystyle\sum_{k}P_X(x_{1k})

\left.\begin{aligned}  P_X(x_{21}) \rightarrow x_{21}\\  P_X(x_{22}) \rightarrow x_{22}\\  ...\\  P_X(x_{2k}) \rightarrow x_{2k}\\  ...\\  \end{aligned}   \right\} y_2\rightarrow P_{f(X)}(y_2)=\displaystyle\sum_{k}P_X(x_{2k})
...
\left.\begin{aligned}  P_X(x_{j1}) \rightarrow x_{j1}\\  P_X(x_{j2}) \rightarrow x_{j2}\\  ...\\  P_X(x_{jk}) \rightarrow x_{jk}\\  ...\\  \end{aligned}   \right\} y_j\rightarrow P_{f(X)}(y_j)=\displaystyle\sum_{k}P_X(x_{jk})

Agora observe que a probabilidade de que f(X) assuma um valor y qualquer deve ser 1, mas o mais importante, a soma pode ser feita de diferentes maneiras. A primeira, por exemplo, é somando a probabilidade de ocorrência de cada um dos y’s individuais, já que a ocorrência de um y j-ésimo exclui a ocorrência dos outros (são eventos mutuamente excludentes):

1=\displaystyle\sum_{j}P_{f(X)}(y_j)

Mas sabemos que para um dado y_j, há um conjunto de valores de x com probabilidades que, se somadas, dão a probabilidade de que este y_j específico ocorra. Logo:

\displaystyle\sum_{j}P_{f(X)}(y_j)=\displaystyle\sum_{j}\sum_{k}P_X(x_{jk})

Ora, se a soma é feita para cada probabilidade associada a cada x (ao invés de a cada y y), pode-se fazer a contagem com uma única variável de somatório, neste caso i, que vai de 1 até o número de valores que a variável aleatória X pode assumir:

\displaystyle\sum_{j}\sum_{k}P_X(x_{jk})=\sum_{i}P_X(x_i)

(observe que a soma de probabilidades agora ocorre em função da distribuição de X, e não mais de f(X))

Essa troca de somatório de uma soma para um único somatório é importante na demonstração, tornando-a quase trivial (a condição de normalização só foi um pretexto para ilustrar a propriedade). É como somar de um até 20 somando todos os números isoladamente, ou somando primeiro os pares e depois os ímpares.
Finalmente vamos à demonstração. Segundo a equação (4):

\text{E}[f(X)]=\displaystyle\sum_{i}f(x_i)P_{f(X)}\{f(x_i)\}=\sum_{i}y_iP_{f(X)}(y_i)

Podemos tornar o somatório de somatório em apenas um, como citado anteriormente:

\text{E}[f(X)]=\displaystyle\sum_{i}y_iP_{f(X)}(y_i)=\sum_{j}y_j\sum_{k}P_X(x_{jk})

Como o somatório em k é para um dado y_j constante, ele pode ser incorporada neste somatório:

\text{E}[f(X)]=\displaystyle\sum_{j}y_j\sum_{k}P_X(x_{jk})=\sum_{j}\sum_{k}y_jP_X(x_{jk})

Como y_j=f(x_{j1})=f(x_{j2})=...= f(x_{jk}) para um dado j:

\text{E}[f(X)]=\displaystyle\sum_{j}\sum_{k}y_jP_X(x_{jk})=\sum_{j}\sum_{k}f(x_{jk})P_X(x_{jk})

Voltando a variável de somatório i:

\text{E}[f(X)]=\displaystyle\sum_{j}\sum_{k}f(x_{jk})P_X(x_{jk})=\sum_{i}f(x_i)P_X(x_i)

Que é a equação (5). Não é uma definição, pois pode ser demonstrada, o ato de um estatístico consciente, é o que sugere o nome curioso do teorema.

——————————————————————————————————————–

Advertisements
This entry was posted in Geral. Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s