Notícias (27/07/14)

Olá, pessoal. Gostaria de me pronunciar sobre alguns tópicos não-acadêmicos vocês.

Tenho diminuído a quantidade de post’s ao longo de alguns meses passados pois iniciei meu doutorado, e mudei de área. Passei de químico experimental para químico teórico, e correr atrás do prejuízo tem me tomado tempo e neurônios. Este blog fez 1 ano pouco tempo atrás, e não tive tempo de fazer uma comemoração ou algo assim. Enquanto isso, lutava para suportar a grande quantidade de informação que a transferência de área demanda, além das disciplinas. Sinto-me triste em ter diminuído meu ritmo, pois tem muita coisa que gostaria de compartilhar com vocês, sobretudo o que tenho aprendido nas disciplinas que se adeque aos objetivos enunciados do blog. Mas ainda tenho interesse em escrever mais post’s, tanto quanto tenho mais vontade de aprender. Portanto para aqueles pacientes que volta e meia dão uma olhada por aqui, não desistam do bloqm ainda. Mais posts virão.

O conteúdo dos posts tem sido meio polarizado para a teoria das probabilidades/estatística porque acho que ela é invariavelmente necessária na química. Se isso é verdade, por que vejo que ela é mais um empecilho do que uma alavanca para muitos químicos? Não sei. Nossa formação, talvez. E ainda temos certa polarização para a estatística empregada na química analítica, que é magnífica, não me entendam mau. Mas físico-químicos, químicos de materiais, orgânicos, espectroscopistas, inorgânicos, todos devemos ter uma noção mínima ao menos de análise combinatória (adquiri evidências disso), e para os primeiros acho que teoria das probabilidades mesmo é fundamental. Uma boa base no assunto clarifica muita coisa. Mas meu papel não é discutir as origens da questão. Meu papel é de propagador. Melhor assim, pois pode-se discordar de minha opinião, mas não de que pluralizar o conhecimento é necessário (precisaria ser muito articulado para me convencer do contrário). E levantei este tópico porque, tendo em vista a generalidade do blog, e da necessidade de abordar outros temas, a estatística será um pouco deixada de lado (vou tentar!), embora eu tenha muita coisa pra dizer sobre ela ainda.

Outra coisa. Às pessoas que visitam o blog a pouco tempo, vocês devem ter percebido que os post’s antigos são meio feiosos em relação às equações e outros aspectos. Isso porque fui aprendendo aos poucos a tornar o bloqm mais bonito e profissional, pra isso tive que aprender a mexer em WordPress e Latex. Infelizmente não terei tempo para revê-los torná-los esteticamente mais palatáveis. Embora seja meu desejo, acho que a prioridade é fornecer conteúdo novo. E assim farei.

Para finalizar, gostaria de salientar que o feedback de vocês é muito importante. Encorajo-os a participar dando suas opiniões.

Agradeço aos visitantes. Um grande abraço, e até o próximo post!

Posted in Geral | 2 Comments

Variáveis aleatórias – O básico – Parte 2 (Discretas/Variância)

Atualizado: (11/07/14 = falta apêndice no final) (26/07/14 = apêndice adicionado)

O próximo parâmetro importante na descrição da distribuição de probabilidade de variáveis aleatórias é a variância, ou dispersão. Ela é definida como o valor esperado do quadrado do desvio da variável aleatória em relação ao seu valor esperado (\Delta X = X-\text{E}[X]). Isto é:

\text{Var}[X]=\text{E}\displaystyle\left[(X-\text{E}[X])^2\right]=\text{E}[\Delta X^2]= \langle \Delta X^2 \rangle=\langle (\Delta X-\langle x \rangle)^2 \rangle\qquad(6)

E mede o quanto que a variável aleatória se distribui em torno seu valor esperado, qual proporção dos valores que a variável aleatória pode assumir estariam próximos ou distantes dele. A definição em termos de somatório é:

\displaystyle\sum_{i=1}^{k}(x_i-\text{E}[X])^2 P_X(x_i)\qquad(7)

Que torna evidente que a variância é sempre maior que zero (se não considerarmos o exemplo trivial em que só existe um x_1 com probabilidade 1 – mais detalhes na propriedade i’) da variância), pois o quadrado de qualquer número real (neste caso x_i-\text{E}[X]) é positivo.

Obs. 4: O n-ésimo momento (ou momento de ordem n) em relação à média (ou simplesmente momento central de ordem n) é definido como \text{E}\displaystyle\left[(X-\text{E}[X])^n\right]=\displaystyle\sum_{i=1}^{k}(x_i-\text{E}[X])^n P_X(x_i). Medem a dispersão sem efeitos da localização da distribuição. A variância é, portanto, o momento central de 2ª ordem de uma variável aleatória. Para informações básicas, vide wikipédia.

O chamado desvio médio quadrático ou desvio médio, \Delta x, está relacionado com a variância pela seguinte relação:

\Delta x = \sqrt{\langle \Delta X^2 \rangle}=\sqrt{\text{Var}[X]}\qquad(8)

E possui a mesma unidade de medida de x, diferente da variância.
Geralmente é mais fácil obter a variância não pela equação (7), mas através do segundo momento (ou momento de ordem 2) da variável X, definido como se segue:

\text{E}[X^2]=\displaystyle\sum_{i=1}^{k}x_i^2P_X(x_i)\qquad(9)

Obs. 5: O n-ésimo momento (ou momento de ordem n) em relação à origem da variável aleatória X (ou simplesmente momento ordinário de ordem n) é definido como \text{E}[X^n]=\displaystyle\sum_{i=1}^{k}x_i^nP_X(x_i). Mais informações básicas no wikipédia.

Para isso usemos a definição de variância:

\text{Var}[X]=\text{E}\displaystyle\left[(X-\text{E}[X])^2\right]=\text{E}\displaystyle\left[X^2-2X\text{E}[X]+E[X]^2\right]

Usando a propriedade ii-a) mencionada anteriormente (ver post Variáveis aleatórias – O básico – Parte 1), verifica-se que:

\text{Var}[X]=\text{E}\displaystyle\left[X^2-2X\text{E}[X]+E[X]^2\right]=\text{E}[X^2]- \text{E}\left[2X\text{E}[X]\right]+ \text{E}\left[\text{E}[X]^2\right]

Usando a propriedade ii-b) verifica-se que:

\text{Var}[X]=\text{E}[X^2]- \text{E}\left[2X\text{E}[X]\right]+ \text{E}\left[\text{E}[X]^2\right]=\text{E}[X^2]-\text{E}[X]\text{E}[2\text{E}[X]]+ \text{E}\left[\text{E}[X]^2\right]

Considerando que tanto 2\text{E}[X] e \text{E}[X]^2 são constantes, podemos usar a propriedade i) para simplificar a equação acima:

\text{Var}[X]=\text{E}[X^2]-2\text{E}[X]\text{E}[X]+\text{E}[X]^2=\text{E}[X^2]-2\text{E}[X]^2+\text{E}[X]^2
\text{Var}[X]=\text{E}[X^2]-\text{E}[X]^2\qquad(10)

Ou seja, a variância pode ser obtida pela diferença entre o momento de 2ª ordem de X pelo quadrado do valor esperado (que é, na verdade, o momento de 1ª ordem de X). Como \text{Var}[X]\geq 0, tem-se que:

\text{E}[X^2]\geq \text{E}[X]^2\qquad(11)

(este resultado tem implicações interessantes em termodinâmica estatística)

Vejamos, para o caso do dado, qual a variância calculada. O valor esperado de X, necessário para o cálculo de \text{E}[X]^2, foi calculado anteriormente como 3,5. Pelo emprego da equação (9) podemos calcular \text{E}[X^2]:

\text{E}[X^2]=1^2\cdot\displaystyle\frac{1}{6}+2^2\cdot\displaystyle\frac{1}{6}+3^2\cdot\displaystyle\frac{1}{6}+4^2\cdot\displaystyle\frac{1}{6}+5^2\cdot\displaystyle\frac{1}{6}+6^2\cdot\displaystyle\frac{1}{6}=15,17

(Que, como previsto pela equação (11), é superior a \text{E}[X]^2=3,5^2=12,25)

E pela equação (10):

\text{Var}[X]=\text{E}[X^2]-\text{E}[X] ^2=15,17-12,25=2,92

Podemos fazer o mesmo cálculo no Scilab dados quaisquer vetores x e p. Usando o comando diag(x) constrói-se uma matriz quadrada só com zeros, exceto pelo traço, que é preenchido pelo vetor x. O produto desta matriz pelo próprio x gera um vetor linha com o quadrado do número de cada célula de x na mesma posição. Ou seja, se \bold{x}=[1,...,6]^{\text{t}}, \text{diag}(\bold{x})*\bold{x}=[1^2,...,6^2], como pode-se verificar abaixo:

–>diag(x)
ans =

1. 0. 0. 0. 0. 0.
0. 2. 0. 0. 0. 0.
0. 0. 3. 0. 0. 0.
0. 0. 0. 4. 0. 0.
0. 0. 0. 0. 5. 0.
0. 0. 0. 0. 0. 6.

–>diag(x)*x
ans =

1.
4.
9.
16.
25.
36.

Para obter \text{E}[X^2] basta multiplicar este vetor pelo p:

–>Eq=(diag(x)*x)’*p
Eq =

15.166667

E para calcular a variância subtraímos este valor do quadrado do valor esperado:

–>Var=Eq-E^2
Var =

2.9166667

Repetindo: conhecendo os momentos de 1ª e 2ª ordem com relação à origem (\text{E}[X] e \text{E}[X^2]) é possível obter a variância (\text{E}[X^2]-\text{E}[X]^2), um momento central de 2ª ordem.

As propriedades básicas da variância seguem abaixo:

i’) Se c é uma constante, então \text{Var}[c]=0. Prova: \text{Var}[c]=\text{E}[c^2]-\text{E}[c]^2=c^2-c^2=0 (Pela equação (10) e pela propriedade i) do valor esperado);
ii’) Se X e Y são duas variáveis aleatórias independentes: \text{Var}[X\pm Y]=\text{Var}[X]+\text{Var}[Y]. Prova:
\text{Var}[ X\pm Y]=\text{E}\left[(X\pm Y)^2\right]-\text{E}[X\pm Y]^2 \\  \text{Var}[ X\pm Y]=\text{E}\left[X^2\pm 2XY+Y^2\right]-(\text{E}[X]\pm \text{E}[Y])^2 \\  \text{Var}[ X\pm Y]=\text{E}[X^2]\pm \text{E}[2XY]+\text{E}[Y^2]-\text{E}[X]^2\mp 2\text{E}[X] \text{E}[Y]- \text{E}[Y]^2 \\  \text{Var}[ X\pm Y]=\text{E}[X^2]\pm 2\text{E}[X]\text{E}[Y]+\text{E}[Y^2]-\text{E}[X]^2\mp 2\text{E}[X] \text{E}[Y]- \text{E}[Y]^2 \\  \text{Var}[ X\pm Y]=\text{E}[X^2]-\text{E}[X]^2+\text{E}[Y^2]-\text{E}[Y]^2=\text{Var}[X]+ \text{Var}[Y]

Obs. 6: Observe que a variância da subtração de duas variáveis aleatórias independentes é também a soma da variância das duas. Essa equação lembra a fórmula de propagação de erros para a soma, muito usada em química analítica. Se X=A\pm B, sendo A e B duas variáveis aleatórias, temos que \text{Var}[X]=\text{Var}[A]+\text{Var}[B], ou em termos dos desvios médios quadráticos (equação (6)): \Delta x^2=\Delta a^2+\Delta b^2.

iii’) \text{Var}[cX]=c^2\text{Var}[X]. Prova: \text{Var}[cX]=\text{E}\left[(cX)^2\right]-\text{E}[cX]^2=\text{E}[c^2X^2]-\left(c\text{E}[X]\right)^2=c^2\text{E}[X^2]-c^2\text{E}[X]^2=c^2\text{Var}[X]. Esta propriedade, em associação com a i’) leva a seguinte relação: \text{Var}[aX+b]=a^2\text{Var}[X];

Obs. 7: Para o erro do produto de A e B, ou seja, se X=A\cdot B, considere que \text{Var}[X]=\Delta x^2 e que \text{E}[X]=x, \text{E}[A]=a e \text{E}[B]=b. Tendo em mente que a grandeza X/\text{E}[X] = X/x tem variância \text{Var}[X]/x^2=\Delta x^2/x^2:

\displaystyle\frac{\Delta x^2}{x^2}=\frac{\text{Var}[X]}{x^2}=\frac{\text{Var}[A\cdot B]}{\text{E}[A\cdot B]^2}=\frac{\text{E}[(A\cdot B)^2]-\text{E}[A\cdot B]^2}{\text{E}[A\cdot B]^2}=\frac{\text{E}[(A\cdot B)^2]}{\text{E}[A\cdot B]^2}-1=\frac{\text{E}[A^2\cdot B^2]}{\text{E}[A\cdot B]^2}-1=\frac{\text{E}[A^2] \text{E}[B^2]}{\text{E}[A]^2\text{E}[B]^2}-1
\displaystyle\frac{\Delta x^2}{x^2}=\displaystyle\left(\frac{\text{E}[A^2]}{ \text{E}[A]^2}\right)\left(\frac{\text{E}[B^2]}{\text{E}[B]^2}\right)-1\qquad(\text{I})

Fazendo algo similar com as variáveis A e B:

\displaystyle\frac{\Delta a^2}{a^2}=\frac{\text{Var}[A]}{a^2}=\frac{\text{E}[A^2]-\text{E}[A]^2}{\text{E}[A]^2}=\frac{\text{E}[A^2]}{\text{E}[A]^2}-1
\displaystyle\frac{\text{E}[A^2]}{\text{E}[A]^2}=1+\frac{\Delta a^2}{a^2}\qquad(\text{II})
\displaystyle\frac{\Delta b^2}{b^2}=\frac{\text{Var}[B]}{b^2}=\frac{\text{E}[B^2]-\text{E}[B]^2}{\text{E}[B]^2}=\frac{\text{E}[B^2]}{\text{E}[B]^2}-1
\displaystyle\frac{\text{E}[B^2]}{\text{E}[B]^2}=1+\frac{\Delta b^2}{b^2}\qquad(\text{III})

Substituindo as equações (II) e (III) na (I):

\displaystyle\frac{\Delta x^2}{x^2}=\left(\frac{\text{E}[A^2]}{ \text{E}[A]^2}\right)\left(\frac{\text{E}[B^2]}{\text{E}[B]^2}\right)-1=\left[1+\left(\frac{\Delta a}{a}\right)^2\right] \left[1+\left(\frac{\Delta b}{b}\right)^2\right]-1
\displaystyle\frac{\Delta x^2}{x^2}=1+\left(\frac{\Delta a}{a}\right)^2+\left(\frac{\Delta b}{b}\right)^2+\left(\frac{\Delta a}{a}\right)^2\left(\frac{\Delta b}{b}\right)^2-1
\displaystyle\frac{\Delta x^2}{x^2}=\left(\frac{\Delta a}{a}\right)^2+\left(\frac{\Delta b}{b}\right)^2+\left(\frac{\Delta a}{a}\right)^2\left(\frac{\Delta b}{b}\right)^2\qquad(\text{IV})

Se a>>\Delta a e b>>\Delta b, as frações (\Delta a/a)^2 e (\Delta b/b)^2 são próximas a zero, de modo que se ao se chegar ao limite desta aproximação, o primeiro termo a ser aproximadamente zero é o produto das duas grandezas pequenas, isto é, (\Delta a/a)^2(\Delta b/b)^2 \approx 0. Logo:

\displaystyle\frac{\Delta x^2}{x^2} \approx \left(\frac{\Delta a}{a}\right)^2+\left(\frac{\Delta b}{b}\right)^2\qquad(\text{V})

Ou seja, como constatado por Goodman, a fórmula (V) é aproximada e leva a menores valores de variância do produto de duas variáveis aleatórias (independentes) que a equação exata (IV). Para mais detalhes sobre a propagação de erros ver wikipédia. Uma dedução mais formal da equação de Goodman (equação (IV)) pode ser encontrada no artigo do Frishman. Observe que ao usar a propriedade \text{E}[A\cdot B]=\text{E}[A]\text{E}[B] assumimos que A e B são estatisticamente independentes, de modo que a equação (IV) só vale para este caso, sendo um caso particular referente ao mais geral, isto é, variância de produto de duas variáveis aleatórias quaisquer, levando a equações que envolvem covariância.

A estas alturas do campeonato é útil definir uma variável adimensional z chamada escore z (ou escore padronizado, ou escore padrão) com valor esperado 0 e variância 1:

Z=\displaystyle\frac{X-\text{E}[X]}{\Delta x}=\frac{\Delta X}{\Delta x}\qquad(12)

Pois \text{E}[Z]=(1/\Delta x)\text{E}[\Delta X] pela propriedade ii-a) em conjunção com a i), e com a iii)(\text{E}[\Delta X]), e portanto \text{E}[Z]=0. Já \text{Var}[Z]=(1/\Delta x)^2\text{Var}[X-\text{E}[X]] pela propriedade iii’). Pela propriedade ii’): \text{Var}[Z]=(1/\Delta x)^2\{ \text{Var}[X]+\text{Var}[\text{E}[X]]\}. Como \text{E}[X] é uma constante, pela propriedade i’) sua variância é nula, e como \Delta x^2=\text{Var}[X], temos que \text{Var}[Z]=\text{Var}[X]/\text{Var}[X]=1.
O escore z (ou escore padronizado) é importante porque é invariante na escala (assim como o coeficiente de correlação). Ou seja, mudar a escala dos valores de x (multiplicando por uma constante k, por exemplo) não altera a variável z e sua distribuição.

Z(kx)=\displaystyle\frac{kX-\text{E}[kX]}{\sqrt{\text{Var}[kX]}}=\frac{kX-k\text{E}[X]}{\sqrt{k^2\text{Var}[X]}}=\frac{ kX-k\text{E}[X]}{k\sqrt{\text{Var}[X]}}=\frac{kX-k\text{E}[X]}{k\Delta x}=\frac{X-\text{E}[X]}{\Delta x}=Z(x)

A variância correspondente a função f(X) é dada pela expressão abaixo:

\text{Var}[f(X)]=\text{E}[f(X)^2]-\text{E}[f(X)]^2\qquad(12)

————————————————————————————————————————

Momento de inércia

Como foi feita uma analogia entre o centro de massa de um conjunto de k partículas distribuídas em um espaço p dimensional, podemos ir além e associar o momento de inércia deste conjunto à variância de uma variável aleatória discreta. O momento de inércia (I) neste caso é definido como:

I=\displaystyle\sum_{i}m_ir_i^{2}

Em que r_i é a distância da massa i até o centro de massa. O momento de inércia (observe que não é um vetor, como o centro de massa) é o equivalente a massa na expressão da energia cinética translacional, só que na energia cinética rotacional. Enquanto a massa está relacionada à inércia translacional do objeto, I está relacionada à inércia rotacional, de modo que quanto maior a massa ou o momento de inércia maior as energias translacionais e rotacionais, respectivamente, para valores fixos de velocidade (ou momento) linear e angular.
A distância euclidiana entre dois vetores está relacionada com a diferença entre as coordenadas dos mesmos. Ou seja, se temos um vetor \bold{x}_i, referente ao vetor que representa as coordenadas da partícula i, e queremos saber a distância entre o mesmo e outro vetor \langle \bold{x}\rangle, o vetor do centro de massa (que vimos anteriormente estar associado ao valor esperado, por isso os colchetes angulares), a distância entre eles é r_i=\sqrt{(\bold{x}_i-\langle \bold{x}\rangle)^2}. Substituindo esta relação na expressão para o momento de inércia:

I= \displaystyle\sum_{i}m_i(\bold{x}_i-\langle \bold{x}\rangle)^2

No produto direto (ou escalar) entre dois vetores \bold{x} e \bold{y} é \bold{x}^{\text{t}}\bold{y} ou \bold{y}^{\text{t}}\bold{x}, de maneira que um vetor linha seja multiplicado por um vetor coluna. Quando \bold{x}=\bold{y}, o produto \bold{x}^{\text{t}}\bold{x}=\bold{x}^2 é a soma do quadrado das coordenadas do vetor. Estes argumentos são considerados no desenvolvimento da expressão acima:

I=\displaystyle\sum_{i}m_i(\bold{x}_i-\langle \bold{x}\rangle)^2=\sum_{i}m_i(\bold{x}_i^{\text{t}}\bold{x}_i-2\bold{x}_i^{\text{t}}\langle \bold{x}\rangle + \langle \bold{x}\rangle^{\text{t}}\langle \bold{x}\rangle)

I=\displaystyle\sum_{i}m_i(\bold{x}_i^2-2\bold{x}^{\text{t}}\langle \bold{x}\rangle+\langle \bold{x}\rangle^2)

I=\displaystyle\sum_{i}m_i\bold{x}_i^2-2\sum_{i}m_i\bold{x}_i^{\text{t}}\langle \bold{x}\rangle+\sum_{i}m_i\langle \bold{x}\rangle^2

Considerando que \langle \bold{x}\rangle independe de i, pode-se retirá-lo dos somatórios:

I=\displaystyle\sum_{i}m_i\bold{x}_i^2-2\langle \bold{x}\rangle\sum_{i}m_i\bold{x}_i+\langle \bold{x}\rangle^2\sum_{i}m_i

Lembrando que \langle \bold{x}\rangle=\displaystyle\frac{1}{M}\sum_{i}m_i\bold{x}_i e que \displaystyle\sum_{i}m_i=M (com derivado neste post):

I=\displaystyle\sum_{i}m_i\bold{x}_i^2-2M\langle \bold{x}\rangle^2+M\langle \bold{x}\rangle^2=\sum_{i}m_i\bold{x}_i^2-M\langle\bold{x}\rangle^2

Dividindo por M:

\displaystyle\frac{I}{M}=\sum_{i}(m_i/M)\bold{x}_i^2-\langle \bold{x}\rangle^2

Ora, o somatório na expressão acima é o momento ordinário de segunda ordem de \bold{x}, ou seja, \langle \bold{x}^2\rangle:

I=M\left[\displaystyle\sum_{i}(m_i/M)\bold{x}_i^2-\langle \bold{x}\rangle^2  \right]=M\left[\langle\bold{x}^2\rangle-\langle\bold{x}\rangle^2\right]

Ou seja, aparentemente o momento de inércia é proporcional a variância. Ou seja, mais dispersões os pontos de massa em torno do centro de massa, maior a variância, e consequentemente maior o momento de inércia (maior “massa rotacional”). Perfeitamente razoável do ponto de vista físico. Porém, observem que na dedução acima em não escrevi I=M\text{Var}[X], pois X é uma variável aleatória que pode assumir um de muitos valores, e não vários ao mesmo tempo. Em outras palavras, ela não é um vetor, e a grandeza análoga à variância deduzida acima gira em torno de distribuição de pontos ao redor do centro de massa no espaço (obtido para uma dimensão p qualquer, embora só “vejamos” até 3 dimensões). Ou seja, a menos que definamos algo como um vetor aleatório ou algo assim, que pode assumir todas as possíveis combinações de coordenadas no espaço p-dimensional escolhido, a analogia entre momento de inércia e variância só vale caso consideremos um segmento linear com pontos de massa ao longo dele, de modo que o vetor \bold{x} passa a ser um escalar x, podendo este ser relacionado com uma variável aleatória X, e termos a expressão abaixo:

I=M\left[\langle\bold{x}^2\rangle-\langle\bold{x}\rangle^2\right]= M\left[\langle x^2\rangle-\langle x\rangle^2\right]=M\text{Var}[X]

A mesma restrição vale para a relação entre o valor esperado e o centro de massa (ou seja, a analogia só vale para p=1). Analogias são poderosas e permitem cruzarmos fronteiras na ciência, mas acho importante delimitarmos explicitamente as fronteiras das analogias possíveis de se detectar, e por isso tentei explicitá-la usando este exemplo.

Posted in Geral | Leave a comment

Variáveis aleatórias – O básico – Parte 1 (Discretas/Valor esperado)

Atualizado: (11/07/14 = acréscimo no final)

Pontos principais do post: Aprender a calcular valor esperado e variância de variáveis aleatórias e discretas. Este tipo de conhecimento é bastante útil para quem trabalha com mecânica quântica e termodinâmica estatística, além de fenômenos físicos estocásticos, como o movimento browniano.

Olá pessoal. Venho por meio deste post falar de alguns conceitos que podem ser úteis dependendo da(s) área(s) da Química(s) que vocês dedicam seus esforços. Mas tenho especialmente em mente que, aos interessados em termodinâmica estatística, teoria cinética dos gases e movimento browniano, alguns posts posteriores podem ser um pouco difíceis de acompanhar sem um mínimo de revisão ou espaço para definições de certos termos e derivações de certas equações. Portanto, aqui estou e espero que gostem.

Primeiro de tudo, vamos do básico. Uma variável aleatória (e aqui usarei o símbolo X para me referir a ela) é uma variável que pode assumir um valor (neste caso x_i), com uma probabilidade p_i (cujas propriedades reviso no post Probabilidade – O básico).

Obs. 1: Em alguns livros mais antigos variáveis aleatórias às vezes são descritas pelo símbolo \xi e, muito embora eu goste bastante dele, observei que não é a tendência atual. Usa-se uma letra romana maiúscula em itálico, como X, para representar a variável aleatória, e a correspondente minúscula para os possíveis valores que ela pode assumir, como x_1, x_2,… . Para mais informações consultar: http://jeff560.tripod.com/stat.html e
http://en.wikipedia.org/wiki/Notation_in_probability_and_statistics)

Variáveis aleatórias discretas

Uma variável aleatória discreta só pode assumir um número finito (enumerável) de valores x_1, x_2,…, x_k, estes com probabilidades p_1, p_2,…, p_k. Um exemplo prático comum é o de um dado idealizado (não-viciado) de 6 lados, para jogadores de RPG, onde cada um dos números de 1 a 6 tem a probabilidade de 1/6 de ser sorteado num lançamento. Se definirmos os vetores \textbf{x} e \textbf{p}, de modo que:

\textbf{x}=\left[\begin{array}{ccc} x_1 \\ x_2 \\ ... \\ x_k\end{array}\right]

\textbf{p}=\left[\begin{array}{ccc} p_1 \\ p_2 \\ ... \\ p_k\end{array}\right]

No caso do dado estes vetores são:

\textbf{x}=\left[\begin{array}{ccc} 1 \\ 2 \\ 3 \\ 4 \\ 5 \\ 6\end{array}\right]

\textbf{p}=\left[\begin{array}{ccc} 1/6 \\ 1/6 \\ 1/6 \\ 1/6 \\ 1/6 \\ 1/6\end{array}\right]

No Scilab eu posso defini-los usando os seguintes comandos (em negrito; o resto é o output ou resultado do programa, exceto o que vem depois de “//” – em itálico -, que são comentários para quem não sabe usar o Scilab ainda):

–>x=[1:6]’//Produz um vetor-linha com números de 1 a 6 (função do “:”) e depois transpões para vetor-coluna (função do ” ‘ “)
x =

1.
2.
3.
4.
5.
6.

–>p=(1/6)*ones(6,1)//Produz um vetor-coluna com 6 linhas, cada uma com o número 1 (função do “ones(6,1), e depois multiplica pelo escalar 1/6

p =

0.1666667
0.1666667
0.1666667
0.1666667
0.1666667
0.1666667

A probabilidade de que X assuma o valor x_i, descrita anteriormente como p_i, por vezes é escrita desta maneira: P_X(x_i)=\text{P}\{X=x_i\}.
As probabilidades, além de obedecerem às propriedades básicas tais como se situar entre 0 e 1, também obedecem à condição de normalização. Isto é:

\displaystyle\sum_{x=-\infty}^{x=+\infty}P_X(x)=1\qquad(1)

Que reflete o bom senso, já que X deve assumir pelo menos um dos valores de x, e como os eventos x_i são mutuamente excludentes (isto é, só podem ocorrer um por vez, por assim dizer, a cada sorteio para determinar o valor de X), então a probabilidade de ocorre pelo menos 1 deles, dada pela soma das probabilidades de todos os possíveis eventos, é 1 (ou 100% = certeza absoluta). Caso tenha dúvidas sobre quando somar ou multiplicar probabilidades consultar o post Probabilidade – O básico.
Na notação vetorial de anteriormente, podemos dizer que \textbf{1}^{\text{t}}\textbf{p}=1 (em que \textbf{1} é um vetor coluna com o número k de 1’s = mesmo número de colunas de p) .
Se plotarmos os valores de p em função dos de x para o caso do dado observa-se um gráfico tal como obtive através do Scilab:

–>plot(x,p,’*’)// Plota um gráfico dos vetores x e p como asteriscos

–>xtitle(“Grafico de p em função de x para dado ideal”,”x”,”p”) // Coloca título do gráfico e legendas dos eixos x e y

–>replot([0,0,7,0.35]) //Ajusta os valores mínimos e máximos do gráfico

1

Este gráfico mostra a distribuição de probabilidade discreta associada à variável aleatória X, que neste caso é o número obtido num lançamento do dado. Dois parâmetros são importantes na descrição de distribuições probabilísticas: o valor esperado (ou esperança matemática ou valor médio) e a variância. O primeiro parâmetro tem haver com a tendência central dos valores de x, enquanto que o segundo tem haver com a dispersão dos valores de x em torno do valor esperado.
Primeiro analisemos a por vezes chamada esperança matemática (\text{E}). Calcula-se este parâmetro de uma variável aleatória (\text{E}[X]) com certa distribuição de probabilidade discreta através da seguinte equação:

\text{E}[X]=\langle x \rangle=\displaystyle\sum_{x=-\infty}^{x=+\infty}xP_X(x)

Como só podemos ter valores discretos x_1, x_2,…, x_k, a probabilidade de ocorrência de outros valores é zero, e a equação acima pode ser arranjada na seguinte forma:

\text{E}[X]=\langle x \rangle=\displaystyle\sum_{i=1}^{k}x_iP_X(x_i)\qquad(2)

Note que a condição de normalização fica \displaystyle\sum_{i=1}^{k}P_X(x_i)=1.

Obs. 2: Em física e química é bastante comum usar a \langle x \rangle ou \bar{x} ao invés de \text{E}[X], aludindo mais ao valor esperado dentre os possíveis valores de x do que à variável aleatória em si, X. Ambos são mais práticos, e usarei com mais freqüência em outros posts os parênteses angulares (\langle\ \rangle), pois reservo ao \bar{x} o símbolo de média amostral mais pra frente. Neste post será mais comum usar E[variável aleatória] para simbolizar o valor esperado.

Para o caso do dado, considerando que a probabilidade de que ele mostre números além de 1, 2, 3, 4, 5 e 6 é zero, só precisamos nos preocupar com estes valores de x xe suas respectivas probabilidades para calcular o valor esperado:

\text{E}[X]=1\cdot\displaystyle\frac{1}{6}+2\cdot\displaystyle\frac{1}{6}+3\cdot\displaystyle\frac{1}{6}+4\cdot\displaystyle\frac{1}{6}+5\cdot\displaystyle\frac{1}{6}+6\cdot\displaystyle\frac{1}{6}=\displaystyle\frac{1}{6}\cdot (1+2+3+4+5+6)= \displaystyle\frac{21}{6}=\displaystyle\frac{7}{2}=3,5

Para calcular o valor esperado (\textbf{e}) no Scilab basta multiplicar apropriadamente os vetores \textbf{x} e \textbf{p} (\textbf{e}=\textbf{x}^{\text{t}}\textbf{p}=\textbf{p}^{\text{t}}\textbf{x}):

–>e=x’*p// Multiplica o vetor x transposto pelo vetor p
e =

3.5

Bom, qual é o significado do valor esperado? E daí conhecer o valor 3,5 obtido para o caso do dado? Bom, levando em consideração que os primórdios da teoria das probabilidades vieram de jogos de azar (ver artigo sobre Girolamo Cardano baixando aqui: Cardano), nada mais justo pensar numa analogia desta ordem para o jogo de dados. Suponha que o número que cai do dado é quanto ganhamos em reais. Ou seja, se o dado der 1, ganha-se R$ 1,00, se cair 2, ganha-se R$ 2,00, e assim por diante. O valor esperado neste caso mostra uma maneira de saber de antemão qual o lucro (ou prejuízo, dependendo do caso) que tenho ao misturar meu ganho financeiro com probabilidades. Uma maneira comum de representar este tipo de problema é através das árvores de decisão ou de probabilidade, cujos galhos são podados para mostrar o ganho líquido associado a vários valores (neste caso o dinheiro ganho para cada face do dado) e a probabilidade da ocorrência de cada um:

2

Esse tipo de árvore tem especial utilidade quando se trata de decisões em que sabemos o ganho ou perda associado a cada uma delas e o elemento probabilístico parece nublar nosso discernimento (daí o nome “árvores de decisão”). Em outras palavras, permite-nos verificar se o certo é realmente melhor que o duvidoso para cada caso. Vou dar dois exemplos para fixar como usar estas árvores. Um é de cunho histórico e ficará como um mini-Apêndice 1 (Aposta de Pascal) e o segundo reflete uma situação baseada em fatos reais (e usa dados reais) onde se quer saber se deve-se trocar o certo pelo duvidoso.

Exemplo:

Digamos que você tem um emprego ou uma bolsa que lhe fornece uma remuneração fixa de R$ 1200,00 por mês. Um concurso público (admissão imediata por causa de greve ilegal dos antigos funcionários, por exemplo) bate a sua porta, e você precisa parar tudo para se dedicar a ele, estudando tanto quanto possível. Seu trabalho impede que isso aconteça, e você tem que escolher entre largar o emprego (juntando umas economias antes) e passar um ou dois meses estudando direto. Tenho certeza que você dificilmente faria isso. Deixaria de dormir para estudar no lugar, mas não jogaria algo certo fora (acho que eu mesmo não faria isso). Mas podemos usar as árvores de decisão para tentar verificar numericamente se devemos tomar esta decisão ou não. O vencimento (salário do servidor público) no cargo que você concorre (e com todos os adicionais de titulação e outros possíveis) é R$ 3980,00. Agora precisa-se estimar a probabilidade de você passar no concurso. Isso pode ser um pouco subjetivo, mas vamos usar o bom senso. Primeiro precisamos saber o número de candidatos por vaga. Este dado sai depois do concurso, mas digamos que você fez um levantamento ao longo dos anos, e encontrou um valor de 58,5 candidatos por vaga em média. Se sua aprovação fosse unicamente devida ao acaso, a probabilidade de você passar seria de 1/58,5 = 0,017, ou 1,7%. Muito baixa, mas nos dá um limite inferior. Digamos que das tantas pessoas que se inscreveram um percentual de 20% não estudou nada, 40% estudaram pouco e outros 40% estudaram bastante, como você pretende fazer. Então você concorre com estes 40% dos estudiosos mais ou menos em pé de igualdade, de modo que o que decide quem passa é paciência, sorte nas questões do teste, e uma série de outros fatores que digamos que sejam aleatórios. Isso quer dizer que sua probabilidade, ao invés de 1/58,5 é algo em torno de 1/23,4 (58,5×0,4=23,4), sendo igual a 0,043, ou 4,3%. Ok, o vencimento é maior que seu salário, mas a probabilidade de você passar parece baixa. O que fazer? Uma árvore de decisão ajuda. O salário que você recebe é 100% garantido, e o vencimento do concurso tem um valor líquido que você ainda está por determinar. Digamos que o dinheiro que você gasta na inscrição não seja considerado. Se você passa no concurso (com probabilidade de 0,043), ganha R$ 3980,00 por mês. Se não passar (com probabilidade de 1-0,043 = 0,957), você não ganha nada, e fica desempregado. Ou seja, temos a seguinte árvore abaixo, onde calculamos o valor esperado no ramo do concurso:

3

Aqui obviamente a melhor escolha é ficar com seu emprego mesmo, o que muitos de vocês achariam óbvio neste caso, com uma probabilidade tão baixa de sucesso. Mas a pergunta é: vocês saberiam que é tão baixa de antemão, sem pensar com calma no assunto? Neste caso é bem imediata a decisão mesmo sem árvores de decisão, isso porque a probabilidade de aprovação, de acordo com as considerações acima, é muito baixa. Mas quis mostrar um exemplo com dados reais pra ficar mais interessante de ler, do que exemplos idealizados. E você que se sente esperto pra tomar decisões sem precisar dessa racionalização, responda rápido: você prefere ganhar 25 reais “na lata” (de antemão), ou jogar cara ou coroa, de modo que se der cara você ganha 100 reais e se der coroa você perde 50? Pelos cálculos tanto faz, certo? Errado! Depende de quem escolheu a moeda do sorteio. Ninguém garantiu que a moeda não era viciada!

——————————————————————————————————————–

Aposta de Pascal

Blaise Pascal foi um matemático/físico/filósofo francês que trouxe grandes contribuições para a teoria das probabilidades. Uma delas foi trazer a idéia de esperança matemática por meio do que hoje é chamada de aposta de Pascal. Ele era bastante religioso, e como um grande pensador, não pôde deixar de tentar misturar um pouco de argumentação lógica com a crença em Deus. Argumentos ontológicos procuram justificar a existência de Deus por meio de uma lógica. Descartes, por exemplo, forneceu um famoso argumento ontológico. Pascal, por outro lado, usa um argumento baseado no bom senso de um jogo de aposta. Você pode apostar que Deus existe, ou não. Para cada uma dessas possibilidades, Deus de fato pode existir ou não, com uma certa probabilidade. O ganho que você tem por acreditar ou não é o que determinaria se é sensato ou não acreditar Nele. Para colocar de maneira mais formal (um pouco simplificada e desprovida de argumentos morais): se você acredita em Deus e Ele existe seu ganho é infinito (\infty), a glória eterna; se você acredita e Ele não existe seu ganho (ou perda) é a; se você não acredita e Ele existe você tem um lucro ou perda b; e se você não acredita e Ele não existe você tem um ganho ou prejuízo de c (em todos os casos não especifico se a, b e c são positivos ou negativos, isto é, se são vantajosos ou não, para tirar um pouco da subjetividade neste ponto). A probabilidade de Deus existir é p (p\neq 0) e, obviamente, a Dele não existir, 1-p. Se fizermos uma árvore de decisão para este caso, temos algo do tipo:

4

Contanto que a, b e c sejam finitos e p\neq 0, o esquema acima mostra que é mais conveniente (se é que se pode usar este termo) acreditar em Deus, pois qualquer valor de x (finito) será inferior a um ganho infinito. Há argumentações lógicas contra esta forma de pensar, e procurando bastante encontrei este endereço com várias referências, bastante acadêmico, sobre a aposta de Pascal e algumas destas argumentações: http://plato.stanford.edu/entries/pascal-wager/index.html#3. Eu tenho uma em particular: qualquer entidade que ofereça “ganho infinito” da mesma forma que acima leva ao mesmo resultado ou decisão. Considerando que geralmente se escolhe uma crença para seguir, a abordagem acima não permitiria escolher em quais entidades acreditar. Mas é só uma divagação. Este é um blog acadêmico, e portanto só tento colocar aqui argumentos baseados no raciocínio (dedutivo, indutivo, …), não sendo o lugar para se discutir religião e fé. Mas é uma curiosidade instrutiva que quis trazer pra vocês da maneira mais acadêmica possível (afinal, o autor tem suas próprias crenças não necessariamente baseadas em lógica, que não cabem no presente blog). Espero que tenham gostado.

——————————————————————————————————————–

Pela forma da esperança matemática e pela condição de normalização (equação (1)) pode-se observar que a equação (2) pode ser expressa da seguinte forma:

\text{E}[X]=\langle x \rangle=\displaystyle\sum_{i=1}^{k}x_iP_X(x_i)=\displaystyle\frac{\displaystyle\sum_{i=1}^{k}x_iP_X(x_i)}{\displaystyle\sum_{i=1}^{k}P_X(x_i)}\qquad(3)

Ou seja, a o valor esperado de um conjunto x é simplesmente a média dos valores que o compões tendo as probabilidades de ocorrência de cada um como pesos. Essa constatação leva a uma interessante analogia física do valor esperado com o centro de massa num segmento linear, e que gostaria de compartilhar com vocês, embora a ausência deste conhecimento seja, talvez, aceitável. Por isso coloco como um mini-Apêndice. Se não tiver interesse, pule.

——————————————————————————————————————–

Valor esperado de variável aleatória discreta e centro de massa

Considere que ao longo de um eixo ou linha uma série de pontos de massa m_1, m_2,… , m_k são dispostos nas posições x_1, x_2,… , x_k. Objetos reais podem ser considerados pontos de massa se suas dimensões forem muito inferiores a do eixo de comprimento L. O centro de massa (c.m.) ao longo deste segmento é dado pela seguinte equação:

c.m.=\displaystyle\frac{\displaystyle\sum_{i=1}^{k}x_i m_i}{\displaystyle\sum_{i=1}^{k}m_i}=\displaystyle\frac{\displaystyle\sum_{i=1}^{k}x_i m_i}{M}

Em que M é a massa total. Como o denominador é uma constante, pode ser englobada pelo somatório do numerador:

c.m.=\displaystyle\frac{\displaystyle\sum_{i=1}^{k}x_i(m_i/M)}{1}=\displaystyle\frac{\displaystyle\sum_{i=1}^{k}x_i(m_i/M)}{ \displaystyle\sum_{i=1}^{k}(m_i/M)}

Em que m_i/M é a massa do ponto localizado na posição x_i em relação à massa total, e naturalmente que a soma de todas essas massas relativas equivale a 1. Observe que a expressão acima tem a mesma forma da equação (3). Ou seja, pode-se interpretar o valor esperado como um análogo a um centro de massa probabilístico, em as massas relativas são as probabilidades de ocorrência em diferentes posições x, análogas aos possíveis valores que a variável aleatória pode assumir.
O centro de massa pode ser obtido quando as massas pontuais são dispostas em mais de uma dimensão. O valor de x_i, que é o valor da coordenada da i-ésima massa pontual m_i, é substituído por um vetor \textbf{x}_i de dimensão p, com as coordenadas da massa i-ésima para cada uma das p dimensões escolhidas (naturalmente que na prática só vamos até p=3). Desta vez o centro de massa não é um valor só, referente a um único eixo, mas um vetor cujas coordenadas indicam o centro de massa (\textbf{c.m.}) no espaço p-dimensional. Cada coordenada indica o centro de massa em relação a um eixo, de modo que (considerando x_{jk} a coordenada da massa k no eixo j):

\textbf{c.m.}=\left[\begin{array}{ccc} \displaystyle\sum_{i=1}^{k}(m_i/M)x_{1i}\\ \displaystyle\sum_{i=1}^{k}(m_i/M)x_{2i} \\ ... \\  \displaystyle\sum_{i=1}^{k}(m_i/M)x_{pi}\end{array}\right]=\left[\begin{array}{ccc} \displaystyle\frac{m_1 x_{11}}{M}+\frac{m_2 x_{12}}{M}+...+\frac{m_k x_{1k}}{M}\\ \\ \displaystyle\frac{m_1 x_{21}}{M}+\frac{m_2 x_{22}}{M}+...+\frac{m_k x_{2k}}{M} \\ ... \\  \displaystyle\frac{m_1 x_{p1}}{M}+\frac{m_2 x_{p2}}{M}+...+\frac{m_k x_{pk}}{M}\end{array}\right]

\textbf{c.m.}=\left[\begin{array}{ccc} \displaystyle\frac{m_1x_{11}}{M}\\ \\ \displaystyle\frac{m_1x_{21}}{M} \\ ... \\ \displaystyle\frac{m_1x_{p1}}{M}\end{array}\right]+\left[\begin{array}{ccc} \displaystyle\frac{m_2x_{12}}{M}\\ \\ \displaystyle\frac{m_2x_{22}}{M} \\ ... \\ \displaystyle\frac{m_2x_{p2}}{M}\end{array}\right]+...+\left[\begin{array}{ccc} \displaystyle\frac{m_kx_{1k}}{M}\\ \\ \displaystyle\frac{m_kx_{2k}}{M} \\ ... \\ \displaystyle\frac{m_kx_{pk}}{M}\end{array}\right]

\textbf{c.m.}=\displaystyle\frac{m_1}{M}\left[\begin{array}{ccc} x_{11}\\ x_{21} \\ ... \\ x_{p1}\end{array}\right]+\displaystyle\frac{m_2}{M}\left[\begin{array}{ccc} x_{12}\\ x_{22} \\ ... \\ x_{p2}\end{array}\right]+...+ \displaystyle\frac{m_k}{M}\left[\begin{array}{ccc} x_{1k}\\ x_{2k} \\ ... \\ x_{pk}\end{array}\right]

\textbf{c.m.}=\displaystyle\frac{m_1}{M}\textbf{x}_1+\frac{m_2}{M}\textbf{x}_2+...+\frac{m_k}{M}\textbf{x}_k=\displaystyle\sum_{i=1}^{k}=(m_i/M)\textbf{x}_i

(naturalmente que se só há uma coordenada, o vetor \textbf{x}_i só tem um elemento x_i, coordenada da massa m_i nesta única dimensão, como mostrado no caso do segmento linear).
O rearranjo acima serve para mostrar a equação unidimensional do centro de massa como um caso particular para o centro de massa em p dimensões, ambas apresentando a mesma forma. Obviamente que o arranjo matricial acima facilita bastante a obtenção do centro de massa no Scilab, o que pode ser tema de outro post (provavelmente sobre cálculo de funções de partição molecular em termodinâmica estatística).

——————————————————————————————————————–

Algumas propriedades inerentes ao cálculo do valor esperado de uma variável aleatória discreta são apresentados abaixo:

i) Se c é uma constante, \text{E}[c]=c. Prova: Pela definição de valor esperado: \text{E}[c]=\displaystyle\sum_{i=1}^{k}cP_X(x_i)=c\displaystyle\sum_{i=1}^{k}P_X(x_i), e pela condição de normalização \displaystyle\sum_{i=1}^{k}P_X(x_i)=1, de modo que \text{E}[c]=c\cdot 1 = c.
ii) Sejam duas variáveis aleatórias discretas X e Y estatisticamente independentes, temos que:
ii-a) \text{E}[X\pm Y]=\text{E}[X]\pm \text{E}[Y]. Prova: pela definição de valor esperado e considerando que, por serem estatisticamente independentes, a probabilidade resultante de X e Y (ocorrência de x_i em X ou y_j em Y) é o produto de P_X(x_i) por P_Y(y_j):

\text{E}[X\pm Y]=\displaystyle\sum_{i=1}^{k}\sum_{j=1}^{l}(x_i\pm y_j)P_X(x_i) P_Y(y_j)=\displaystyle\sum_{i=1}^{k}\sum_{j=1}^{l}x_iP_X(x_i) P_Y(y_j)\pm \displaystyle\sum_{i=1}^{k}\sum_{j=1}^{l}y_jP_X(x_i)P_Y(y_j)
\text{E}[X\pm Y]=\displaystyle\sum_{i=1}^{k}x_iP_X(x_i) \sum_{j=1}^{l}P_Y(y_j) \pm \displaystyle\sum_{j=1}^{l}y_jP_Y(y_j) \sum_{i=1}^{k}P_X(x_i)
\text{E}[X\pm Y]=\text{E}[X]\pm \text{E}[Y]

Mais uma vez usando a condição de normalização: \displaystyle\sum_{i=1}^{k}P_X(x_i)=\displaystyle\sum_{j=1}^{l}P_Y(y_j)=1. Da propriedade ii-a) decorre, junto com a i), que \text{E}[X+c]=\text{E}[X]+c.

ii-b) \text{E}[XY]=\text{E}[X]\text{E}[Y]. Prova:

\text{E}[XY]=\displaystyle\sum_{i=1}^{k}\sum_{j=1}^{l}(x_iy_j)P_X(x_i) P_Y(y_j)=\displaystyle\sum_{i=1}^{k}x_i P_X(x_i) \sum_{j=1}^{l}y_jP_Y(y_j)=\text{E}[X] \text{E}[Y]

Desta propriedade pode-se deduzir que \text{E}[cX]= c\text{E}[X] (mais uma vez pelo uso da propriedade i)), muito embora ela seja facilmente deduzida pela definição do valor esperado:

\text{E}[cX]=\displaystyle\sum_{i=1}^{k}(cx_i)P_X(x_i)= c\displaystyle\sum_{i=1}^{k}x_iP_X(x_i)=c\text{E}[X]

iii) Seja \Delta X=X-\text{E}[X] o desvio da variável aleatória em relação ao valor esperado. Então \text{E}[\Delta X]=0. Prova: \text{E}[\Delta X]=\text{E}\{X-\text{E}[X]\}, pela definição de \Delta X. Pela propriedade ii-a) temos que \text{E}[\Delta X]=\text{E}[X]-\text{E}\{\text{E}[X]\}, e pela propriedade i) \text{E}[\Delta X]=\text{E}[X]-\text{E}[X]=0.

Todas estas propriedades evidenciam com clareza que o valor esperado é um operador linear.
A função (com imagem nos números reais) de uma variável aleatória f(X) também é uma variável aleatória, tendo, portanto, seu próprio valor esperado:

\text{E}[f(X)]=\displaystyle\sum_{i}f(x_i)P_{f(X)}\{f(x_i)\}\qquad(4)

(o símbolo \displaystyle\sum_{i} sem os limites inicial e final do somatório, como em \displaystyle\sum_{i=1}^k é similar a uma integral indefinida, onde os limites da integral não são especificados, só a variável de integração, embora neste caso seja uma “variável de somatório”. Esta abordagem é interessante quando os limites do somatório não necessitam de especificação em demonstrações, e é bastante comum)

Mas, ao invés de descobrir a distribuição de f(X) a partir da de X para casos particulares, pode-se mostrar, pela Lei do Estatístico Inconsciente, que:

\text{E}[f(X)]=\displaystyle\sum_{i}f(x_i)P_X(x_i)\qquad(5)

Obs. 3: Muitos livros de física, química e (antigamente) de estatística/probabilidade apresentam a equação acima como uma definição do valor esperado da função f(X) de uma variável aleatória, quando de fato é um teorema. A lei do estatístico inconsciente, cujo nome foi cunhado por Sheldon Ross em edições antigas do seu livro “A First Course in Probability”, de 1976, é demonstrado de maneira bastante didática em edições mais novas, como a 8ª Edição. O motivo pelo qual o a equação recebeu este nome é explicado na edição antiga citada, página 181 (e mais informações na 235): “Esta proposição [equação (5)] tem seu nome devido aos então chamados estatísticos ‘inconscientes’ que a usam como se ela fosse a definição de E[g(X)] [no nosso caso E[f(X)]]” [tradução livre]. Uma demonstração detalhada da equação (5) pode ser encontrada na 8ª edição do A First Course in Probability. No apêndice opcional abaixo ofereço uma prova, no meu ponto de vista, mais simples de entender, e mais longa.

——————————————————————————————————————–
Lei do estatístico inconsciente (Prova da equação (5) a partir da (4))

Antes, considere que numa função y=f(x), mais de um valor de x pode resultar no mesmo valor de y. Isso fica claro no exemplo f(x)=x^2, já que f(x)=1 tanto para x=1 quanto para x=-1. Agora considere que nosso x é na verdade uma variável aleatória X. A probabilidade da função f(X) assumir um valor y_j, por exemplo, é simplesmente a soma das probabilidades de que a variável aleatória assuma certo conjunto de valores x_k, e já que só um deles pode ser escolhidos eles representam eventos mutuamente excludentes (dúvidas, ver post Probabilidade – O básico). Ou seja, para um dado valor y_j=f(x_k):

\left.\begin{aligned}  P_X(x_1) \rightarrow x_1\\  P_X(x_2) \rightarrow x_2\\  ...\\  P_X(x_k) \rightarrow x_k\\  ...\\  \end{aligned}   \right\} y_j\rightarrow P_{f(X)}(y_j)=P_X(x_1)+ P_X(x_2)+...=\displaystyle\sum_{k}P_X(x_k)

Isso para um valor qualquer que pode assumir y_j. Se considerarmos todos os valores que a função f(X) pode assumir, e os valores de x a eles associados (não necessariamente um valor de x para cada y_j), o esquema fica ampliado:

\left.\begin{aligned}  P_X(x_{11}) \rightarrow x_{11}\\  P_X(x_{12}) \rightarrow x_{12}\\  ...\\  P_X(x_{1k}) \rightarrow x_{1k}\\  ...\\  \end{aligned}   \right\} y_1\rightarrow P_{f(X)}(y_1)=\displaystyle\sum_{k}P_X(x_{1k})

\left.\begin{aligned}  P_X(x_{21}) \rightarrow x_{21}\\  P_X(x_{22}) \rightarrow x_{22}\\  ...\\  P_X(x_{2k}) \rightarrow x_{2k}\\  ...\\  \end{aligned}   \right\} y_2\rightarrow P_{f(X)}(y_2)=\displaystyle\sum_{k}P_X(x_{2k})
...
\left.\begin{aligned}  P_X(x_{j1}) \rightarrow x_{j1}\\  P_X(x_{j2}) \rightarrow x_{j2}\\  ...\\  P_X(x_{jk}) \rightarrow x_{jk}\\  ...\\  \end{aligned}   \right\} y_j\rightarrow P_{f(X)}(y_j)=\displaystyle\sum_{k}P_X(x_{jk})

Agora observe que a probabilidade de que f(X) assuma um valor y qualquer deve ser 1, mas o mais importante, a soma pode ser feita de diferentes maneiras. A primeira, por exemplo, é somando a probabilidade de ocorrência de cada um dos y’s individuais, já que a ocorrência de um y j-ésimo exclui a ocorrência dos outros (são eventos mutuamente excludentes):

1=\displaystyle\sum_{j}P_{f(X)}(y_j)

Mas sabemos que para um dado y_j, há um conjunto de valores de x com probabilidades que, se somadas, dão a probabilidade de que este y_j específico ocorra. Logo:

\displaystyle\sum_{j}P_{f(X)}(y_j)=\displaystyle\sum_{j}\sum_{k}P_X(x_{jk})

Ora, se a soma é feita para cada probabilidade associada a cada x (ao invés de a cada y y), pode-se fazer a contagem com uma única variável de somatório, neste caso i, que vai de 1 até o número de valores que a variável aleatória X pode assumir:

\displaystyle\sum_{j}\sum_{k}P_X(x_{jk})=\sum_{i}P_X(x_i)

(observe que a soma de probabilidades agora ocorre em função da distribuição de X, e não mais de f(X))

Essa troca de somatório de uma soma para um único somatório é importante na demonstração, tornando-a quase trivial (a condição de normalização só foi um pretexto para ilustrar a propriedade). É como somar de um até 20 somando todos os números isoladamente, ou somando primeiro os pares e depois os ímpares.
Finalmente vamos à demonstração. Segundo a equação (4):

\text{E}[f(X)]=\displaystyle\sum_{i}f(x_i)P_{f(X)}\{f(x_i)\}=\sum_{i}y_iP_{f(X)}(y_i)

Podemos tornar o somatório de somatório em apenas um, como citado anteriormente:

\text{E}[f(X)]=\displaystyle\sum_{i}y_iP_{f(X)}(y_i)=\sum_{j}y_j\sum_{k}P_X(x_{jk})

Como o somatório em k é para um dado y_j constante, ele pode ser incorporada neste somatório:

\text{E}[f(X)]=\displaystyle\sum_{j}y_j\sum_{k}P_X(x_{jk})=\sum_{j}\sum_{k}y_jP_X(x_{jk})

Como y_j=f(x_{j1})=f(x_{j2})=...= f(x_{jk}) para um dado j:

\text{E}[f(X)]=\displaystyle\sum_{j}\sum_{k}y_jP_X(x_{jk})=\sum_{j}\sum_{k}f(x_{jk})P_X(x_{jk})

Voltando a variável de somatório i:

\text{E}[f(X)]=\displaystyle\sum_{j}\sum_{k}f(x_{jk})P_X(x_{jk})=\sum_{i}f(x_i)P_X(x_i)

Que é a equação (5). Não é uma definição, pois pode ser demonstrada, o ato de um estatístico consciente, é o que sugere o nome curioso do teorema.

——————————————————————————————————————–

Posted in Geral | Leave a comment

Para saber mais: Podcasts BBC e documentários

Olá pessoal. Em outro post sobre história da matemática dei a dica para os que desejam praticar inglês através de mini-documentários gravados em podcasts (arquivos de áudio digital) pela BBC. Descobri na rádio da BBC um programa chamado “In Our Time”, cuja extensão “Science” é particularmente interessante. Pode-se conferir todos os arquivos no seguinte link: http://www.bbc.co.uk/podcasts/series/iots/all. Descobri, adicionalmente, que muitos dos assuntos tratados neste blog tem certa relação com alguns podcasts que encontrei. A princípio pretendi espalhá-los nos respectivos posts mas, por hora, coloco a lista aqui, assim quem desejar ouvir vários documentários não necessariamente relacionados entre si tem um ponto comum para voltar. Abaixo mostro uma lista dos assuntos dos documentários e os posts do bloqm relacionados (Obs.: recomendo para quem possui nível intermediário na língua inglesa, além de tolerância ao sotaque britânico, mas tenho um conselho para os inexperientes: sejam ousados!):

Post: “Para saber mais: Infinito e números complexos”
Podcast: “Infinity” (http://downloads.bbc.co.uk/podcasts/radio4/iots/iots_20031023-0900a.mp3) e “Imaginary Numbers” (http://downloads.bbc.co.uk/podcasts/radio4/iot/iot_20100923-1035a.mp3)

Post: “Probabilidade – o básico”
Podcast: “Random and Pseudorandom” (http://downloads.bbc.co.uk/podcasts/radio4/iots/iots_20110113-1055c.mp3) e “Probability” (http://downloads.bbc.co.uk/podcasts/radio4/iots/iots_20080529-0900a.mp3)

Post: “Para saber mais: História da Química”
Podcast: “The Cavendish Family in Science” (http://downloads.bbc.co.uk/podcasts/radio4/iots/iots_20100520-0900a.mp3), “Oxygen” (http://downloads.bbc.co.uk/podcasts/radio4/iots/iots_20071115-0900a.mp3), “Alchemy” (http://downloads.bbc.co.uk/podcasts/radio4/iots/iots_20050224-0900a.mp3) e “Chemical Elements” (http://downloads.bbc.co.uk/podcasts/radio4/iots/iots_20000525-0900a.mp3)

Post: “Podemos usar dy/dx como uma fração?”
Podcast: “Calculus” (http://downloads.bbc.co.uk/podcasts/radio4/iots/iots_20090924-0900a.mp3)

Post: “Boas vindas”
Podcast: “Mathematics” (http://downloads.bbc.co.uk/podcasts/radio4/iots/iots_19990506-0900a.mp3)

Só mais uma coisa. Encontrei alguns documentários curtos no youtube que vocês podem achar interessantes. Os temas são o Demônio de Maxwell e o gato de Schrödinger:


Espero que gostem. Até logo.

Posted in Geral | Leave a comment

Probabilidade – o básico

Objetivos principais:
– Ensinar alguns experimentos probabilísticos no Scilab e como gerar sortear aleatoriamente conjuntos de números;
– Mostrar quando a probabilidade resultante de dois eventos é a soma ou o produto das probabilidades dos eventos individuais;
– Fornecer informações necessárias para a compreensão microscópica do movimento browniano.

Definições e interpretações

A definição clássica (matemática ou “a priori”) de probabilidade vem do senso intuitivo que temos de que de um conjunto de N possíveis resultados, todos são igualmente prováveis (simetria), e portanto a probabilidade de um evento A ocorrer (\text{Pr}(A)) é simplesmente a razão entre o número de eventos associados a A (N(A)) e o número total de eventos:

\text{Pr}(A)=\displaystyle\frac{N(A)}{N}\qquad(1)

Isso é o que nos leva a concluir que a probabilidade de uma moeda não-viciada dar cara é 1/2, pois dois são os possíveis resultados (igualmente prováveis neste caso), e um deles corresponde ao evento A, ou seja, “dar cara”. O mesmo podemos dizer sobre a probabilidade de dar 1 num lance de dado, já que N = 6 e N(A)=1. Se o evento A é o dado dar um número par, então temos N(A)=3 (já que os possíveis resultados 2, 4 e 6 são os possíveis números pares), e \text{Pr}(A)=3/6=1/2.
Existem alguns problemas inerentes a esta forma de definir probabilidade, pois nem sempre podemos contar os possíveis eventos e nem sempre a simetria que assumimos no caso da moeda ou do dado (simetria implicando probabilidade equivalente dos resultados individuais) vale. Por exemplo, e se a moeda ou o dado não são ideais, são viciados para um ou outro resultado? Qual a probabilidade neste caso? Neste contexto entra a interpretação ou definição frequentista (estatística ou “a posteriori”) da probabilidade. Ela se baseia numa repetição de um mesmo experimento cujo resultado tem uma pitada de aleatório, e após certo número de repetições (n), conta-se o número de vezes (ou frequência) em que o evento A ocorreu (n(A)). Neste caso a probabilidade do evento A é a razão entre n(A)e n para n “suficientemente grande”:

\boxed{\text{Pr}(A)=\displaystyle\lim_{n\rightarrow\infty}\left(\frac{n(A)}{n}\right)}\qquad(2)

Esta definição é mais prática que a clássica, mas não é isenta de problemas. Como conseqüência pelo menos duas linhas de frente competem na interpretação da probabilidade: os subjectivistas e os frequentistas. Não vou entrar em detalhes aqui, já que há muita discussão sobre e assunto e não sou qualificado para descrevê-la apropriadamente (e nem é meu objetivo). No entanto parece-me que, enquanto a interpretação da probabilidade segue por pelo menos estas duas linhas de pensamento (existem outras), a definição de probabilidade moderna é a axiomática de Andrey Nikolaevich Kolmogorov (1903-1987), sendo a mais formal e comum nos livros que pesquisei. Para saber um pouco mais, ler o artigo do Shafer: http://www.glennshafer.com/assets/downloads/articles/article46.pdf
Eu seguirei a abordagem frequentista aqui, pois é a mais comum em físico-química (até onde pude averiguar), e porque é de meu interesse ensinar alguns experimentos no Scilab pra vocês. Por exemplo, podemos mostrar, de maneira não formal, que se jogarmos uma moeda muitas vezes, a probabilidade de dar cara é em torno de 1/2, como previsto pela definição clássica. Ao invés de fazermos o experimento manualmente (ainda sim com uma “grande probabilidade”, com o perdão da palavra, de que a moeda seja viciada) podemos fazê-lo usando qualquer gerador de números aleatórios, e atribuir um valor 1 a um evento e 0 ao outro. No Excel o comando é aleatorio(), que gera um número entre 0 e 1, de modo que é só arredondar para 0 ou 1 no próprio programa. No Scilab você pode escrever uma rotina que diz o seguinte: escolha o número 0 ou 1 aleatoriamente, repita o processo n vezes, e mostre um gráfico da soma dos números aleatórios escolhidos até o momento divido pelo n até o momento. Com este intuito criei o seguinte programa (pode copiar e colar no Scilab diretamente, pois os comentários depois de // não interferem no processo):

s=0; // variável para somar resultados anteriores
for n=1:1000 // faça o procedimento abaixo 1000 vezes
u=round(rand(1))+s; // gere 0 ou 1 aleatoriamente e some com resultados anteriores
P=u/n; // a probabilidade de que saia 1 para um certo ciclo
s=u; // memoriza o resultado anterior para somar todos os 1’s a cada ciclo
plot(n,P,’*’); // faz um gráfico da probabilidade de sortear 1 em função de n
end // fim do ciclo

Que não vou me deter explicando, exceto os comandos que geram números aleatórios (a menos que vocês achem interessante dizer mais nos comentários). O comando rand(1) gera um número aleatório entre 0 e 1. Pode-se especificar a distribuição dos valores (como normal, por exemplo) e coisas do tipo. O round() serve para arredondá-lo para o inteiro mais próximo. Com este princípio pode-se, por exemplo, escolher um número entre 1 e 6 (como num dado), usando o comando round(rand(1)*5)) (pode gerar os números 0, 1, 2, 3, 4 e 5, que você pode associar ao 1, 2, 3, 4, 5 e 6 do dado ou simplesmente somar a 1 cada vez que é gerado). Se você é um químico experimental e acha esse conhecimento inútil, pense de novo, pois precisei fazer vários experimentos em ordem aleatória outrora (para não enaltecer tendências) e tive que fazer sorteios com pedaços de papel. Isso nunca mais! Num exemplo mais concreto, pense que você vai fazer uma curva analítica, onde você mede absorbância em função da concentração dos padrões que você usa. As medidas devem ser feitas em ordem aleatória, de modo que pode-se rotular cada experimento com um número e fazer o sorteio no Scilab, ou no Excel mesmo (usando o comando aleatório() vezes o número de experimentos que você deseja sortear).
Mas o importante mesmo da rotina que escrevi é sua função: ela mostra a probabilidade de dar cara (se a associarmos com o número 1) considerando um número grande de lançamentos de moeda, ao longo de cada lançamento. Observe o gráfico gerado:

Grafico da moeda

A probabilidade tende para 1/2 quando o n é grande, como esperamos para o que chamam de “fair coin”, ou “moeda justa” (ideal, não-viciada). Podemos fazer um experimento similar com o dado. Para isso nos valemos do comando if … then … else … end (“se … então … caso contrário… fim”). Sorteamos um valor entre 0 e 5 (que somado com um leva a valores entre 1 e 6, referentes aos dados), e se aparecer o número 1, por exemplo, contabilizamos o evento. Com esta filosofia escrevi a seguinte rotina:

s=0; // variável para somar resultados anteriores
for n=1:500 // repita processo 500 vezes, n sendo a variável de iteração
r=round(rand(1)*5); // gere um número inteiro de 0 a 5 escolhido aleatoriamente
if (r+1)==1 then // se (número de 0 a 5) + 1 = 1 então…
c=1; // variável c igual a 1 para contabilizar evento
else // qualquer outra coisa
c=0; // variável c igual a 0 para não contabilizar evento
end // fim do comando condicional
u=c+s; // u equivale ao valor do número de contabilizações do 1 neste n
P=u/n; // probabilidade frequentista de sortear 1 num dado
plot(n,P,’o’); // plota o gráfico da probabilidade em função de n
s=u; // memorizar quantas contabilizações foram feitas de 1
end // fim de um dos 500 ciclos

Com o gráfico abaixo:

Grafico do dado 1

Pode-se ver que a probabilidade de que ocorra o número 1 entre números de 1 à 6 (o sorteio de um dado ideal) é 1/6, como esperado. Se queremos contabilizar mais de um tipo de evento, por exemplo, que ocorra não só o valor 1 mas o 2 também, usamos o comando select … case … then … else … end:

s=0; // variável para somar resultados anteriores
for n=1:500 // faça procedimento abaixo 300 vezes
r=round(rand(1)*5); // gere um número entre 0 e 5 aleatoriamente
select (r+1) // selecione o valor r + 1
case 1 then // se ele for igual a 1 então …
c=1; // contabilizamos 1 evento
case 2 then // se ele for igual a 2 então…
c=1; // contabilizamos 1 evento
else // caso contrário, isto é, não saia nem 1 nem 2
c=0; // não contabilize
end // fim do processo de seleção
u=c+s; // o número de vezes em que 1 e 2 foram selecionados
P=u/n; // a probabilidade de 1 e 2 serem sorteados num após certo número de ciclos
plot(n,P,’o’); // plota gráfico de probabilidade em função do número do ciclo
s=u; // memoriza número de vezes em que 1 ou 2 foram escolhidos
end // finaliza ciclo

Com gráfico:

Gráfico de dado 2

Como a probabilidade de sortear 1 ou 2 com um dado de 6 lados ideal é 2/6 = 1/3, encontra-se um valor próximo a 0,33 nos resultados acima.

Uma característica básica e importante da probabilidade de um evento A qualquer é que:

\boxed{0\leq\text{Pr}(A)\leq 1}\qquad(3)

O que, na interpretação frequentista, pode ser deduzido considerando que:

0\leq n(A)\leq n

Dividindo por n:

0\leq\displaystyle\frac{n(A)}{n}\leq 1

Para n suficientemente grande se chega à equação (3) a partir da equação acima. Na abordagem axiomática de Kolmogorov a equação (3) é um de três axiomas (não é deduzido, é assumido, não no sentido de hipótese, mas de um pilar para desenvolvimento da teoria das probabilidades). A probabilidade de um evento que certamente deve ocorrer é 1, e a de que um evento impossível ocorra é 0.

Quando somamos ou multiplicamos probabilidades?

Teorema 1 (Soma de probabilidades): Se dois eventos A A e B B são mutuamente excludentes (a ocorrência de um implica a não ocorrência de outro, e vice-versa), então a probabilidade resultante da ocorrência de um ou outro evento é dada pela soma das probabilidades individuais:

\boxed{\text{Pr}(A\ \text{ou}\ B)=\text{Pr}(A)+\text{Pr}(B)}\qquad(4)

Prova: Se no conjunto de n medidas, n(A) correspondem à ocorrência de A e n(B) à ocorrência de B, o número de medidas que correspondem a ocorrência de A ou de B (n(A\ \text{ou}\ B)) é a soma n(A)+n(B):

n(A\ \text{ou}\ B)=n(A)+n(B)\qquad(5)

Chega-se a equação (4) pelo seguinte procedimento:

\begin{array}{ccc}  \displaystyle\frac{n(A\ \text{ou}\ B)}{n}=\displaystyle\frac{n(A)}{n}+\displaystyle\frac{n(B)}{n} & \text{(dividindo equa\c{c}\~{a}o (5) por \emph{n})}\\ \displaystyle\lim_{n \to \infty}\left(\displaystyle\frac{n(A\ \text{ou}\ B)}{n}\right)= \displaystyle\lim_{n \to \infty}\left(\displaystyle\frac{n(A)}{n}\right)+\displaystyle\lim_{n \to \infty}\left(\displaystyle\frac{n(B)}{n}\right) & \text{(tirando o limite \emph{n}}\to\infty) \\ \text{Pr}(A\ \text{ou}\ B)=\text{Pr}(A)+ \text{Pr}(B) & \text{(usando a equa\c{c}\~{a}o (2))}\end{array}

Obs. 1: Uma outra notação para o teorema acima é usando as variáveis aleatórias A e B, que podem assumir valores a_i e b_j, e a probabilidade de que A seja igual a a_i é \text{P}\{A=a_i \}=\text{P}_A(a_i). Deste modo o teorema fica \text{P}\{A=a_i\ \text{ou}\ B=b_j \}=\text{P}\{A=a_i\}+\text{P}\{B(b_j\}=\text{P}_A(a_i)+\text{P}_B(b_j). Existe uma associação de probabilidade com a teoria dos conjuntos que não vou abordar, mas é importante citar que se x\in (A\cup B) (x pertence a um conjunto formado pela união dos conjuntos A e B), por definição isso implica que x\in A ou x\in B. O x aqui pode ser uma variável aleatória que “deve escolher” entre pertencer ao conjunto A ou ao conjunto B por vez (escrito de maneira bastante informal) – como o valor de um dado que pode pertencer ao conjunto dos números ímpares ou dos pares.

Obs. 2: O teorema 1 permite verificar facilmente a simetria que assumimos na definição clássica de probabilidade, isto é, o fato de considerarmos todos os eventos possíveis igualmente prováveis. Por exemplo: a probabilidade de um dado (de 6 lados) dar 1 ou 2 é 2/6 = 1/3. Na verdade é a soma da probabilidade dos dois eventos mutuamente exclusivos, sortear 1 e sortear 2: Pr(1 ou 2) = Pr(1) + Pr(2) = 1/6 + 1/6 = 2/6 = 1/3. Como discutimos, nem sempre é o caso na prática (imagine a dificuldade de encontrar um dado ideal!).

Teorema 2 (multiplicação de probabilidades): Sejam dois eventos estatisticamente independentes (um não implica o outro e vice-versa) A e B. Sendo a probabilidade de A ocorrer \text{Pr}(A) e a de B ocorrer de \text{Pr}(B), a probabilidade dos dois eventos ocorrerem simultaneamente, \text{Pr(\emph{A}\ e\ \emph{B})}, é obtida pela seguinte relação:

\boxed{\text{Pr(\emph{A}\ e\ \emph{B})}=\text{Pr}(A)\times \text{Pr}(B)}\qquad(6)


Obs. 3: Mais uma vez em termos de variáveis aleatórias A e B, com probabilidades de assumir os valores a_i e b_j, \text{P}_A(a_i) e \text{P}_B(a_j), o teorema acima é descrito como \text{P}\{A=a_i\ e\ B=b_j\}=\text{P}_A(a_i)\times \text{P}_B(b_j). A origem do “e” no \text{Pr(\emph{A}\ e\ \emph{B})} na linguagem da teoria dos conjuntos está associada à definição de interseção: se x\in (A\cap B), então x\in A e x\in B.

Prova: Digamos que sejam feitas n medidas no sistema independente que pode resultar no evento A, e m medidas no que pode resultar no evento B (num sorteio de dois dados um deles dando 1 e outro dando um número par, por exemplo). Pelo teorema 1 do post “Análise combinatória rudimentar – Parte 1”, o número de pares n eventos com m eventos é n\times m. Se de n eventos, n(A) deles correspondem a ocorrência do evento A, e dos m eventos, m(B) deles correspondem a ocorrência de B, o número total de possíveis ocorrências simultâneas de A e B dentre todas as possíveis no conjunto de n\times m possibilidades é n(A)\times m(B). Logo o número de eventos favoráveis (A e B simultaneamente = n(A\ \text{e}\ B)) é:

n(A\ \text{e}\ B)=n(A)\times m(B)\qquad(7)

Pode-se chegar à equação (6) a partir da equação (7) pelo seguinte procedimento:

\begin{array}{ccc}  \displaystyle\frac{n(A\ \text{e}\ B)}{n\times m}=\displaystyle\frac{n(A)\times n(B)}{n\times m} & \text{(dividindo (7) pelo n\'{u}mero total de pares de eventos poss\'{i}veis)} \\ \displaystyle\lim_{n,m \to \infty}\left(\displaystyle\frac{n(A\ \text{e}\ B)}{n\times m}\right)=\displaystyle\lim_{n,m \to \infty}\left(\displaystyle\frac{n(A)\times m(B)}{n\times m}\right) & \text{(tirando o limite para \emph{n} e \emph{m} ao infinito em (7))} \\  \displaystyle\lim_{n,m \to \infty}\left(\displaystyle\frac{n(A\ \text{e}\ B)}{n\times m}\right)=\displaystyle\lim_{n \to \infty}\left[\displaystyle\lim_{m \to \infty}\left(\displaystyle\frac{n(A)\times m(B)}{n\times m}\right)\right] & \text{(aplicando propriedades dos limites)} \\ \displaystyle\lim_{n,m \to \infty}\left(\displaystyle\frac{n(A\ \text{e}\ B)}{n\times m}\right)=\displaystyle\lim_{n \to \infty}\left[\left(\displaystyle\frac{n(A)}{n}\right)\times \displaystyle\lim_{m \to \infty}\left(\displaystyle\frac{m(B)}{m}\right)\right] &  \\  \displaystyle\lim_{n,m \to \infty}\left(\displaystyle\frac{n(A\ \text{e}\ B)}{n\times m}\right)=\displaystyle\lim_{n \to \infty}\left(\displaystyle\frac{n(A)}{n}\right)\times \displaystyle\lim_{n \to \infty}\left(\displaystyle\frac{m(B)}{m}\right) & \\ \text{Pr}(A\ \text{e}\ B)=\text{Pr}(A)\times \text{Pr}(B) & \text{usando a equa\c{c}\~{a}o (2)}   \end{array}

Obs. 4: Assume-se implicitamente nesta demonstração que cada um dos n\times m pares de eventos são igualmente prováveis.

Exemplos

Para aplicar os teoremas 1 e 2 acima usarei como ilustração um diagrama de Venn (referente a John Venn (1824-1923), lógico inglês). No caso do lançamento de um dado ideal, considere as seguintes possibilidades, com o dado resultando em:

Evento A) Um número ímpar;
Evento B) Um número par;
Evento C) Um número inferior a 3;
Evento D) Um número superior ou igual a 3;

Diagrama de Venn 2

As probabilidades de ocorrência de um dos números são equivalentes (definição clássica), e neste caso iguais a 1/6. A probabilidade de ocorrer um número par, ou seja, Pr(2 ou 4 ou 6) é dado pela soma da probabilidade dos eventos individuais mutuamente exclusivos, isto é, de dar 2, 4 ou 6. Como eles são mutuamente excludentes eles são representados acima como círculos separados, pois uma interseção entre eles indicaria que seria possível ocorrer dois ou mais números pares em um único lançamento de dado. A probabilidade resultante de eventos mutuamente exclusivos é a soma das probabilidades individuais (pelo teorema 1). Portanto: Pr(2 ou 4 ou 6) = Pr(2) x Pr(4) x Pr(6) = 1/6 + 1/6 + 1/6 = 3/6 = 1/2 (número que também pode ser obtido considerando a razão da equação (1) diretamente). Como os números só podem ser pares ou ímpares, a probabilidade de que o número sorteado seja impar ou par Pr(A ou B) = 1 = Pr(A) + Pr(B))(pois ou o número é ímpar ou par, sendo mutuamente excludentes), logo a probabilidade de ser sorteado um número ímpar é Pr(A) = Pr(A ou B) – Pr(B) = 1 – (1/2) = 1/2 (o que novamente pode ser calculado pela equação (1)). A probabilidade de que seja sorteado um número superior ou igual a 3 é Pr(3 ou 4 ou 5 ou 6) = Pr(3) + Pr(4) + Pr(5) + Pr(6) = 1/6 + 1/6 + 1/6 + 1/6 = 4/6 = 2/3. A probabilidade do evento complementar (isto é, de um dos possíveis valores que não correspondem ao evento “ser maior ou igual a 3” ocorrerem) é Pr(1 ou 2) = 1 – 2/3 = 1/3.
Observe que os eventos A e D ou A e C (também B e D ou B e C) não são mutuamente excludentes, pois podemos, por exemplo, ter um número ímpar (pertence a A) que é, ao mesmo tempo, inferior a 3 (pertence a C). Digamos que queremos saber a probabilidade de um número ser ímpar e superior ou igual a 3. Neste caso sabemos que os números 3 e 5 se adéquam a esta descrição, e portanto a probabilidade de que ocorram é 2/6 = 1/3 (pela definição clássica). Mas esta probabilidade pode ser calculada também considerando a interseção entre os conjuntos A e D, ou seja, a probabilidade resultante dos dois eventos estatisticamente independentes: Pr(A e D). Como Pr(A) = 1/2 e Pr(D) = 2/3, tem-se que Pr(A e D) = Pr(A) x Pr(D) = 1/2 x 2/3 = 1/3. Para calcular a probabilidade de que o número seja inferior a três (evento C) e par (evento B), pode-se usar a mesma abordagem. Calcula-se antes a probabilidade de ocorrência do evento C, isto é Pr(C) = Pr(1 ou 2) = Pr(1) + Pr(2) = 1/6 + 1/6 = 2/6 = 1/3, e então a de que B e C ocorram: Pr(B e C) = Pr(B) x Pr(C) = 1/2 x 1/3 = 1/6.

Curiosidade

Um curioso paradoxo probabilístico é o problema de Monty Hall, apresentador de um programa de TV dos anos 70. Enunciarei um análogo nacional. Você está no palco com o Sílvio Santos e pode escolher três portas. Em uma delas se esconde a macaca Monga, em outra o Sérgio Malandro dizendo “Iéié” e “Rá”, e numa outra um carro zerinho. Você escolhe uma porta. O Sílvio faz todo o showzinho de apresentador, e abre uma das portas que você não escolheu, mostrando um dos não-prêmios. Digamos que Serginho sai desejando boa sorte. Você tem que escolher uma das duas portas restantes: ou ficar onde está ou abrir a outra que o Sílvio não abriu. Qual a probabilidade de que você escolha o carro zerinho? 1/2, pois temos duas portas igualmente prováveis? Vamos fazer um experimento no Scilab. Executando a seguinte rotina você pode repetir a apresentação do Sílvio quantas vezes quiser, e ver se as probabilidades de você ganhar o carro mudando a porta ou não são realmente iguais. Digamos que queremos ver a probabilidade de ganhar se sempre mudamos de porta usando a seguinte rotina:

//Monte hall versao clean
// Probabilidade de você ganhar se mudar de porta sempre
s=0; // soma valores contabilizados anteriormente
for n=1:500 // faça procedimento abaixo 500 vezes
a=round(rand(1)*2); // sorteie 0, 1 ou 2 aleatoriamente – representa portas 1, 2 e 3
b=round(rand(1)*2); // sorteie 0, 1 ou 2 aleatoriamente – representa o que o candidato escolheu
if a==b then // se você escolheu a porta certa
c=0; // então ao mudar de porta você perde, não contabilizando nada
else // caso contrário, se você não escolheu a porta certa
c=1; // contabiliza um 1 quando você muda, já que você ganha ao escolher a outra restante
end // fim do comando if then else
u=c+s; // soma vitórias ao mudar de porta
P=u/n; // número de vezes que ganha pelo número de ciclos = probabilidade
plot(n,P,’*’); // plota probabilidade em função do número de ciclos
s=u; // atualiza vitórias anteriores
end // fim do ciclo

Trocando o valor do primeiro c de 0 para 1 e o do segundo c de 1 para 0 contabilizamos o número de vezes que se ganha ao se permanecer na mesma porta. O resultado gráfico abaixo em azul é a probabilidade de ganhar se sempre mudamos de porta, e em vermelho se permanecemos sempre com a porta que escolhemos primeiro:

Monty Hall

É claro que ambas as probabilidades não são 1/2, e alguns matemáticos só se convenceram disso por meio de simulações como esta. O porquê é relativamente simples se você pensa um pouco. Você tem uma probabilidade de 1/3 de escolher a porta com o carro, e 2/3 de escolher algo não tão agradável. Logo é mais provável que você escolha a errada. Neste caso, Sílvio vai abrir das duas portas restantes a que têm o Serginho, por exemplo, e deixar o carro na outra prontinho pra você ganhar. Se você escolher a porta certa (menor probabilidade de ocorrer), as probabilidades de ganhar ficando com a mesma porta ou mudando de fato são iguais. De uma maneira mais esquemática, mostra-se abaixo que a probabilidade de você ganhar mudando de porta é 2/3, e ficando na mesma que escolheu antes de 1/3 (como indica a simulação). O que o esquema faz é nada mais que podar o espaço amostral, ou o espaço de possibilidades:

Decisão Monty Hall

(Lembre que se você escolheu a errada, ao mudar de porta você necessariamente escolhe a certa, pois o apresentador abriu a outra errada)

Interessante, não? Quer saber mais sobre isso? Consulte:
http://pt.wikipedia.org/wiki/Problema_de_Monty_Hall (algumas programas para testar)
http://en.wikipedia.org/wiki/Monty_Hall_problem (mais conteúdo teórico)
Mais sobre estatística básica? Consulte:
http://www.textbooksonline.tn.nic.in/books/12/std12-stat-em.pdf

Posted in Geral | 2 Comments

Química em linguagem formal – 3

Constante de equilíbrio

É importante numa ciência exata determinar constantes em “condições controladas”, e quais os limites que mantêm essa invariância. Às vezes, ao invés de valores numéricos constantes, buscamos relações, que exprimimos por meio de equações (ou inequações), que se sustentam em determinadas condições. Em física isso pode ser exemplificado pela por vezes lembrada como equação de Boyle (largamente aplicada em termodinâmica química, naturalmente):

pV=nRT\qquad(1)

Em que p, V, n e T são pressão, volume, número de moles e temperatura de um gás, respectivamente, e R é uma constante dos gases, 8,3145 \text{J}\cdot\text{K}^{-1}\cdot\text{mol}^{-1}. Pra mim é uma das equações mais icônicas das ciências exatas pois, junto com seu poder preditivo, trouxe a representação filosófica do conceito de estado ideal (útil como estado de referência), na forma de gás ideal, ou um gás que obedece esta relação (1). Isso fica talvez mais evidente quando se define a compressibilidade de um gás, Z, de modo que:

Z=\displaystyle\frac{pV}{nRT}\qquad(2)

Para gases ideais, ou seja, a baixas pressões e temperaturas, Z é próximo de 1.
Para os químicos talvez a constante mais icônica (vai da opinião de cada um) é a constante de equilíbrio, geralmente representada pela letra K. Para uma reação genérica:

\sum_{i=1}^{r}v_{A_i}A_i\rightleftharpoons \sum_{i=1}^{p}v_{B_i}B_i\qquad(3)

Com r reagentes e p produtos, com coeficiente estequiométrico v_{A_i} para o reagente A_i, e o coeficiente estequiométrico v_{B_i} para o reagente B_i. A constante de equilíbrio para uma dada pressão e temperatura (já que a constante de equilíbrio está relacionada à energia livre de Gibbs, obtida assumindo esta hipótese):

K=\displaystyle\frac{a_{B_1}^{v_{B_1}}\times a_{B_2}^{v_{B_2}}\times ...\times a_{B_p}^{v_{B_p}}}{ a_{A_1}^{v_{A_1}}\times a_{A_2}^{v_{A_2}}\times ...\times a_{A_r}^{v_{A_r}}}=\displaystyle\frac{\displaystyle\prod_{i=1}^{p}a_{B_i}^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}a_{A_i}^{v_{A_i}}}\qquad(4)

Em que a_{A_i}^{v_{A_i}} é a atividade da espécie A_i.

(Obs. 1: Às vezes a constante de equilíbrio é expressa como um único produtório, K=\displaystyle\prod_{j=1}^{r+p}a_j^{v_j}, em que a_j é a atividade da espécie j (que pode ser reagente ou produto), e v_j é o coeficiente estequiométrico da espécie j, sendo positivo para produtos e negativo para reagentes).

A atividade sempre está associada à um estado padrão. Em se tratando de gases, a atividade está relacionada com a fugacidade (f) pela relação abaixo:

a_k=\displaystyle\frac{f_k}{f_k^0}\qquad(5)

Em que a k é a fugacidade da espécie k numa mistura, e f_k^0 é a fugacidade de k no estado padrão, neste caso, (a) o gás puro (b) com fugacidade unitária (f_k^0 \text{1 bar}) e (c) em condições ideais (estado hipotético). A fugacidade é geralmente associada à pressão (parcial) efetiva de um gás ou vapor em condições não ideais e, segundo sugestão de Lewis e Randall, pode ser definida como:

f_k=x_k p\,\text{exp}\left[\displaystyle\int_{0}^{p}\left(\displaystyle\frac{Z-1}{p'}\right)dp'\right]\qquad(6)

Em que x_k é a fração molar do componente k e p é a pressão total da mistura.

(Obs. 2: Diferença entre gás e vapor é a possibilidade de condensá-lo pela aplicação de pressão. Se não for possível fazê-lo, mesmo em elevadas pressões, é um gás. Se for possível, é vapor. Uma maneira de identificar se a espécie se encontra num “estado” ou noutro é pela comparação da temperatura em questão com a temperatura crítica. Por exemplo, a temperatura crítica para a água é 374 ºC, por isso ela é um vapor a 25ºC – temperatura “ambiente” não de onde moro! – pois 25ºC é menor que a temperatura crítica. Portando ela pode ser condensada por aumento da pressão. O mesmo ocorre com o dióxido de carbono, com temperatura crítica em torno de 31 ºC. Já o oxigênio, com temperatura crítica de aproximadamente -115ºC, pode ser pressionado a vontade sem, no entanto, condensar em temperatura ambiente, sendo, portanto, um gás).

Obs. 3: Observe que na equação (6) p' é a variável de integração, e p um dos limites de integração. É importante deixar clara a diferença entre as duas, embora não ocorra com freqüência em livros de química. Por exemplo, em livros de cinética, a equação diferencial \frac{d[A]}{dt}=-k[A], geralmente é resolvida por integração expressando-se as seguintes integrais definidas: \int_{[A]_0}^{[A]}\frac{d[A]}{[A]}=-k\int_0^{t}dt. Está tecnicamente incorreto, pois o t (limite de integração) é uma constante ao se resolver a integral, e t (variável de integração) é uma variável. Uma solução interessante seria essa: \int_{[A]_0}^{[A]}\frac{d[A] '}{[A] '}=-k\int_0^{t}dt'. Tentei outras, mas esta me pareceu a mais satisfatória até o momento).

Vamos explorar a equação (6) um pouco. Primeiramente observemos a fugacidade do estado padrão. A condição (a) do estado padrão faz com que a atividade seja um para gases puros (pois f_k=f_k^0). Adicionalmente a condição (c), tanto para o estado padrão como para qualquer estado, implica que o integrante da equação zera (pois o Z-1 tende para zero quando p baixa), e \text{exp[0]=1}. Deste modo temos que:

\displaystyle\lim_{p \to 0}f_k=x_kp\qquad(7)

Sabemos, pela relação abaixo (que leva a lei das pressões parciais de Dalton):

\displaystyle\lim_{p \to 0}\displaystyle\frac{p_k}{p}=x_k\qquad(8)

Em que p_k é a pressão parcial do gás k. Substituindo a relação (8) na (7) temos:

\displaystyle\lim_{p \to 0}f_k=p_k\qquad(9)

Voltando para o estado padrão, a condição (b) (seguida das outras (a) e (c)) implica que f_k^0=p_k^0=\text{1 bar}. Logo podemos concluir que:

a_k=\displaystyle\frac{f_k}{p_k^0}\qquad(10)

E em condições ideais (p \rightarrow 0):

a_k\approx \displaystyle\frac{p_k}{p_k^0}\qquad(11)

Para líquidos, a atividade é definida segundo a equação (12):

a_k=\gamma_k x_k\qquad(12)

Em que \gamma_k é o coeficiente de atividade para a espécie k. O coeficiente de atividade está relacionado a interações entre espécies que “suprimem” a sua atuação em algum processo, numa reação, por exemplo. Isso porque a fração molar é uma medida da quantidade de um soluto numa solução, mas essa quantidade pode ser minimizada para uma quantidade efetiva, que denominamos atividade, pois o coeficiente de atividade pode ser menor do que 1 (a atividade sendo, portanto, diferente da fração molar). Essa minimização da disponibilidade do soluto se dá pelas interações dele consigo mesmo ou dele com o solvente. Se as interações com o solvente são muito fortes, como na dissociação de sais, em que os íons são fortemente solvatados, a disponibilidade de íons é efetivamente inferior a sua fração molar, a atividade é inferior a fração molar porque o coeficiente de atividade é menor do que 1 (neste tópico aparece o belo modelo de Debye-Hückel). Em concentrações altas as moléculas do soluto interagem entre si, diminuindo também sua disponibilidade em relação à fração molar, e neste caso o coeficiente de atividade também é inferior a 1. Podemos minimizar estas interações espúrias diluindo a solução. Ou seja, considere a definição de fração molar em função do número de moles das espécies envolvidas (digamos L espécies) e considerando n_s o número de moles do solvente:

x_k=\displaystyle\frac{n_k}{n_s+\displaystyle\sum_{i=1}^{L-1}n_i}\qquad(13)

Para soluções diluídas n_s>>\sum_{i=1}^{L-1}n_i (número de moles do solvente muito superior ao somatório do número de moles das outras espécies) e, obviamente, n_s >> n_k, de modo que nestas condições x_k\rightarrow 0. Ou seja, se x_k\rightarrow 0, \gamma_k\rightarrow 1. Resumindo: a atividade é considerada uma concentração efetiva, da mesma forma que a fugacidade é considerada uma pressão efetiva (já que as interações entre moléculas de um gás fazem-no afastar-se da idealidade, diminuindo sua contribuição efetiva para a pressão).
Ainda no quesito soluções diluídas, façamos algumas aproximações usuais. Primeiro de que a fração molar para soluções diluídas é proporcional a molalidade (b_k). Antes, consideremos que o número de moles de solvente é muito superior ao das outras espécies, assim a equação (13) leva a seguinte aproximação:

x_k \approx \displaystyle\frac{n_k}{n_s}\qquad(14)

Divide-se o numerador e o denominador por 1 kg de solvente:

x_k \approx \displaystyle\frac{n_k/\text{1 kg(s)}}{ n_s/\text{1 kg(s)}}\qquad(15)

E com isso substituímos a molalidade (além de 1 kg por 10^3 g):

x_k \approx \displaystyle\frac{b_k}{b_s}\qquad(16)

A molalidade do solvente (b_s) é o número de moles de solvente em 1 kg dividido por 1 kg. Como n[\text{mol}]=m[\text{g}]/MM[\text{g}\cdot\text{mol}^{-1}]=\text{1 kg}\times (10^3 \text{g}/\text{1 kg})/MM[\text{g}\cdot\text{mol}^{-1}], tem-se que b_s=n[\text{mol}]/\text{1 kg}=(10^3 \text{g}/\text{1 kg})/MM[\text{g}\cdot\text{mol}^{-1}], ou simplesmente b_s=10^3/MM_s. Em todo caso para soluções diluídas a equação (16) pode ser disposta da seguinte forma:

x_k \approx \displaystyle\frac{b_k}{b_s}= \displaystyle\frac{b_k MM_s}{10^3}\qquad(17)

De uma maneira não muito diferente podemos mostrar que a fração molar em soluções diluídas é proporcional a concentração molar, onde desta vez aparece a concentração molar do solvente (M_s). Ela pode ser obtida considerando o seguinte cálculo envolvendo a densidade do solvente (\rho_s):

\rho_s=\displaystyle\frac{m_s}{V_s}=\displaystyle\frac{n_s MM_s}{V_s}=M_s MM_s\\M_s=\displaystyle\frac{\rho_s}{MM_s}\qquad(18)

Como a molaridade é o número de moles pelo volume total, V_T=V_s+\sum_{i=1}^{L-1}V_i, podemos fazer a seguinte transformação a partir da equação (14):

x_k \approx \displaystyle\frac{n_k/V_T}{n_s/V_T}=\displaystyle\frac{M_k}{n_s/V_T}\qquad(19)

Considerando que o volume do solvente é muito superior a dos solutos (o suficiente para que a não aditividade dos volumes não seja evidente), V_s>>\sum_{i=1}^{L-1}V_i, e então V_T \approx V_S. Deste modo, usando a equação (18):

x_k \approx \displaystyle\frac{M_k}{n_s/V_T}=\displaystyle\frac{M_k}{n_s/V_s}=\displaystyle\frac{M_k}{M_s}=\displaystyle\frac{M_k MM_s}{\rho_s}\qquad(20)

Observe que uma diferença importante entre as aproximações (17) e (20) é que quando aproximamos a fração molar para concentração um dos termos varia com a temperatura, a saber, a densidade. Isso ilustra uma das vantagens de se usar a molalidade ao invés de molaridade como concentração usual.

Obs. 4: Uma outra vantagem é que numa mistura de soluções o volume final não é necessariamente a soma dos volumes, influenciando na medida da concentração final. Já com a molalidade não há esse problema, porque a soma das massas é a massa total da mistura.

Em soluções diluídas, portanto, podemos dispor a atividade em termos de pressões para gases, e de molalidades e molaridades em líquidos, chegando ao formato usual da constante de equilíbrio. Para gases, portanto, usando as equações (4) e (10):

K_f=\displaystyle\frac{\displaystyle\prod_{i=1}^{p}a_{B_i}^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}a_{A_i}^{v_{A_i}}}=\displaystyle\frac{\displaystyle\prod_{i=1}^{p}(f_{B_i}^{v_{B_i}}/p_{B_i}^0)^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}(f_{A_i}^{v_{A_i}}/p_{A_i}^0) ^{v_{A_i}}}\qquad(21)

(Obs. 5: Uso K_f ou K_p para constante de equilíbrio onde as atividades são calculadas a partir de fugacidades ou pressões, respectivamente, e K_c quando as atividades são calculadas a partir de concentrações molales ou molares).

Em condições tais que os gases podem ser tratados como ideais, temos que:

K_p\approx \displaystyle\frac{\displaystyle\prod_{i=1}^{p}(p_{B_i}^{v_{B_i}}/p_{B_i}^0)^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}(p_{A_i}^{v_{A_i}}/p_{A_i}^0)^{v_{A_i}}}\qquad(22)

Para soluções, a constante de equilíbrio é dada pela equação (23) (devido à equação (4) e (12)):

K_c=\displaystyle\frac{\displaystyle\prod_{i=1}^{p}a_{B_i}^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}a_{A_i}^{v_{A_i}}}=\displaystyle\frac{\displaystyle\prod_{i=1}^{p}(\gamma_{B_i}x_{B_i})^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}(\gamma_{A_i}x_{A_i})^{v_{A_i}}}\qquad(23)

Em soluções diluídas as aproximações das frações molares para molalidade e molaridade levam as equações (24) e (25) abaixo (os coeficientes de atividade próximos a 1):

K_c \approx\displaystyle\frac{\displaystyle\prod_{i=1}^{p}(b_{B_i}/b_s)^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}(b_{A_i}/b_s)^{v_{A_i}}}\qquad(24)

K_c \approx\displaystyle\frac{\displaystyle\prod_{i=1}^{p}(M_{B_i}/M_s)^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}(M_{A_i}/M_s)^{v_{A_i}}}\qquad(25)

Então o que se faz agora, na prática, é definir a molalidade padrão e a molaridade padrão, b^0 e M^0, como \text{1 mol}\cdot\text{L}^{-1} e \text{1 mol}\cdot\text{kg}^{-1}. As molalidades e molaridades do solvente são então b_s b^0/b^0 e M_s M^0/M^0, e faz-se o seguinte particionamento na equação (24) por exemplo:

K_c \approx\displaystyle\frac{\displaystyle\prod_{i=1}^{p}(b_{B_i}/b_s)^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}(b_{A_i}/b_s)^{v_{A_i}}}=\displaystyle\frac{\displaystyle\prod_{i=1}^{p}(b_{B_i}b^0/b_s b^0)^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}(b_{A_i}b^0/b_s b^0)^{v_{A_i}}}=\left(\frac{b^0}{b_s}\right)^{\displaystyle\sum_{i=1}^{p}v_{B_i}-\displaystyle\sum_{i=1}^{r}v_{A_i}}\displaystyle\frac{\displaystyle\prod_{i=1}^{p}(b_{B_i}/b^0)^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}(b_{A_i}/b^0)^{v_{A_i}}}\qquad(26)

O efeito desta transformação é retirar o número correspondente a molalidade do solvente (afinal, ela não é necessariamente \text{1 mol}\cdot\text{kg}^{-1}) e colocá-lo do lado de fora dos produtórios, enquanto que a unidade \text{1 mol}\cdot\text{kg}^{-1} fica dentro dos produtórios e é tomado como padrão. O mesmo pode ser feito com a aproximação da atividade para concentrações:

K_c \approx\displaystyle\frac{\displaystyle\prod_{i=1}^{p}(M_{B_i}/M_s)^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}(M_{A_i}/M_s)^{v_{A_i}}}=\displaystyle\frac{\displaystyle\prod_{i=1}^{p}(M_{B_i}M^0/M_s M^0)^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}(M_{A_i}M^0/M_s M^0)^{v_{A_i}}}=\left(\frac{M^0}{M_s}\right)^{\displaystyle\sum_{i=1}^{p}v_{B_i}-\displaystyle\sum_{i=1}^{r}v_{A_i}}\displaystyle\frac{\displaystyle\prod_{i=1}^{p}(M_{B_i}/M^0)^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}(M_{A_i}/M^0)^{v_{A_i}}}\qquad(27)

Agora observe que como \displaystyle\sum_{i=1}^{p}v_{B_i}-\displaystyle\sum_{i=1}^{r}v_{A_i} (a diferença entre o número de moles de produtos e reagentes) não é necessariamente igual a zero, as concentrações (molales ou molares) do solvente podem não desaparecer do nada. O que se pode fazer é incorporá-las numa nova constante de equilíbrio (a obtida na prática), que chamarei de K_b na aproximação de molalidade e K_M na aproximação de molaridade:

K_b=K_c\displaystyle\left(\frac{b_s}{b^0}\right)^{\displaystyle\sum_{i=1}^{p}v_{B_i}-\displaystyle\sum_{i=1}^{r}v_{A_i}}\approx \displaystyle\frac{\displaystyle\prod_{i=1}^{p}(b_{B_i}/b^0)^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}(b_{A_i}/b^0)^{v_{A_i}}}\qquad(28)

K_M=K_c\displaystyle\left(\frac{M_s}{M^0}\right)^{\displaystyle\sum_{i=1}^{p}v_{B_i}-\displaystyle\sum_{i=1}^{r}v_{A_i}}\approx \displaystyle\frac{\displaystyle\prod_{i=1}^{p}(M_{B_i}/M^0)^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}(M_{A_i}/M^0)^{v_{A_i}}}\qquad(29)

Explorarei um pouco as implicações da forma da constante de equilibro, primeiro ainda na sua relação com as atividades.

i) Para reação inversa da equação (3) a constante de equilíbrio, K', é o inverso de K (equação (4)). Ou seja: K'=1/K=K^{-1}. Prova: Isso pode ser facilmente constatado, tendo em vista de que a atividade dos produtos da nova reação (outrora reagentes) ficam no numerador da nova constante de equilíbrio, e os reagentes (outrora produtos) no denominador:

K'=\displaystyle\frac{\displaystyle\prod_{i=1}^{r}a_{A_i}^{v_{A_i}}}{\displaystyle\prod_{i=1}^{p}a_{B_i}^{v_{B_i}}}=\displaystyle\left[\displaystyle\frac{\displaystyle\prod_{i=1}^{p}a_{B_i}^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}a_{A_i}^{v_{A_i}}}\right]^{-1}=K^{-1}\qquad(30)

ii) Se multiplicamos a reação em (3) por uma constante k, gerando a seguinte reação:

k\sum_{i=1}^{r}v_{A_i}A_i\rightleftharpoons k\sum_{i=1}^{p}v_{B_i}B_i\qquad(31)

A constante de equilíbrio da nova reação K'', pode ser obtida de acordo com a seguinte igualdade: K''=K^k. Prova: A partir da equação (31) temos novos coeficientes estequiométricos:

\sum_{i=1}^{r}(k v_{A_i})A_i\rightleftharpoons \sum_{i=1}^{p}(k v_{B_i})B_i\qquad(32)

E podemos calcular a constante de equilíbrio para esta reação:

K''=\displaystyle\frac{\displaystyle\prod_{i=1}^{p}a_{B_i}^{k v_{B_i}}}{\displaystyle\prod_{i=1}^{r}a_{A_i}^{k v_{A_i}}}=\displaystyle\frac{\displaystyle\left(\displaystyle\prod_{i=1}^{p}a_{B_i}^{v_{B_i}}\right)^k}{\displaystyle\left(\displaystyle\prod_{i=1}^{r}a_{A_i}^{v_{A_i}}\right)^k }=\displaystyle\left[\displaystyle\frac{\displaystyle\prod_{i=1}^{p}a_{B_i}^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}a_{A_i}^{v_{A_i}}}\right]^{k}=K^k\qquad(33)

Para finalizar, vejamos a relação entre as constantes de equilíbrio aproximadas K_p e K_p. Quando as reações ocorrem com espécies na fase gasosa geralmente a constante de equilíbrio usada é K_p, ou seja, em termos das pressões parciais dos componentes da mistura. Mas usando a aproximação dos gases ideais podemos relacionar K_p com as constantes de equilíbrio em termos de concentrações molares (K_M). Primeiro isolemos a concentração padrão da equação (29):

K_M \approx \displaystyle\frac{\displaystyle\prod_{i=1}^{p}(M_{B_i}/M^0)^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}(M_{A_i}/M^0)^{v_{A_i}}}=\displaystyle\frac{(1/M^0)^{\displaystyle\sum_{i=1}^p v_{B_i}}\displaystyle\prod_{i=1}^{p}M_{B_i}^{v_{B_i}}}{(1/M^0)^{\displaystyle\sum_{i=1}^r v_{A_i}}\displaystyle\prod_{i=1}^{r}M_{A_i}^{v_{A_i}}}=(1/M^0)^{\displaystyle\sum_{i=1}^p v_{B_i}-\displaystyle\sum_{i=1}^r v_{A_i}}\displaystyle\frac{\displaystyle\prod_{i=1}^{p}M_{B_i}^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}M_{A_i}^{v_{A_i}}}\qquad(34)

Fazemos os mesmo com a constante de equilíbrio K_p e as pressões padrão (já que numericamente as pressões de referência são equivalentes por serem unitárias: p^0=\text{1 bar}):

K_M \approx \displaystyle\frac{\displaystyle\prod_{i=1}^{p}(p_{B_i}/p_{B_i}^0)^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}(p_{A_i}/p_{A_i}^0)^{v_{A_i}}}=(1/p^0)^{\displaystyle\sum_{i=1}^p v_{B_i}-\displaystyle\sum_{i=1}^r v_{A_i}}\displaystyle\frac{\displaystyle\prod_{i=1}^{p}p_{B_i}^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}p_{A_i}^{v_{A_i}}}\qquad(35)

A partir da equação (1), constata-se que:

M=\displaystyle\frac{n}{V}=\displaystyle\frac{p}{RT}\qquad(36)

Então podemos agora juntar as equações (34) e (35) por meio da (36):

K_M\approx (1/M^0)^{\displaystyle\sum_{i=1}^p v_{B_i}-\displaystyle\sum_{i=1}^r v_{A_i}}\displaystyle\frac{\displaystyle\prod_{i=1}^{p}M_{B_i}^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}M_{A_i}^{v_{A_i}}}=(1/M^0)^{\displaystyle\sum_{i=1}^p v_{B_i}-\displaystyle\sum_{i=1}^r v_{A_i}}\displaystyle\frac{\displaystyle\prod_{i=1}^{p}(p_{B_i}^{v_{B_i}}/RT)}{\displaystyle\prod_{i=1}^{r}(p_{A_i}^{v_{A_i}}/RT)} \\ K_M\approx (1/M^0)^{\displaystyle\sum_{i=1}^p v_{B_i}-\displaystyle\sum_{i=1}^r v_{A_i}} (1/RT)^{\displaystyle\sum_{i=1}^p v_{B_i}-\displaystyle\sum_{i=1}^r v_{A_i}} \displaystyle\frac{\displaystyle\prod_{i=1}^{p}p_{B_i}^{v_{B_i}}}{\displaystyle\prod_{i=1}^{r}p_{A_i}^{v_{A_i}}}=(1/M^0 RT)^{\displaystyle\sum_{i=1}^p v_{B_i}-\displaystyle\sum_{i=1}^r v_{A_i}}(p^0)^{\displaystyle\sum_{i=1}^p v_{B_i}-\displaystyle\sum_{i=1}^r v_{A_i}}K_p \\ K_M\approx \displaystyle\left(\displaystyle\frac{p^0}{RTM^0}\right)^{\displaystyle\sum_{i=1}^p v_{B_i}-\displaystyle\sum_{i=1}^r v_{A_i}}K_p\qquad(38)

Posted in Físico-química, Geral | Leave a comment

Química em linguagem formal – 2

Eletroquímica

Potencial padrão de redução em pilha

Seja a reação hipotética que ocorre numa pilha:

p\sum_{i=1}^{k}a_iA_i^{\alpha_i}+q\sum_{i=1}^{r}x_iX_i^{\theta_i}\rightleftharpoons p\sum_{i=1}^{l}b_iB_i^{\beta_i}+q\sum_{i=1}^{s}y_iY_i^{\phi_i}\qquad(1)

Com as letras romanas minúsculas representado os coeficientes estequiométricos, as maiúsculas as espécies envolvidas na reação e as letras gregas as cargas das respectivas espécies, podendo ser positivas, negativas ou zero. As constantes p e q terão seu significado determinado logo adiante.
Para estudar a passagem de corrente resultante da reação, geralmente a decompomos em duas semi-reações, uma no cátodo e outra no ânodo (se forem várias reações em cada um, agrupam-se as mesmas). No cátodo espontaneamente ocorre uma redução e no ânodo uma oxidação, de modo que as semi-reações abaixo podem ser isoladas, respectivamente:

p\sum_{i=1}^{k}a_iA_i^{\alpha_i}+p\delta e^{-} \rightleftharpoons p\sum_{i=1}^{l}b_iB_i^{\beta_i}\qquad(2a)

q\sum_{i=1}^{r}x_iX_i^{\theta_i} \rightleftharpoons q\gamma e^{-}+q\sum_{i=1}^{s}y_iY_i^{\phi_i}\qquad(2b)

Os coeficientes p e q são os valores usados para balancear o número de elétrons usados nas semi-reações (2a) e (2b), para que o número de elétrons de uma seja equivalente ao da outra. Esta condição será requerida logo adiante.
Tanto a reação (1) quando as (2a) e (2b) obedeçam à conservação das massas (e considerando a massa do elétron desprezível com relação à dos átomos):

\sum_{i=1}^{k}m_{A_i}+\sum_{i=1}^{r}m_{X_i}=\sum_{i=1}^{l}m_{B_i}+\sum_{i=1}^{s}m_{Y_i}\qquad(3)

\sum_{i=1}^{k}m_{A_i}=\sum_{i=1}^{l}m_{B_i}\qquad(4)

\sum_{i=1}^{r}m_{X_i}=\sum_{i=1}^{s}m_{Y_i}\qquad(5)

E, além disso, as três precisam também obedecer à conservação das cargas:

p\sum_{i=1}^{k}a_i\alpha_i+q\sum_{i=1}^{r}x_i\theta_i=p\sum_{i=1}^{l}b_i\beta_i+q\sum_{i=1}^{s}y_i\phi_i\qquad(6)

p\sum_{i=1}^{k}a_i\alpha_i-p\delta=p\sum_{i=1}^{l}b_i\beta_i\qquad(7)

q\sum_{i=1}^{r}x_i\theta_i=q\sum_{i=1}^{s}y_i\phi_i-q\gamma \qquad(8)

Pela, digamos, “conservação dos elétrons”, temos que:

p\delta=q\gamma\qquad(9)

De modo que, a partir de (7) e (8):

p\sum_{i=1}^{k}a_i\alpha_i-p\sum_{i=1}^{l}b_i\beta_i= q\sum_{i=1}^{s}y_i\phi_i-q\sum_{i=1}^{r}x_i\theta_i

Que nada mais é que a própria equação (6).
Bom, considerando a semi-reação em (2a), que ocorre no cátodo (redução espontânea), e a em (2b), que ocorre no ânodo (oxidação espontânea), temos os respectivos potenciais padrão: E_{2a}^0 e E_{2b}^0. Como a semi-reação em (2a) é uma redução, seu potencial padrão de redução, E^0(\text{catodo}), é E_{2a}^0. E como a semi-reação em (2b) é uma oxidação, seu potencial padrão de redução, E^0(\text{anodo}), é o potencial padrão da reação inversa:

q\sum_{i=1}^{r}x_iX_i^{\theta_i}+ q\gamma e^{-}\rightleftharpoons q\sum_{i=1}^{s}y_iY_i^{\phi_i}

Que é -E_{2b}^0. Portanto estabelecemos que E_{2a}^0=E^0(\text{catodo}) e que E_{2b}^0=-E^0(\text{anodo}).
As energia livre de Gibbs padrão (\Delta_rG^0) está relacionada com o potencial segundo a seguinte equação:

\Delta_rG^0=-nFE^0\qquad(11)

Em que n representa o número de elétrons trocados na reação e F é a constante de Faraday, igual a 96485,3399 \text{C}\cdot\text{mol}^{-1}. Como 1 Volt (1 V) = 1 Joule (1 J) / 1 Coulomb (1 C), e o potencial elétrico geralmente é descrito em Volts (para eletroquímicos), a energia livre de Gibbs tem unidades de \text{J}\cdot\text{mol}^{-1}. Considerando que, pelo balanceamento de cargas, o número de elétrons trocados nas semi-reações (2a) e (2b) são p\delta e q\gamma, respectivamente, então:

\Delta_rG_{2a}^0=-p\delta FE_{2a}^0\qquad(12)

\Delta_rG_{2b}^0=-q\gamma FE_{2b}^0\qquad(13)

A reação representada pela equação (1) é formada pela soma das semi-reações (2a) e (2b), logo a energia livre de Gibbs deste processo (\Delta_rG_1^0) é a soma das energias livres das semi-reações:

\Delta_rG_1^0=\Delta_rG_{2a}^0+\Delta_rG_{2b}^0\qquad(14)

Se o número de elétrons trocados na reação (1) é n e o potencial padrão associado a esta reação é E_1^0, temos pelas relações (11) à (14) que:

nFE_1^0=p\delta FE_{2a}^0+q\gamma FE_{2b}^0\qquad(15)

Mas como o número de elétrons trocados na reação (1) é equivalente à p\delta=q\gamma, temos que:

nFE_1^0=nFE_{2a}^0+nFE_{2b}^0

E_1^0=E_{2a}^0+E_{2b}^0\qquad(16)

Pela relação dos potenciais das semi-reações com os respectivos potenciais de redução:

E_1^0=E^0(\text{catodo})- E^0(\text{anodo})

A dedução desta equação mostra ao menos duas coisas importantes. Ao se calcular o potencial padrão de uma reação, os coeficientes usados para multiplicar as semi-reações (para balancear os elétrons), p e q, não interferem no cálculo do potencial padrão resultante a partir dos potenciais de redução das reações do cátodo e do ânodo (como indicado pela equação 17). Adicionalmente vemos que a relação acima não precisa ser simplesmente postulada ou imposta como uma convenção em todos os aspectos, o que geralmente é feito em muitos livros. Usar os potenciais padrão de redução das semi-reações para calcular o da reação total é uma convenção (poderia ser o de oxidação), porém a forma da equação (17) pode ser de fato deduzida, de modo a ser melhor compreendida e assimilada em seus pormenores.

Posted in Eletroquímica, Físico-química, Geral | 1 Comment