Distribuição de probabilidade – Wikipédia, a enciclopédia livre

	Ouça o artigo (info); noicon
	Este áudio foi criado a partir da revisão datada de 8 de janeiro de 2017 e pode não refletir mudanças posteriores ao artigo (ajuda).
	Mais artigos audíveis

Em teoria da probabilidade e em estatística, uma distribuição de probabilidade descreve o comportamento aleatório de um fenômeno dependente do acaso. O estudo dos fenômenos aleatórios começou com o estudo dos jogos de azar – jogos de dados, sorteios de bolas de urna e cara ou coroa eram motivações para compreender e prever os experimentos aleatórios. Essas abordagens iniciais são fenômenos discretos, o que significa que o número de resultados possíveis é finito ou contável. Entretanto, certas questões revelam distribuições de probabilidade com suporte infinito não contável. Por exemplo, quando o lançamento de uma moeda tende ao infinito, o número de coroas aproxima-se de uma distribuição normal.

Flutuações e variabilidade estão presentes em quase todo valor que pode ser medido durante a observação de um fenômeno, independente de sua natureza, além disso quase todas as medidas possuem uma parte de erro intrínseco. A distribuição de probabilidade pode modelar incertezas e descrever fenômenos físicos, biológicos, econômicos, entre outros. O domínio da estatística permite o encontro das distribuições de probabilidade adaptadas aos fenômenos aleatórios.

Há muitas distribuições de probabilidade diferentes. Entre as distribuições de probabilidade, a distribuição normal tem uma importância particular. De acordo com o teorema central do limite, a distribuição normal aborda o comportamento assintótico de várias distribuições de probabilidade.

O conceito de distribuição de probabilidade é formalizado matematicamente pela teoria da medida – uma distribuição de probabilidade é uma medida muitas vezes vista como uma distribuição que descreve o comportamento de uma variável aleatória discreta ou contínua. Uma medida é uma distribuição de probabilidade se sua massa total for 1. O estudo de uma variável aleatória de acordo com uma distribuição de probabilidade discreta revela o cálculo de somas e de séries, enquanto que o estudo de uma variável aleatória de acordo com uma distribuição de probabilidade absolutamente contínua revela o cálculo de integrais. As funções particulares permitem caracterizar as distribuições de probabilidade como a função de distribuição e a função característica.

Definição informal[editar | editar código-fonte]

Teoricamente uma descrição de probabilidade descreve a característica aleatória de uma experiência aleatória.^[1]^[2] O conceito de experiência aleatória surgiu para descrever um processo real de natureza experimental, em que o acaso intervém com resultados possíveis bem identificados.^[3] Por exemplo, em um lançamento de um dado não viciado (um evento aleatório) os resultados podem ser um número entre 1 e 6 com igual probabilidade (de acordo com a distribuição de probabilidade, há a mesma chance de saírem os seis resultados com probabilidade igual a um sexto).

Historicamente distribuições de probabilidade foram estudadas em jogos de azar, jogos de dados, jogos de cartas, entre outros. Se os possíveis resultados dos fenômenos forem números contáveis, a distribuição de probabilidade é chamada discreta. Dar a distribuição de probabilidade significa dar a lista de valores possíveis com suas probabilidades associadas.^[1] Ela é dada por meio de uma fórmula, uma tabela de valores, uma árvore de probabilidade ou funções que serão detalhadas nas seções seguintes.

Em um contexto mais amplo, se os números dos resultados possíveis de um fenômeno aleatório forem finitos (contáveis ou incontáveis) em vez de infinitos, a distribuição de probabilidade descreve a distribuição de probabilidade dos resultados possíveis, mas caracterizados como funções (funções densidade, funções distribuição, entre outros) ou como medidas.^[1]

Histórico[editar | editar código-fonte]

O uso do acaso existe desde os tempos antigos, especialmente em jogos de azar, em apostas de riscos de transportes marítimos ou em rendas vitalícias.^[3] Entretanto, uma das primeiras referências conhecidas para os cálculos de probabilidade é um cálculo elementar sobre a Divina Comédia que aparece apenas no século XV durante o Renascimento.^[4] Os primeiros tratados formam o início da teoria da probabilidade, principalmente com base em probabilidades combinatórias. Os problemas surgem à respeito da duração de um jogo de cartas:

“

Sobre a duração das partidas em que, começando com um mesmo número de fichas, os jogadores as concedem aos poucos ao oponentes que os vencem em uma partida. Pergunta-se em quantas mãos determinadas a mais acabará a partida que pode durar até o infinito.^[5]

”

— Pierre Rémond de Montmort, em seu livro Essay d'analyse sur les jeux de hazard.

Reconhece-se a probabilidade (a aposta) de uma variável (a duração de um jogo) ser menor que um valor (um certo número determinado), que representa a função de distribuição da distribuição de probabilidade de um jogo.

Essa é a tese de Nicolau Bernoulli, publicada em 1711, em que aparece pela primeira vez a distribuição uniforme.^[6] Então, outras distribuições apareceram como a distribuição binomial e a distribuição normal, embora suas abordagens não sejam completamente rigorosas^[6]— por exemplo, a distribuição normal foi desenvolvida por Abraham de Moivre com uma curva de Gauss por uma aproximação numérica.^[7] No século XVIII, outras ideias de distribuições de probabilidade emergiram^[6] com a expectativa de uma variável aleatória discreta com Jean le Rond D'Alembert ou de probabilidades condicionais com Thomas Bayes. Algumas distribuições de probabilidade contínuas estão contidas em uma memória de Joseph—Louis Lagrange, de 1770.^[6]

O uso rigoroso das distribuições de probabilidade começou a partir do século XIX nas ciências aplicadas como na biometria com Karl Pearson^[8] ou na física estatística com Ludwing Boltzmann.^[9]

A definição formal das medidas de probabilidade surgiu em 1896 com uma publicação de Émile Borel,^[10] continuando com outros matemáticos como Henri—Léon Lebesgue, Maurice René Fréchet, Paul Lévy e principalmente Andrei Kolmogorov que formulou os axiomas de probabilidade em 1933.

Definição matemática[editar | editar código-fonte]

Em teoria da probabilidade, uma distribuição de probabilidade é uma medida com massa total igual a 1. Essa medida satisfaz os três axiomas de probabilidade.

Definição^[2] — Para um espaço mensurável $(\Omega ,{\mathcal {A}})$ , $\mathbb {P}$ é uma distribuição de probabilidade, medida de probabilidade ou simplesmente probabilidade se:

$\mathbb {P}$ é uma aplicação de ${\mathcal {A}}$ em [0,1];
$\mathbb {P} (\Omega )=1$ ;
$\mathbb {P}$ é $\sigma$ –aditiva. Isto é, para qualquer família finita ou contável de elementos disjuntos $(A_{i},i\in I)$ de ${\mathcal {A}}$ $\mathbb {P} \left(\bigcup _{i\in I}A_{i}\right)=\sum _{i\in I}\mathbb {P} (A_{i}).$ Uma consequência imediata é: $\mathbb {P} (\emptyset )=0$ .

$(\Omega ,{\mathcal {A}},\mathbb {P} )$ é chamado de espaço de probabilidade.^[11] Usualmente a palavra distribuição é usada quando tratamos de uma distribuição de probabilidade de uma variável aleatória $X$ definida em um espaço de probabilidade $(\Omega ,{\mathcal {A}},\mathbb {P} )$ .

Definição^[12] — Seja uma variável aleatória real no espaço de probabilidade $(\Omega ,{\mathcal {A}},\mathbb {P} )$ . Isto é, uma função mensurável $X:(\Omega ,{\mathcal {A}})\rightarrow (\mathbb {R} ,{\mathcal {B}}(\mathbb {R} ))$ . A distribuição de probabilidade da variável aleatória $X$ é a medida de probabilidade $\mathbb {P} _{X}$ definida sobre o espaço mensurável $(\mathbb {R} ,{\mathcal {B}}(\mathbb {R} ))$ por $\mathbb {P} _{X}(B)=\mathbb {P} {\big (}X^{-1}(B){\big )}=\mathbb {P} (X\in B),$ para qualquer álgebra de Borel real $B\in {\mathcal {B}}(\mathbb {R} )$ . Em outras palavras, $\mathbb {P} _{X}$ é a medida de imagem de $\mathbb {P}$ para $X$ .

Então, para definir a distribuição de uma variável aleatória, transpõe-se a distribuição de probabilidade $\mathbb {P}$ de $\Omega$ em uma medida $\mathbb {P} _{X}$ de $\mathbb {R}$ .

A representação de uma distribuição por uma variável aleatória não é única.^[13] Em outras palavras, duas variáveis aleatórias diferentes ou duas variáveis aleatórias definidas em espaços diferentes podem ter a mesma distribuição. Duas variáveis aleatórias reais $X$ e $Y$ têm a mesma distribuição $\mathbb {P} _{X}=\mathbb {P} _{Y}\$ (em termos de igualdade de medidas). Isto é, $\mathbb {P} _{X}(B)=\mathbb {P} _{Y}(B)$ para todo $B\in {\mathcal {B}}(\mathbb {R} )$ . O seguinte teorema permite uma caracterização adicional.

Teorema de transferência^[14] ou de transporte^[15] — Seja uma variável aleatória real $X:\Omega \rightarrow \mathbb {R}$ . Logo,

$\mathbb {E} \left[\varphi (X)\right]{\stackrel {\text{déf.}}{=}}\int _{\Omega }\varphi {\big (}X(\omega ){\big )}\mathbb {P} (\mathrm {d} \omega )=\int _{\mathbb {R} }\varphi (x)\mathbb {P} _{X}(\mathrm {d} x),$

para toda função $\varphi :\mathbb {R} \rightarrow \mathbb {R}$ , de tal modo que pelo menos uma das duas integrais existe.^[16] A última integral, do ponto de vista da teoria da medida, é uma integral da função $\varphi$ em relação à medida $\mathbb {P} _{X}$ . Essa integral tem forma de soma, no caso das distribuições discretas. Então, duas variáveis aleatórias reais $X$ e $Y$ têm a mesma distribuição se $\mathbb {E} \left[\varphi (X)\right]=\mathbb {E} \left[\varphi (Y)\right]$ para qualquer função $\varphi :\mathbb {R} \rightarrow \mathbb {R}$ , tal que existe pelo menos um dos dois termos da igualdade.

Distribuição multidimensional[editar | editar código-fonte]

Uma distribuição de probabilidade é chamada de multidimensional ou $n$ -dimensional^[17] quando descreve vários valores (aleatórios) de um fenômeno aleatório, por exemplo, no lançamento de dois dados a distribuição de probabilidade dos dois resultados é uma distribuição bidimensional. Então, a característica multidimensional aparece por meio da transferência por uma variável aleatória de um espaço de probabilidade $(\Omega ,{\mathcal {A}})$ para um espaço numérico $E^{n}$ , de dimensão $n$ , por exemplo, no lançamento de dois dados a dimensão é $n=2$ e o espaço $E^{2}$ é $\{1,\dots ,6\}\times \{1,\dots ,6\}$ . A distribuição multidimensional também é chamada de distribuição conjunta.^[18]

Um exemplo importante da distribuição multidimensional é a probabilidade produto $\mathbb {P} =\mathbb {P} _{1}\otimes \mathbb {P} _{2}$ , em que $\mathbb {P} _{1}$ e $\mathbb {P} _{2}$ são duas distribuições unidimensionais. Essa distribuição de probabilidade é uma distribuição de um par de variáveis aleatórias independentes.^[19] Esse é o caso do exemplo do lançamento de dois dados.

Definição — Seja uma variável aleatória $X$ no espaço de probabilidade $(\Omega ,{\mathcal {A}},\mathbb {P} )$ , com valores em ${\mathbb {R} }^{n}$ equipada com produtos de algebras de Borel ${{\mathcal {B}}(\mathbb {R} )}^{\otimes n}$ . A distribuição da variável aleatória $\ X\$ é a medida de probabilidade $\mathbb {P} _{X}$ definida para todo $B\in {{\mathcal {B}}(\mathbb {R} )}^{\otimes n}$

$\mathbb {P} _{X}(B)=\mathbb {P} {\big (}X^{-1}(B){\big )}=\mathbb {P} (X\in B).$

A variável aleatória $X$ é identificada^[20] a um vetor aleatório de dimensões $n$ : $X=(X_{1},X_{2},\dots ,X_{n})$ . O teorema de Cramer-Wold^[21] estabelece que a distribuição ( $n$ -dimensional) do vetor aleatório é completamente determinado pelas distribuições (unidimensionais) de todas as combinações lineares dos componentes: $\sum _{i=1}^{n}a_{i}X_{i}$ para todo $a_{1},a_{2},\dots ,a_{n}$ .

Distribuição absolutamente contínua[editar | editar código-fonte]

Uma distribuição bidimensional ou $n$ -dimensional é chamada de absolutamente contínua^[22] em $\mathbb {R} ^{2}$ quando a distribuição é absolutamente contínua em relação à medida de Lebesgue em $\mathbb {R} ^{2}$ . Isto é, se a distribuição da variável aleatória correspondente é descrita como

$\mathbb {P} (X\in B)=\iint _{B}f_{X}(x_{1},x_{2})\mathrm {d} x_{1}\mathrm {d} x_{2}$ ,

para todo $B\in {\mathcal {B}}(\mathbb {R} ^{2}).$

Distribuição marginal[editar | editar código-fonte]

Uma distribuição marginal de um vetor aleatório é a distribuição dos seus componentes. Para obter-la, projeta-se a distribuição em um espaço unidimensional de uma coordenada desejada. A distribuição de probabilidade da $i$ -ésima coordenada de um vetor aleatório é chamada de $i$ -ésima distribuição marginal $\mathbb {P} _{i}$ .^[23] A distribuição marginal $\mathbb {P} _{i}$ de $\mathbb {P}$ é obtida pela fórmula

$\mathbb {P} _{i}(A)=\mathbb {P} _{X_{i}}(A)=\iint {1}_{\omega _{i}\in A}\mathbb {P} (\mathrm {d} (\omega _{1},\dots ,\omega _{n}))$ ,

para todo $A\in {\mathcal {B}}(\mathbb {R} )$ .

As distribuições marginais de uma distribuição absolutamente contínua são expressas com suas densidades marginais.^[23]

Distribuição condicional[editar | editar código-fonte]

Uma distribuição de probabilidade condicional permite descrever o comportamento de um fenômeno aleatório quando a informação sobre o processo é conhecida. Em outras palavras, a probabilidade condicional permite avaliar o grau de dependência estocástica entre dois eventos,^[24] por exemplo, no lançamento de dois dados a distribuição condicional pode dar a soma dos resultados sabendo que o resultado do lançamento de um dos dois dados foi pelo menos quatro.

Definição para eventos[editar | editar código-fonte]

A probabilidade condicional é definida^[25] em eventos pela probabilidade $\mathbb {P} (\cdot |B)$ : a probabilidade de um evento A qualquer condicionado a um evento B. Para quaisquer $A$ e $B$ da σ-álgebra subjacente tal que $\mathbb {P} (B)\neq 0$

$\mathbb {P} (A|B)={\frac {\mathbb {P} (A\cap B)}{\mathbb {P} (B)}}.$ .

Em probabilidade e em estatística, a distribuição de probabilidade^[26] $\mathbb {P} (\cdot |B)$ comumente usada em distribuição da probabilidade total ou no teorema de Bayes.

Definição para variáveis aleatórias[editar | editar código-fonte]

A probabilidade condicional também é definida para as variáveis aleatórias. Seja uma variável X condicional a uma variável Y. Quando $\mathbb {P} (Y=y)\neq 0$ , a distribuição de $X$ dado $Y=y$ é definida por^[26]

$\mathbb {P} (X\in A|Y=y)={\frac {\mathbb {P} (X\in A,Y=y)}{\mathbb {P} (Y=y)}}.$ .

A definição acima não é válida se a distribuição de Y for absolutamente contínua dado que $\mathbb {P} (Y=y)=0$ para todo $y$ . A definição seguinte é válida para quaisquer das duas variáveis aleatórias.

Definição^[27] — Seja $(X,Y)$ um par de variáveis aleatórias reais. Há uma distribuição de probabilidade $\mathbb {P} _{X|Y}$ , chamada de distribuição condicional de $X$ dado $Y$ ou dado $Y=y$ definida pela e para qualquer função limitada boreliana $\varphi$ : $\mathbb {E} \left[\varphi (X)|Y\right]=\int \varphi (x)\mathbb {P} _{X|Y}(\mathrm {d} x)$ quase certamente.

A distribuição também é denotada como ${\mathcal {L}}(X|Y)$ ou ${\mathcal {L}}(X|Y=y)$ . A igualdade anterior é uma igualdade entre variáveis aleatórias.^[28]

Definição para σ-álgebra[editar | editar código-fonte]

De maneira mais geral, a distribuição de probabilidade é definida a partir da esperança condicional de uma variável aleatória $X$ dada uma σ-álgebra ${\mathcal {G}}$ . Essa esperança condicional é a única variável aleatória ${\mathcal {G}}$ -mensurável denotada como $\mathbb {E} \left[X|{\mathcal {G}}\right]$ , satisfazendo $\mathbb {E} \left[Z\mathbb {E} (X|{\mathcal {G}})\right]=\mathbb {E} \left[ZX\right]$ para todo $Z$ , variável ${\mathcal {G}}$ -mensurável. Então, a distribuição condicional é definida por^[29] $\mathbb {P} (A|{\mathcal {G}})=\mathbb {E} (1_{A}|{\mathcal {G}})$ , em que $1_{A}$ é a função indicadora.

Definição para distribuições absolutamente contínuas[editar | editar código-fonte]

No caso das distribuições absolutamente contínuas, existe uma função densidade condicional de uma distribuição em relação a outra e vice-versa. Se $(x,y)\mapsto f(x,y)$ é a densidade da distribuição bidimensional, as duas densidades condicionais são dadas por^[30]

$f(x|y)={\frac {f(x,y)}{f_{Y}(y)}}={\frac {f(x,y)}{\int f(x,y)\mathrm {d} x}}$ e $f(y|x)={\frac {f(x,y)}{f_{X}(x)}}={\frac {f(x,y)}{\int f(x,y)\mathrm {d} y}}$ .

$f_{X}$ e $f_{Y}$ são as duas distribuições marginais de $X$ e $Y$ , respectivamente. Em substituição das integrais pelas somas, obtém-se fórmulas semelhantes quando as distribuições marginais são discretas ou quando a distribuição marginal de $X$ é discreta e de $Y$ é absolutamente contínua ou vice-versa.^[31]

Distribuição com valores em um espaço de Banach[editar | editar código-fonte]

Porque $\mathbb {R}$ é um espaço de Banach, as distribuições dos valores em um espaço de Banach são generalizações das distribuições dos valores reais. A definição é semelhante.^[32]

Definição — Seja $\ X\$ uma variável aleatória em um espaço de probabilidade $(\Omega ,{\mathcal {A}},\,\mathbb {P} )$ com valores em um espaço de Banach $E$ com σ-álgebra ${\mathcal {B}}$ gerada pelos conjuntos abertos de $E$ . A distribuição de probabilidade da variável aleatória $X\$ e a medida de probabilidade $\mathbb {P} _{X}\$ definida pelo espaço mensurável $\ (E,{\mathcal {B}})$ por $\mathbb {P} _{X}(B)=\mathbb {P} \left(X^{-1}(B)\right)=\mathbb {P} \left(X\in B\right),$ para todo $B\in {\mathcal {B}}$ .

Para obter boas propriedades, é comum considerar as medidas de probabilidade tight. Isto é, Intuitivamente, são as medidas concentradas em seu espaço compacto e com a suposição que o espaço de Banach é separável.^[33]

Um possível exemplo do espaço de Banach é o espaço das funções contínuas ${\mathcal {C}}(\mathbb {R} ^{+},\mathbb {R} )$ . Um processo estocástico de uma família de variáveis aleatórias $(X_{t})_{t\in T}$ indexadas por conjunto de índices $T$ . Uma definição possível da distribuição de probabilidade de tal processo é chamada de distribuição finita-dimensional.^[34] Isto é, a distribuição multidimensional dos vetores $(X_{t_{1}},X_{t_{2}},\dots ,X_{t_{n}})$ quando $t_{1},t_{2},\dots ,t_{n}\in T$ . Então, a distribuição pode ser estendida pelo teorema da extensão de Carathéodory para todo o processo. Um exemplo é movimento browniano $(B_{t})_{t\in \mathbb {R} _{+}}$ (trajetórias contínuas), cuja distribuição de probabilidade é a medida de Weiner^[35] geralmente denotada por $W(A)=\mathbb {P} ((B_{t})_{t\geq 0}\in A)$ para todo subconjunto $A$ de ${\mathcal {C}}(\mathbb {R} ^{+},\mathbb {R} )$ .

Espaço de distribuições de probabilidade[editar | editar código-fonte]

Uma distribuição de probabilidade é uma medida de massa total unitária. O conjunto de distribuições de probabilidade é um subespaço do espaço de medidas finitas. Esse espaço é muitas vezes denominado^[36] ${\mathcal {P}}(\mathbb {R} )$ ou ${\mathcal {M}}_{1}(\mathbb {R} )$ pelas distribuições de probabilidade reais. No restante da seção, as propriedades desse espaço são detalhadas para as distribuições de probabilidade no conjunto dos números reais. Embora também possam ser detalhadas para distribuições em espaços de Banach.

É possível fornecer esse espaço com uma topologia chamada topologia fraca.^[36] Essa topologia define uma convergência fraca das distribuições de probabilidade: uma sequência de distribuições de probabilidade $(\mathbb {P} _{n},n=1,2,\dots )$ converge fracamente para uma distribuição de probabilidade $\mathbb {P}$ se

$\lim _{n\rightarrow \infty }\int \varphi (\omega )\mathbb {P} _{n}(\mathrm {d} \omega )=\int \varphi (\omega )\mathbb {P} (\mathrm {d} \omega )$

para toda função contínua $\varphi$ de um conjunto limitado.

A convergência é denominada $\mathbb {P} _{n}{\xrightarrow {w}}\mathbb {P}$ .^[36] Essa convergência é refletida pelo teorema de transferências de variáveis aleatórias $(\mathbb {X} _{n},n=1,2\dots )$ das respectivas distribuições $(\mathbb {P} _{n},n=1,2,\dots )$ . Então, a convergência de variáveis aleatórias é chamada convergência em distribuição (ou fraca) é denotada $X_{n}{\xrightarrow {\mathcal {L}}}X$ ou $X_{n}{\xrightarrow {\mathcal {D}}}X$ . O termo convergência fraca das variáveis aleatórias é mais frequentemente utilizado.

O espaço de distribuições de probabilidade com topologia fraca é^[37] um espaço métrico, completo e separável (no caso de um espaço de Banach também separável), tornando-se um espaço polonês.

Propriedades[editar | editar código-fonte]

Parâmetros e famílias[editar | editar código-fonte]

Certas distribuições são agrupadas por família em relação a certas propriedades da sua densidade ou da sua função massa de acordo com o número de parâmetros que as definem, chamados de família paramétrica de distribuição de probabilidade.^[38]

Parâmetros[editar | editar código-fonte]

Os chamados parâmetros de posição^[38] influenciam a tendência central da distribuição de probabilidade. Isto é, o valor ou os valores em torno dos quais a distribuição leva seus maiores valores como a esperança, a mediana, a moda, os quantils e os decils.

Os chamados parâmetros de escalonamento^[38] influenciam a dispersão ou o achatamento da distribuição de probabilidade como a variância (momento de segunda ordem), o desvio padrão e o intervalo interquartil.

Os chamados parâmetros de forma^[38] são outros parâmetros relacionados a distribuição de probabilidade. A cauda de uma distribuição de probabilidade real faz parte da sua forma. As caudas da esquerda e da direita são^[39] dos tipos $]-\infty ,x[$ e $[y,+\infty [$ , respectivamente. Uma distribuição de probabilidade é chamada de cauda pesada se a medida de probabilidade da cauda $\mathbb {P} ([y,+\infty [)$ tende mais lentamente a 0, quando $y$ vai para infinito, do que a distribuição normal.^[40] Especialmente para qualquer distribuição absolutamente contínua e centrada, adefinição pode ser representada em termos de densidade:^[40]

$\lim _{|x|\rightarrow +\infty }f(x)\exp \left({\frac {1}{2}}x^{2}\right)=+\infty$

é uma distribuição com caudas direita e esquerda pesadas.

A assimetria (momento de terceira ordem^[41]) é um exemplo de parâmetro de forma, que permite tornar a cauda da direita mais ou menos pesada.^[42] A curtose (momento de quarta ordem^[41]) é usada para apoiar ou opor-se aos valores próximos da média daqueles que estão mais distantes. Uma distribuição de probabilidade é chamada de mesocúrtica, leptocúrtica ou platicúrtica se a curtose é 0, positiva ou negativa.

Famílias[editar | editar código-fonte]

Uma distribuição é chamada de família exponencial a um parâmetro^[43] se sua densidade de probabilidade ou sua função massa depende de apenas uma parâmetro $\theta$ da seguinte forma:

$f(y)={\begin{cases}a(\theta )b(y)\mathrm {e} ^{-c(\theta )d(y)}&{\text{ se }}\alpha <y<\beta \\0&{\text{ em caso contrário.}}\end{cases}}$

Essa família inclui muitas distribuições clássicas como distribuição normal, distribuição exponencial, distribuição Gamma, distribuição qui-quadrado, distribuição beta, distribuição de Bernoulli, distribuição de Poisson, entre outras.

Uma distribuição é chamada de família potência a dois parâmetros^[43] $\alpha$ e $\theta$ se a densidade:

f(y)={\begin{cases}\displaystyle \alpha {\frac {y^{\alpha -1}}{\theta ^{\alpha }}}&{\text{ se }}0\leq y\leq \theta \\0&{\text{ em caso contrário.}}\end{cases}}

Distribuição direcional[editar | editar código-fonte]

Quando uma distribuição de probabilidade multidimensional representa a direção aleatória de um fenômeno, ela é chamada de direcional. É uma distribuição de um vetor aleatório unitário de dimensão $d$ , em que $d\geq 2$ , ou, de maneira equivalente, é uma distribuição de probabilidade na esfera de dimensão $d$ . Uma distribuição direcional de dimensão d pode ser representada por um vetor ( $d$ -1-dimensional) em coordenadas polares como as distribuições de von Mises e de Bingham.^[44]

Momentos[editar | editar código-fonte]

Se existir, o $n$ -ésimo momento de uma distribuição de probabilidade $\mathbb {P}$ é definido como $m_{n}=\int _{\Omega }\omega ^{n}\mathbb {P} (\mathrm {d} \omega )$ . Essa fórmula é descrita^[45] simplesmente como $m_{n}=\mathbb {E} [X^{n}]$ caso a distribuição seja definida a partir de uma variável aleatória $X$ .

O primeiro momento ou momento de ordem 1 também é chamado de esperança da distribuição. Quando o momento é igual a 0, a distribuição é chamada centrada. O segundo momento ou momento de ordem 2 também é chamado de variância da distribuição. Quando o momento é igual a 1, é dito que a distribuição é reduzida.

De uma maneira geral, a coleção de todos os momentos $(m_{n},n\in \mathbb {N} )$ de uma distribuição de probabilidade não é suficiente para caracterizar essa distribuição.^[46] Certas distribuições são definidas por um número finito do seu momento: a distribuição de Poisson é completamente definida por sua esperança,^[47] a distribuição normal é completamente definida por seus dois primeiros momentos.^[48] Certas distribuições não possuem momento como a distribuição de Cauchy.

Entropia[editar | editar código-fonte]

As distribuições de probabilidade permitem representar fenômenos aleatórios. A entropia de Shannon de uma distribuição de probabilidade foi introduzida em termodinâmica para quantificar a desordem molecular de um sistema.^[49] O objetivo é medir a falta da informação em lei de probabilidade.^[50] A entropia foi definida pela primeira vez para as distribuições discretas, tendo sido estendida para as distribuições absolutamente contínuas. Para uma distribuição discreta $\mathbb {P} _{1}=\sum _{i\leq n}p_{i}\delta _{x_{i}}$ e uma distribuição $\mathbb {P} _{2}$ de densidade $f$ , a entropia $H$ é definida respectivamente como^[49]^[51]

$H(\mathbb {P} _{1})=-\sum _{i=1}^{n}p_{i}\log _{2}(p_{i})$ e $H(\mathbb {P} _{2})=-\int _{\mathbb {R} }f(x)\ln(f(x))dx$ .

A distribuição normal é a entropia máxima para todas as distribuições possíveis que possuem a mesma média e o mesmo desvio padrão.^[9]
A distribuição geométrica é a entropia máxima para todas as distribuições discretas que possuem a mesma média.^[9]
A distribuição uniforme contínua é a entropia máxima para as distribuições com suporte limitado.
A distribuição exponencial é a entropia máxima para todas as distribuições em $\mathbb {R} _{+}$ que possuem a mesma média.^[9]
As distribuições lei de potência como a lei de Zipf são a entropia máxima entre aqueles que tem a mesma média de logaritmo.

O estado de entropia máxima é o estado mais desordenado, mais estável e mais provável de um sistema.^[50] Essas leis são os menos evitável de todas as leis compatíveis com as observações ou as condições. Portanto, a única forma objetiva de qualifica-las como distribuições de probabilidade a priori. Essa propriedade tem um papel importante na inferência bayeseana.

Classificação das distribuições de probabilidade na reta real[editar | editar código-fonte]

Distribuições de probabilidade em aplicações mais comuns são distribuições discretas e distribuições absolutamente contínuas. Entretanto, existem distribuições de probabilidade que não são nem discretas nem absolutamente contínuas.^[47]

Distribuições discretas[editar | editar código-fonte]

Definição[editar | editar código-fonte]

Uma distribuição de probabilidade $\mathbb {P}$ é concentrada^[47] ou é realizada em um conjunto $A\in {\mathcal {A}}$ quando $\mathbb {P} (A)=1$ . Uma distribuição de probabilidade $\mathbb {P}$ é chamada de discreta^[11]^[12] se um conjunto $A$ é um conjunto finito ou contável.

O elemento $\omega \in \Omega$ é chamado de átomo de uma distribuição de probabilidade $\mathbb {P}$ quando $\{\omega \}\in {\mathcal {A}}$ e $\mathbb {P} (\{\omega \})\neq 0$ . O conjunto de átomos de uma distribuição discreta é finito ou contável. De modo geral, essa propriedade é válida para toda medida $\sigma$ -finita. Para uma distribuição de probabilidade real, o conjunto de átomos é exatamente o conjunto de pontos de descontinuidade de sua função de distribuição.^[52] Neste caso, a finitude do conjunto de átomos é dada a partir do fato que a função de distribuição é limitada.^[53]

Um critério suficiente para uma distribuição de probabilidade ser discreta é que $\Omega$ seja finito ou contável.

Se $\mathbb {P}$ é discreto, então ele se concentra em particular no conjunto (finito ou contável) dos seus átomos $\Omega _{a}$ . Para definir $\mathbb {P}$ é preciso definir o conjunto dos pares:^[47] $\{(\omega ,p(\omega ))\in \Omega _{a}\times ]0,1]\}$ , em que $p$ é a função de massa de $\mathbb {P}$ . Então, obtém-se

$\mathbb {P} =\sum _{\omega \in \Omega _{a}}p(\omega )\delta _{\omega }$ ,

em que $\delta _{\omega }$ é a medida de Dirac^[13]^[22] no ponto $\omega \in \Omega _{a}$ .

No caso em que a distribuição de probabilidade é definida a partir de uma variável aleatória, os conceitos anteriores são usados para a variável aleatória: uma variável aleatória $X$ , concentrada em conjunto $B\in {\mathcal {B}}(\mathbb {R} )$ , é discreta, se a distribuição $\mathbb {P} _{X}$ concentrada em $B$ , é discreta. Os mesmo átomos de $X$ são os átomos de $\mathbb {P} _{X}$ .^[54]

Para uma variável aleatória discreta $X$ , o teorema de transferência é expresso na forma de somas ou de séries^[54]

\mathbb {E} \left[\varphi (X)\right]=\sum _{x\in \Omega _{a}}\varphi (x)p_{X}(x)

, para toda função

\varphi :\mathbb {R} \longrightarrow \mathbb {R}

,

\mathbb {P} (X\in A)=\sum _{k\in A}\mathbb {P} (X=k)

, para todo

A\in {\mathcal {B}}(\mathbb {R} )

.

Geralmente a função de distribuição de uma distribuição discreta é constante seccionalmente.^[47] Uma distribuição discreta pode ser representada por um gráfico de barras.^[11]

Exemplos[editar | editar código-fonte]

Segue uma lista de distribuições de probabilidade discretas com suportes finitos ou contáveis.

Medida de Dirac

A medida de Dirac é o exemplo mais simples das distribuições discretas no sentido que o suporte possui apenas um valor.^[55] Se uma variável aleatória é a medida de Dirac $\delta _{a}$ , então $X$ é igual a $a$ com probabilidade igual a 1. Essa lei modela um fenômeno determinista (não aleatório) pois o resultado da experiência é quase certamente igual ao valor conhecido $a$ .

Função de distribuição de probabilidade da variável aleatória X	Esperança (1º momento)	Variância (2º momento)	Notação
$F(x)=\left\{{\begin{array}{ll}0,&{\mbox{ se }}x<a\\1,&{\mbox{ se }}x\geq a\end{array}}\right.$	$E[X]=a$	$Var(X)=0$	$\delta ({\vec {x}}-{\vec {x_{o}}})=\delta (x_{1}-x_{1o})\delta (x_{2}-x_{2o})...\delta (x_{n}-x_{no})$ ^[56]

Distribuição uniforme discreta

A distribuição uniforme discreta modela um fenômeno aleatório cujos resultados são igualmente prováveis.^[57] É o caso do lançamento de um dado. Se o suporte $S$ da distribuição é um conjunto de $n$ elementos $\{x_{1},x_{2},\dots ,x_{n}\}$ , a distribuição é definida como $\mathbb {P} (X=x_{1})=\mathbb {P} (X=x_{2})=\ldots =\mathbb {P} (X=x_{n})={\frac {1}{n}}.$

Função de distribuição de probabilidade da variável aleatória X	Esperança (1º momento)	Variância (2º momento)	Notação
$F(x)=\sum _{(x_{i}\leq x)}^{}{\frac {1}{k}}={\frac {n(x)}{k}}$	$E[X]={\frac {1}{k}}\sum _{i=1}^{k}x_{i}$	$Var(x)={\frac {1}{k}}{\Bigg \{}\sum _{}^{}x_{i}^{2}-{\frac {{\big (}\sum _{}^{}x_{i}{\big )}^{2}}{k}}{\Bigg \}}$	$f_{X}(x_{i})=P(X=x_{i})={\frac {1}{n}},\forall i=1,2,...,n$ ^[57]

Distribuição de Bernoulli

A distribuição de Bernoulli corresponde a uma experiência com dois resultados (sucesso ou fracasso), que geralmente correspondem aos valores 1 e 0. Essa distribuição depende de um parâmetro $p\in [0,1]$ para medir a probabilidade de sucesso, sendo definido por $\mathbb {P} (X=1)=1-\mathbb {P} (X=0)=p.$ ^[58]

Função de distribuição de probabilidade da variável aleatória X	Esperança (1º momento)	Variância (2º momento)	Notação
$P(k)={\begin{cases}q=(1-p)&{\text{para }}k=0\\p&{\text{para }}k=1\end{cases}}$	$E\left(X\right)=p$	${\textrm {Var}}\left(X\right)=p\left(1-p\right)$	Ber(p)

Distribuição binomial

É a distribuição do número de sucessos obtidos depois de $n$ ensaios de Bernoulli independentes de parâmetros $p\in [0,1]$ , ou seja, é a distribuição da soma de $n$ variáveis aleatórias independentes da distribuição de Bernoulli de mesmo parâmetro. Essa distribuição com suporte finito é definida por $\mathbb {P} (X=k)={n \choose k}p^{k}(1-p)^{n-k}$ para todo $k\in \{0,1,\dots ,n\}$ .^[58]

Função de distribuição de probabilidade da variável aleatória X	Esperança (1º momento)	Variância (2º momento)	Notação
$P(k)={n \choose k}p^{k}q^{n-k}$	$\operatorname {E} [X]=np$	$\operatorname {Var} [X]=np(1-p)$	Bin(p,n)

Distribuição aritmética

É uma distribuição que concentra-se em um conjunto do tipo $\{k\cdot d,k\in \mathbb {Z} \}$ , em que $d>0$ .^[59]

Distribuição geométrica

É a distribuição que modela o tempo de espera do primeiro sucesso de uma de ensaios de Bernoulli independentes com probabilidade de sucesso $p\in [0,1]$ . É a única distribuição discreta que possui a propriedade de falta de memória. Essa probabilidade com suporte infinito contável é definida por $\mathbb {P} (X=k)=(1-p)^{k-1}p$ . para todo $k\in \mathbb {N} ^{*}$ .

Função de distribuição de probabilidade da variável aleatória X	Esperança (1º momento)	Variância (2º momento)	Notação
$P(k)=(1-p)^{k-1}p$	$E[X]={\frac {1}{p}}$	$Var(X)={\frac {1-p}{p^{2}}}$	$X\sim Geo(p)$ ^[60]

Distribuição de Poisson

A distribuição de Poisson descreve o comportamento do número de eventos que ocorrem em um espaço determinado de tempo. Essa distribuição com suporte infinito contável depende de um parâmetro $\lambda >0$ e é definida por $\mathbb {P} (X=k)={\frac {\lambda ^{k}}{k!}}\mathrm {e} ^{-\lambda }$ para todo $k\in \mathbb {N}$ .

Função de distribuição de probabilidade da variável aleatória X	Esperança (1º momento)	Variância (2º momento)	Notação
$f(k;\lambda )={\frac {e^{-\lambda }\lambda ^{k}}{k!}},$ ^{^[60]183}	$E\left[X\right]=\lambda$	$\operatorname {Var} [X]=\lambda$	Poisson( $\lambda$ )

Distribuição hipergeométrica

A distribuição hipergeométrica modela uma retirada simultânea de $n$ bolas uma urna contendo uma proporção $pN$ de bolas vencedoras e uma proporção $(1-p)N$ de bolas perdedoras para um número total $N$ de bolas. A distribuição descreve o número de bolas vencedoras extraídas. Essa distribuição com suporte finito depende de três parâmetros $n\in \mathbb {N} ^{*}$ , $p\in [0,1]$ e $N\in \mathbb {N} ^{*}$ e é definida por

$\mathbb {P} (X=k)={\frac {{pN \choose k}{(1-p)N \choose n-k}}{N \choose n}}$ para todo $k\in \{0,1,\dots ,n\}$ .

Em geral fixamos a proporção, por exemplo $m=pN$ .

Função de distribuição de probabilidade da variável aleatória X	Esperança (1º momento)	Variância (2º momento)	Notação
$P\{X=i\}={\frac {{m \choose i}{N-m \choose n-i}}{N \choose n}}$ ^[61]	$E[X]={\frac {nm}{N}}$ ^[62]	$Var(X)\approx np(1-p)$ ^[63]	$X\sim Hgeo(M,N,n)$

Distribuição absolutamente contínua[editar | editar código-fonte]

Definição[editar | editar código-fonte]

Uma distribuição de probabilidade real $\mathbb {P}$ é chamada de absolutamente contínua^[64] ou densidade^[22] quando ela é absolutamente contínua em relação a medida de Lebesgue. Se $\mathbb {P}$ é absolutamente contínua, então, de acordo com teorema de Radon-Nikodym,^[65] ela possui uma densidade de probabilidade em relação a medida de Lebesgue. Isto é, existe^[22] uma única (em relação a medida zero de Lebesgue) função mensurável positiva $f:\mathbb {R} \rightarrow \mathbb {R} _{+}$ de tal modo que para qualquer $A\in {\mathcal {B}}(\mathbb {R} )$ : $\mathbb {P} (A)=\int _{A}f(x)\,\mathrm {d} x=\int _{\mathbb {R} }\mathbf {1} _{A}(x)f(x)\,\mathrm {d} x$ , em que $\mathbf {1} _{A}$ é a função característica de Borel $A$ . Essa densidade de probabilidade nem sempre tem a expressão analítica (ver os exemplos abaixo).

Quando uma distribuição de probabilidade absolutamente contínua é definida a partir de uma variável aleatória $X$ , a variável aleatória é chamada absolutamente contínua^[13] ou densidade e a densidade da distribuição $\mathbb {P} _{X}$ é igualmente chamada densidade de $X$ , às vezes denotada $f_{X}$ .

Para uma variável aleatória absolutamente contínua $X$ , o teorema da transferência é escrita^[66] por meio de uma integral de Lebesgue^[64] para toda função $\varphi :\mathbb {R} \longrightarrow \mathbb {R}$ integral em relação a medida $\mathbb {P} _{X}(\mathrm {d} x)=f_{X}(x)\,\mathrm {d} x$ : $\mathbb {E} \left[\varphi (X)\right]=\int _{\mathbb {R} }\varphi (x)f_{X}(x)\,\mathrm {d} x.$

A função de distribuição de uma distribuição absolutamente contínua é localmente absolutamente contínua, uma propriedade necessária e suficiente. Uma distribuição absolutamente contínua não possua átomos.^[67] Entretanto, essa propriedade que opõe-se as distribuições absolutamente contínuas às distribuições discretas não é característica das distribuições absolutamente contínuas mas as leis contínuas (ver a seção distribuições singulares abaixo).

As distribuições absolutamente contínuas também são chamadas de distribuições contínuas.^[68] Este é um equívoco, porque na maioria das aplicações Estatística as distribuições contínuas são absolutamente contínuas,^[69] mas isso não é verdadeiro no caso geral.

Exemplos[editar | editar código-fonte]

Distribuição uniforme

Intuitivamente uma distribuição uniforme sobre um intervalo indica que todos os valores do intervalo tem a mesma chance de aparecer. Mais formalmente cada subintervalo $[c,d]\subset [a,b]$ tem uma probabilidade igual a medida de Lebesgue de $[c,d]$ (multiplicado por uma constante). A distribuição uniforme depende apenas do intervalo, o seu suporte é compacto e a sua densidade é dada pela:

f(x)={\frac {1}{b-a}}

para

x\in [a,b]

.

f(x)=0

em caso contrário.^[70]

Distribuição de probabilidade da variável aleatória X (densidade)	Esperança (1º momento)	Variância (2º momento)	Notação
$f(x,\alpha ,\beta )=\left\{{\begin{matrix}{\frac {1}{\beta -\alpha }},&{\mbox{se }}\alpha \leq x\leq \beta \\0,&{\mbox{em caso contrário}}\end{matrix}}\right.$ ^[70]	$\mathrm {E} [X]={\frac {\alpha +\beta }{2}}$	$\mathrm {Var} [X]={\frac {(\beta -\alpha )^{2}}{12}}$	$X\sim U(\alpha ,\beta )$

Distribuição exponencial

A distribuição exponencial é comumente usada para modelar o tempo de vida de um fenômeno pois é a única distribuição absolutamente contínua com propriedade de falta de memória. Ela pode ser considerada como um análogo continuo de distribuição geométrica. Essa distribuição com suporte semi-infinito depende de um parâmetro $\lambda$ (às vezes chamado de intensidade), em que a densidade é definida como $f(x)=\lambda \mathrm {e} ^{-\lambda x}$ para todo $x\geq 0$ .^[71]

Distribuição de probabilidade da variável aleatória X (densidade)	Esperança (1º momento)	Variância (2º momento)	Notação
$f(x,\lambda )=\left\{{\begin{matrix}\lambda e^{-\lambda x},&{\mbox{se }}x\geq 0\\0,&{\mbox{em caso contrário}}\end{matrix}}\right.$ ^[71]	$\mathrm {E} [X]={\frac {1}{\lambda }}$	$\mathrm {Var} [X]={\frac {1}{\lambda ^{2}}}$	$X\sim Exp(\lambda )$

Distribuição normal

Uma distribuição normal ou distribuição gaussiana é uma distribuição central na teoria da probabilidade. Ela descreve o comportamento de séries de experiências aleatórias quando o número de tentativas é muito grande. É a distribuição limite do teorema central do limite. Ela é igualmente a única distribuição estável de parâmetro 2. A distribuição normal é caracterizada por sua média (que também é sua mediana) e seu desvio-padrão, com suporte da toda reta real. Sua densidade $f(x;\mu ,\sigma ^{2})$ é simétrica e sua forma é comumente chamada de curva de Gauss ou curva em sino.^[72]

Distribuição de probabilidade da variável aleatória X (densidade)	Esperança (1º momento)	Variância (2º momento)	Notação
$f(x;\mu ,\sigma ^{2})={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{\frac {-(x-\mu )^{2}}{2\sigma ^{2}}},$ $x\in \mathbb {R}$ ^[72]	$\mathrm {E} [X]=\mu <\infty$	$\mathrm {Var} [X]=\sigma ^{2}<\infty$	$X\sim N(\mu ,\sigma ^{2})$

Distribuição de Cauchy

A distribuição de Cauchy é a distribuição estável de parâmetro 1, o que dá as boas propriedades. Entretanto, é um exemplo típico de distribuição que não admite momentos, em particular nem média nem variância. Com suporte da toda reta real a sua densidade $f(x;\theta )$ é simétrica.^[73]

Distribuição de probabilidade da variável aleatória X (densidade)	Esperança (1º momento)	Variância (2º momento)
$f(x;\theta )={\frac {1}{\pi }}{\frac {1}{\left[1+(x-\theta )^{2}\right]}},$ $x,\theta \in \mathbb {R}$	Não existe (é infinita) ^[73]	Não existe (é infinita) ^[73]

A distribuição da posição de um movimento browniano no plano quando se atinge a reta $y={\frac {1}{2}}$ é uma distribuição de Cauchy.^[74]

Distribuição de Tukey-Lambda

Uma distribuição de Tukey-Lamba é uma distribuição absolutamente contínua. Logo possui uma densidade de probabilidade, mas não possui uma expressão analítica. Essa distribuição depende de um parâmetro $\lambda$ e é definida a partir da função quantil $Q(p)$ .^[75]

Distribuições singulares[editar | editar código-fonte]

Definição[editar | editar código-fonte]

Uma distribuição de probabilidade $\mathbb {P}$ é chamada de contínua ou difusa^[52] quando não possui nenhum átomo.

Em particular, as distribuições absolutamente contínuas são contínuas mesmo que o inverso não seja verdadeiro. A função de distribuição de uma distribuição contínua ser contínua^[52] é uma propriedade necessária e suficiente.

Uma distribuição de probabilidade $\mathbb {P}$ é chamada de singular quanto ela é contínua, mas não absolutamente contínua. Isto é, quando uma distribuição singular não possui nem átomo nem densidade. Esses conceitos também valem para as distribuições de probabilidade definidas a partir de variáveis aleatórias: uma variável aleatória $X$ é contínua ou difusa, respectivamente singular, quando a distribuição de probabilidade associada $\mathbb {P} _{X}$ é contínua ou difusa, respectivamente singular.^[52]

Exemplo[editar | editar código-fonte]

Distribuição de Cantor

É uma distribuição singular, definida a partir do conjunto de Cantor $\left\{\sum _{n=1}^{\infty }{\frac {x_{n}}{3^{n}}}\ |\,x_{n}\in \{0,2\}\right\}$ . Quando $X_{n}$ são variáveis aleatórias independentes e identicamente distribuídas de uma distribuição uniforme discreta em $\{0,2\}$ , então $X=\sum _{n=1}^{\infty }{\frac {X_{n}}{3^{n}}}$ é uma variável aleatória da distribuição de Cantor.^[76] Essa distribuição de probabilidade^[77] descrita como $\mathbb {P} _{X}=({\frac {1}{2}}\delta _{0}+{\frac {1}{2}}\delta _{2})^{\otimes \mathbb {N} }$ é a distribuição uniforme do conjunto de Cantor. Sua função de distribuição é a escada de Cantor, diferenciável quase em todos pontos e derivada igual a zero em quase todos pontos.^[76]

Em aplicações, é raro que uma distribuição contínua contenha uma parte singular.^[69] Entretanto, o conjunto de Cantor aparece em exemplos conhecidos como o conjunto de zeros do movimento browniano.

Outros casos[editar | editar código-fonte]

Existem distribuições de probabilidade que não são nem discretas nem absolutamente contínuas nem singulares, às vezes denominadas leis mistas.^[78]^[79] De um ponto de vista mais geral, toda distribuição de probabilidade $\mathbb {P}$ pode se decompor^[69]^[53] em uma combinação linear de uma distribuição contínua $\mathbb {P} _{\text{c}}$ e de uma distribuição discreta $\mathbb {P} _{\text{d}}$ . O teorema da decomposição de Lebesgue aplicado^[69] a $\mathbb {P} _{\text{c}}$ indica que essa distribuição contínua se decompõe em uma combinação linear de duas distribuições contínua, uma $\mathbb {P} _{\text{ac}}$ absolutamente contínua com relação à medida de Lebesgue e outra $\mathbb {P} _{\text{s}}$ singular sem relação à medida de Lebesgue. Então, a decomposição é descrita como $\mathbb {P} =\alpha \mathbb {P} _{\text{d}}+(1-\alpha )\mathbb {P} _{\text{c}}=\alpha \mathbb {P} _{\text{d}}+\beta \mathbb {P} _{\text{ac}}+\gamma \mathbb {P} _{\text{s}}$ , em que $\alpha ,\beta ,\gamma \in [0,1]$ e $\alpha +\beta +\gamma =1$ . A presença de $(\alpha ,\beta ,\gamma )$ garante que $\mathbb {P} (\Omega )=1$ .

A seguinte distribuição de probabilidade real de um exemplo de uma distribuição mista obtida com a junção entre a distribuição discreta definida pelos átomos $\{x_{k},k\in \mathbb {N} \}$ com a função de massa $p$ , e a distribuição absolutamente contínua^[69] de densidade $f$ é descrita como $\mathbb {P} (\mathrm {d} x)=\alpha f(x)\,\mathrm {d} x+(1-\alpha )\sum _{k\in \mathbb {N} }p(x_{k})\delta _{x_{k}}(\mathrm {d} x)$ sendo $\alpha \in ]0,1[$ . Sua função de distribuição é uma função contínua por partes,^[80] mas não constante por partes como as funções de distribuição das distribuições discretas.

Intuitivamente isso corresponde a um fenômenos aleatório com a distribuição absolutamente contínua. Imagine o aparelho de medida que não pode medir os dados a partir de um certo limiar $c$ . Todas as medidas não detectadas pelo aparelho serão atribuídas a 0: a distribuição será nula em qualquer parte menor do que $c$ , em seguida, um salto aparece em singleton $c$ . As medidas seguem a distribuição absolutamente contínua para os valores maiores que $c$ .^[78] No exemplo, a função de distribuição é descontínua em $c$ .

Características de uma distribuição de probabilidade[editar | editar código-fonte]

Existem várias funções de variáveis reais ou complexas que determinam exclusivamente as distribuições de probabilidade. Certas propriedades dessas funções permitem deduzir propriedades para as distribuições como o cálculo de momento ou uma expressão da convergência em distribuição.^[2]

Utilização da função de distribuição[editar | editar código-fonte]

De acordo com o sistema de Dynkin, os conjuntos $]-\infty ,x]$ chamados paralelepípedos ou retângulos geram^[81] algebra de Borel ${\mathcal {B}}(\mathbb {R} )$ que são suficientes para definir uma distribuição de probabilidade dos paralelepípedos. Supõe-se que a distribuição de probabilidade seja real. Isto é, $(\Omega ,{\mathcal {A}})=(\mathbb {R} ,{\mathcal {B}}(\mathbb {R} ))$ .

A função de distribuição de uma distribuição de probabilidade real $\mathbb {P}$ denotada como $F$ ^[82] é a função definida para todo $x\in \mathbb {R}$ $F(x)=\mathbb {P} {\big (}]-\infty ,x]{\big )}.$

Uma distribuição de probabilidade é caracterizada por sua função de distribuição. Isto é, duas distribuições de probabilidade são iguais se e somente se suas funções de distribuição forem iguais.^[83]

Mais genericamente, toda função monótona càdlàg $F$ é verificável: $\lim _{x\to -\infty }F(x)=0$ e $\lim _{x\to \infty }F(x)=1$ são funções de distribuição de uma única^[84] distribuição de probabilidade em $\mathbb {R}$ . A distribuição de probabilidade definida a partir de uma função de distribuição é chamada de medida de Lebesgue-Stieltjes.^[83]

Uma das vantagens da função é que ela é bem definida para qualquer distribuição de probabilidade.^[84] Entretanto, ela nem sempre tem expressão explícita, por exemplo, a função de distribuição de distribuição normal. A função de distribuição às vezes permite o cálculo de distribuições tais que como a distribuição do máximo ou do mínimo de uma amostra e fornece um critério conveniente^[85] de convergência de distribuições de probabilidade pelo teorema de Portmanteau.

Utilização da função característica[editar | editar código-fonte]

Chamada função característica de uma distribuição de probabilidade $\mathbb {P}$ e denotada como $\Phi$ é a simetria da transformada de Fourier de $\mathbb {P}$ . Para todo $t\in \mathbb {R}$ :

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]