Beta-Verteilung

Beta-Verteilung für verschiedene Parameterwerte
Kumulative Verteilungsfunktion für verschiedene Parameterwerte

Die Beta-Verteilung ist eine Familie stetiger Wahrscheinlichkeitsverteilungen über dem Intervall ( 0 , 1 ) {\displaystyle (0,1)} , parametrisiert durch zwei Parameter, die häufig als p und q – oder auch als α und β – bezeichnet werden. In der bayesschen Statistik ist die Beta-Verteilung die konjugierte a-priori-Wahrscheinlichkeitsverteilung für die Bernoulli-, Binomial-, der negativen Binomial- und der geometrischen Verteilung.

Definition

Die Beta-Verteilung Beta ( p , q ) {\displaystyle \operatorname {Beta} (p,q)} ist definiert durch die Wahrscheinlichkeitsdichte

f ( x ) = 1 B ( p , q ) x p 1 ( 1 x ) q 1 . {\displaystyle f(x)={\frac {1}{\mathrm {B} (p,q)}}x^{p-1}(1-x)^{q-1}.}

Außerhalb des Intervalls ( 0 , 1 ) {\displaystyle (0,1)} wird sie durch f ( x ) = 0 {\displaystyle f(x)=0} fortgesetzt. Für p , q 1 {\displaystyle p,q\geq 1} lässt sich ( 0 , 1 ) {\displaystyle (0,1)} durch [ 0 , 1 ] {\displaystyle [0,1]} ersetzen. Die Beta-Verteilung besitzt die reellen Parameter p {\displaystyle p} und q {\displaystyle q} (in den nebenstehenden Grafiken α {\displaystyle \alpha } und β {\displaystyle \beta } ). Um ihre Normierbarkeit zu garantieren, wird p , q > 0 {\displaystyle p,q>0} (bzw. α , β > 0 {\displaystyle \alpha ,\beta >0} ) gefordert.

Der Vorfaktor 1 / B ( p , q ) {\displaystyle 1/\mathrm {B} (p,q)} dient der Normierung. Der Ausdruck

B ( p , q ) = Γ ( p ) Γ ( q ) Γ ( p + q ) = 0 1 u p 1 ( 1 u ) q 1 d u {\displaystyle \mathrm {B} (p,q)={\frac {\Gamma (p)\Gamma (q)}{\Gamma (p+q)}}=\int _{0}^{1}u^{p-1}(1-u)^{q-1}\,\mathrm {d} u}

steht für die Betafunktion, nach der die Verteilung benannt ist. Dabei bezeichnet Γ {\displaystyle \Gamma } die Gammafunktion.

Die Verteilungsfunktion ist entsprechend

F ( x ) = { 0 für x 0 , I x ( p , q ) für 0 < x 1 , 1 für x > 1 {\displaystyle F(x)={\begin{cases}0&{\text{für}}\;x\leq 0,\\I_{x}(p,q)&{\text{für}}\;0<x\leq 1,\\1&{\text{für}}\;x>1\\\end{cases}}}

mit

I x ( p , q ) := 1 B ( p , q ) 0 x u p 1 ( 1 u ) q 1 d u . {\displaystyle I_{x}(p,q):={\frac {1}{\mathrm {B} (p,q)}}\int _{0}^{x}u^{p-1}(1-u)^{q-1}\mathrm {d} u.}

Die Funktion I x ( p , q ) {\displaystyle I_{x}(p,q)} heißt auch regularisierte unvollständige Betafunktion.

Eigenschaften

Erwartungswert

Der Erwartungswert berechnet sich zu

E ( X ) = p p + q {\displaystyle \operatorname {E} (X)={\frac {p}{p+q}}} .

Modus

Der Modus, also die Maximalstelle der Dichtefunktion f {\displaystyle f} , ist für p > 1 {\displaystyle p>1} , q > 1 {\displaystyle q>1}

( 1 + q 1 p 1 ) 1 = p 1 p + q 2 {\displaystyle \left(1+{\frac {q-1}{p-1}}\right)^{-1}={\frac {p-1}{p+q-2}}} .

Varianz

Die Varianz ergibt sich zu

Var ( X ) = p q ( p + q + 1 ) ( p + q ) 2 {\displaystyle \operatorname {Var} (X)={\frac {pq}{(p+q+1)(p+q)^{2}}}} .

Standardabweichung

Für die Standardabweichung ergibt sich

σ = p q ( p + q + 1 ) ( p + q ) 2 {\displaystyle \sigma ={\sqrt {\frac {pq}{(p+q+1)(p+q)^{2}}}}} .

Variationskoeffizient

Aus Erwartungswert und Varianz erhält man unmittelbar den Variationskoeffizienten

VarK ( X ) = q p ( p + q + 1 ) {\displaystyle \operatorname {VarK} (X)={\sqrt {\frac {q}{p(p+q+1)}}}} .

Schiefe

Die Schiefe ergibt sich zu

v ( X ) = 2 ( q p ) p + q + 1 ( p + q + 2 ) p q {\displaystyle \operatorname {v} (X)={\frac {2(q-p){\sqrt {p+q+1}}}{(p+q+2){\sqrt {pq}}}}} .

Höhere Momente

Aus der momenterzeugenden Funktion ergibt sich für die k-ten Momente

E ( X k ) = r = 0 k 1 p + r p + q + r {\displaystyle \operatorname {E} (X^{k})=\prod _{r=0}^{k-1}{\frac {p+r}{p+q+r}}} .

Symmetrie

Die Beta-Verteilung ist für p = q {\displaystyle p=q} symmetrisch um x = 1 2 {\displaystyle x={\frac {1}{2}}} mit der Schiefe v ( X ) = 0 {\displaystyle \operatorname {v} (X)=0} .

Momenterzeugende Funktion

Die momenterzeugende Funktion einer betaverteilten Zufallsgröße lautet

M X ( t ) = 1 + n = 1 ( k = 0 n 1 p + k p + q + k ) t n n ! {\displaystyle M_{X}(t)=1+\sum _{n=1}^{\infty }\left(\prod _{k=0}^{n-1}{\frac {p+k}{p+q+k}}\right){\frac {t^{n}}{n!}}} .

Mit der hypergeometrischen Funktion 1 F 1 {\displaystyle _{1}F_{1}} erhält man die Darstellung

M X ( t ) = 1 F 1 ( p ; q ; t ) {\displaystyle M_{X}(t)={}_{1}F_{1}(p;q;t)} .

Charakteristische Funktion

Analog zur momenterzeugenden Funktion erhält man die charakteristische Funktion

φ X ( t ) = 1 F 1 ( p ; q ; i t ) {\displaystyle \varphi _{X}(t)={}_{1}F_{1}(p;q;it)} .

Beziehungen zu anderen Verteilungen

Spezialfälle

  • Für p = q = 1 {\displaystyle p=q=1} ergibt sich als Spezialfall die stetige Gleichverteilung.
  • Für p = q = 1 2 {\displaystyle p=q={\frac {1}{2}}} ergibt sich als Spezialfall die Arcsin-Verteilung.

Grenzfälle

  • Für p 0 {\displaystyle p\rightarrow 0} und konstantes q {\displaystyle q} geht die Beta-Verteilung in eine Bernoulli-Verteilung Ber ( 0 ) {\displaystyle \operatorname {Ber} \left(0\right)} über (eine entsprechende Zufallsgröße hat dann fast sicher den Wert null). Dasselbe gilt für q {\displaystyle q\rightarrow \infty } bei konstantem p {\displaystyle p} .
  • Für q 0 {\displaystyle q\rightarrow 0} und konstantes p {\displaystyle p} geht die Beta-Verteilung in eine Bernoulli-Verteilung Ber ( 1 ) {\displaystyle \operatorname {Ber} \left(1\right)} über (eine entsprechende Zufallsgröße hat dann fast sicher den Wert eins). Dasselbe gilt für p {\displaystyle p\rightarrow \infty } bei konstantem q {\displaystyle q} .

Beides sieht man leicht durch entsprechende Grenzwertbildungen der Formeln für Erwartungswert und Varianz: Der Erwartungswert geht gegen null bzw. eins, die Varianz beide Male gegen null.

Beziehung zur Gammaverteilung

Wenn X γ ( p 1 , b ) {\displaystyle X\sim \gamma (p_{1},b)} und Y γ ( p 2 , b ) {\displaystyle Y\sim \gamma (p_{2},b)} unabhängige gammaverteilte Zufallsvariablen sind mit den Parametern p 1 , b {\displaystyle p_{1},b} bzw. p 2 , b {\displaystyle p_{2},b} , dann ist die Größe X X + Y {\displaystyle {\tfrac {X}{X+Y}}} betaverteilt mit Parametern p 1 {\displaystyle p_{1}} und p 2 {\displaystyle p_{2}} , kurz

Beta ( p 1 , p 2 ) γ ( p 1 , b ) γ ( p 1 , b ) + γ ( p 2 , b ) . {\displaystyle \operatorname {Beta} (p_{1},p_{2})\sim {\frac {\gamma (p_{1},b)}{\gamma (p_{1},b)+\gamma (p_{2},b)}}.}

Beziehung zur stetigen Gleichverteilung

Sind X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\dotsc ,X_{n}} unabhängige auf [ 0 , 1 ] {\displaystyle [0,1]} stetig gleich verteilte Zufallsvariable, dann sind die Ordnungsstatistiken X ( 1 ) , X ( 2 ) , , X ( n ) {\displaystyle X_{(1)},X_{(2)},\dotsc ,X_{(n)}} betaverteilt. Genauer gilt

X ( k ) Beta ( k , n k + 1 ) {\displaystyle X_{(k)}\sim \operatorname {Beta} (k,n-k+1)}

für k = 1 , , n {\displaystyle k=1,\dotsc ,n} .

Mischverteilungen

Eine Binomialverteilung, deren Parameter p {\displaystyle p} betaverteilt ist, nennt man Beta-Binomialverteilung. Dies ist ein spezieller Fall einer Mischverteilung.

Beispiel

Hauptartikel: Bestimmtheitsmaß

Die Beta-Verteilung kann aus zwei Gammaverteilungen bestimmt werden: Der Quotient X = U / ( U + V ) {\displaystyle X=U/(U+V)} aus den stochastisch unabhängigen Zufallsvariablen U {\displaystyle U} und V {\displaystyle V} , die beide gammaverteilt sind mit den Parametern b {\displaystyle b} und p u {\displaystyle p_{u}} bzw. p v {\displaystyle p_{v}} , ist betaverteilt mit den Parametern p u {\displaystyle p_{u}} und p v {\displaystyle p_{v}} . U {\displaystyle U} und V {\displaystyle V} lassen sich als Chi-Quadrat-Verteilungen mit 2 p u {\displaystyle 2p_{u}} bzw. 2 p v {\displaystyle 2p_{v}} Freiheitsgraden interpretieren.

Mit Hilfe der linearen Regression wird eine geschätzte Regressionsgerade y ^ = β ^ 0 + β ^ 1 x i {\displaystyle {\hat {y}}={\hat {\beta }}_{0}+{\hat {\beta }}_{1}x_{i}} durch eine „Punktwolke“ mit n {\displaystyle n} Wertepaaren { x i ; y i } i = 1 , , n {\displaystyle \{x_{i};y_{i}\}_{i=1,\dots ,n}} zweier statistischer Merkmale X {\displaystyle X} und Y {\displaystyle Y} gelegt, und zwar so, dass die Quadratsumme der senkrechten Abstände der y i {\displaystyle y_{i}} -Werte von der Geraden y ^ i {\displaystyle {\hat {y}}_{i}} minimiert wird.

Die Streuung der Schätzwerte y ^ i {\displaystyle {\hat {y}}_{i}} um ihren Mittelwert y ^ ¯ = y ¯ {\displaystyle {\overline {\hat {y}}}={\overline {y}}} kann durch SSE i = 1 n ( y ^ i y ¯ ) 2 {\displaystyle \textstyle {\text{SSE}}\equiv \sum \nolimits _{i=1}^{n}({\hat {y}}_{i}-{\overline {y}})^{2}} gemessen werden und die Streuung der Messwerte y i {\displaystyle y_{i}} um ihren Mittelwert kann durch SST i = 1 n ( y i y ¯ ) 2 {\displaystyle \textstyle {\text{SST}}\equiv \sum \nolimits _{i=1}^{n}(y_{i}-{\overline {y}})^{2}} gemessen werden. Erstere stellt die „(durch die Regression) erklärte Quadratsumme“ (sum of squares explained, kurz: SSE) und letztere stellt die „totale Quadratsumme“ (sum of squares total, kurz: SST) dar. Der Quotient dieser beiden Größen ist das Bestimmtheitsmaß:

R 2 SSE SST {\displaystyle {\mathit {R}}^{2}\equiv {\frac {\text{SSE}}{\text{SST}}}} .

Die „(durch die Regression) nicht erklärte Quadratsumme“ bzw. die „Residuenquadratsumme“ (residual sum of squares, kurz SSR) ist durch SSR i = 1 n ( y i y ^ i ) 2 {\displaystyle \textstyle {\text{SSR}}\equiv \sum \nolimits _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}} gegeben. Durch die Quadratsummenzerlegung TSS = ESS + RSS {\displaystyle {\text{TSS}}={\text{ESS}}+{\text{RSS}}} lässt sich das Bestimmtheitsmaß auch darstellen als

R 2 = SSE SSE + SSR {\displaystyle {\mathit {R}}^{2}={\frac {\text{SSE}}{{\text{SSE}}+{\text{SSR}}}}} .

Es ist also betaverteilt. Da das Bestimmtheitsmaß das Quadrat des Korrelationskoeffizienten von x {\displaystyle x} und y {\displaystyle y} darstellt ( R 2 = r 2 {\displaystyle R^{2}=r^{2}} ), ist auch das Quadrat des Korrelationskoeffizienten betaverteilt. Allerdings kann die Verteilung des Bestimmtheitsmaßes beim globalen F-Test durch die F-Verteilung angegeben werden, die tabelliert vorliegt.

Verallgemeinerung: Beta-Verteilung auf (a,b)

Definition

Die allgemeine Beta-Verteilung ist definiert durch die Wahrscheinlichkeitsdichte

f ( x ) = 1 B ( a , b , p , q ) ( x a ) p 1 ( b x ) q 1 , {\displaystyle f(x)={\frac {1}{B(a,b,p,q)}}(x-a)^{p-1}(b-x)^{q-1},}

wobei a {\displaystyle a} und b {\displaystyle b} die obere und untere Grenze des Intervalls sind. Entsprechend ergibt sich die Berechnung von B {\displaystyle B} zu

B ( a , b , p , q ) = a b ( u a ) p 1 ( b u ) q 1 d u = Γ ( p ) Γ ( q ) Γ ( p + q ) ( b a ) p + q 1 . {\displaystyle B(a,b,p,q)=\int _{a}^{b}(u-a)^{p-1}(b-u)^{q-1}\mathrm {d} u={\frac {\Gamma (p)\Gamma (q)}{\Gamma (p+q)}}(b-a)^{p+q-1}.}

Eigenschaften

Ist X {\displaystyle X} betaverteilt auf dem Intervall ( 0 , 1 ) {\displaystyle (0,1)} mit Parametern p {\displaystyle p} , q {\displaystyle q} , dann ist

Y = ( b a ) X + a {\displaystyle Y=(b-a)X+a}

betaverteilt auf dem Intervall ( a , b ) {\displaystyle (a,b)} mit den gleichen Parametern p {\displaystyle p} , q {\displaystyle q} . Ist umgekehrt Y {\displaystyle Y} betaverteilt auf ( a , b ) {\displaystyle (a,b)} , dann ist

X = Y a b a {\displaystyle X={\frac {Y-a}{b-a}}}

betaverteilt auf ( 0 , 1 ) {\displaystyle (0,1)} .

Beispiel

Im Dreieckstest werden drei Proben im gleichseitigen Dreieck angeordnet, wobei eine Ecke des gedachten Dreiecks nach oben zeigt. Zwei der drei Proben gehören zum Produkt A und eine Probe gehört zum Produkt B oder umgekehrt. Die Aufgabe des Probanden besteht nun darin, dasjenige Produkt zu finden, das nur einmal vorkommt. Die Wahrscheinlichkeit durch bloßes Raten die richtige Antwort zu geben beträgt 1 3 {\displaystyle {\tfrac {1}{3}}} .

Verteilung der Erfolgswahrscheinlichkeiten einer Stichprobe im Dreieckstest (schwarze Linie) bei einer Rate-Erfolgswahrscheinlichkeit von 1 / 3 {\displaystyle 1/3} (blaue Linie)

Die Erfolgswahrscheinlichkeiten variieren je nach sensorischen Fähigkeiten. Unter der Annahme, dass kein Proband absichtlich eine falsche Antwort gibt, liegt die Erfolgswahrscheinlichkeit bei niemandem unter 1 3 {\displaystyle {\tfrac {1}{3}}} . Bei Feinschmeckern oder großen Geschmacksunterschieden kann diese theoretisch bis auf 100 % ansteigen. Im Folgenden wird für beliebige Rate-Erfolgswahrscheinlichkeiten c {\displaystyle c} mit 0 < c < 1 {\displaystyle 0<c<1} die Beta-Verteilung auf ( c , 1 ) {\displaystyle (c,1)} hergeleitet.[1] Aus den eben genannten Gründen modelliert diese Wahrscheinlichkeitsdichte die Erfolgswahrscheinlichkeiten der Probanden realistischer als eine Beta-Verteilung auf ( 0 , 1 ) {\displaystyle (0,1)} .

Die Erfolgswahrscheinlichkeiten π i {\displaystyle \pi _{i}} der einzelnen Probanden i = 1 , , n {\displaystyle i=1,\dots ,n} seien zunächst betaverteilt auf ( 0 , 1 ) {\displaystyle (0,1)} mit Parametern α {\displaystyle \alpha } und β {\displaystyle \beta } . Die korrigierten Erfolgswahrscheinlichkeiten auf ( c , 1 ) {\displaystyle (c,1)} ergeben sich aus p i = c + ( 1 c ) π i {\displaystyle p_{i}=c+(1-c)\pi _{i}} . Die Wahrscheinlichkeitsdichte von p i {\displaystyle p_{i}} lässt sich über den Transformationssatz für Dichten bestimmen. Die Beta-Verteilung von π i {\displaystyle \pi _{i}} hat eine positive Dichte im Intervall ( 0 , 1 ) {\displaystyle (0,1)} . Die Transformation u : ( 0 , 1 ) ( c , 1 ) {\displaystyle u\colon (0,1)\rightarrow (c,1)} mit u ( π ) = c + ( 1 c ) π = p {\displaystyle u(\pi )=c+(1-c)\pi =p} ist ein Diffeomorphismus. Daraus erhält man die Umkehrfunktion u 1 ( p ) = p c 1 c {\displaystyle u^{-1}(p)={\frac {p-c}{1-c}}} . Für die gesuchte Dichtefunktion von p {\displaystyle p} erhält man

f p ( p ) = f π ( u 1 ( p ) ) | p u 1 ( p ) | = f π ( p c 1 c ) | 1 1 c | = 1 1 c f π ( p c 1 c | α , β ) {\displaystyle f_{p}(p)=f_{\pi }(u^{-1}(p))\left|{\frac {\partial }{\partial p}}u^{-1}(p)\right|=f_{\pi }\left({\frac {p-c}{1-c}}\right)\left|{\frac {1}{1-c}}\right|={\frac {1}{1-c}}f_{\pi }\left({\frac {p-c}{1-c}}|\alpha ,\beta \right)} .

Diese Wahrscheinlichkeitsdichte von p {\displaystyle p} auf ( c , 1 ) {\displaystyle (c,1)} wird in Abhängigkeit von der Wahrscheinlichkeitsdichte von π {\displaystyle \pi } auf ( 0 , 1 ) {\displaystyle (0,1)} dargestellt. In der nebenstehenden Grafik ist beispielhaft eine Beta-Verteilung auf ( 1 3 , 1 ) {\displaystyle ({\tfrac {1}{3}},1)} mit Parametern α = 0 , 5 {\displaystyle \alpha =0{,}5} und β = 4 {\displaystyle \beta =4} eingezeichnet. Der Erwartungswert beträgt 40 , 7 % {\displaystyle 40{,}7\,\%} . Die durchschnittliche Erfolgswahrscheinlichkeit liegt damit 7 , 4 % {\displaystyle 7{,}4\,\%} über der Rate-Erfolgswahrscheinlichkeit von 33 , 3 % {\displaystyle 33{,}3\,\%} .

Einzelnachweise

  1. Brockhoff, Per Bruun. "The statistical power of replications in difference tests." Food Quality and Preference 14.5 (2003): 405-417.

Weblinks

  • Sigrid Markstein: Mathematische und rechentechnische Aufbereitung der Betaverteilung 1. Art für technologische Untersuchungen.
Diskrete univariate Verteilungen

Diskrete univariate Verteilungen für endliche Mengen:
Benford | Bernoulli | beta-binomial | binomial | Dirac | diskret uniform | empirisch | hypergeometrisch | kategorial | negativ hypergeometrisch | Rademacher | verallgemeinert binomial | Zipf | Zipf-Mandelbrot | Zweipunkt

Diskrete univariate Verteilungen für unendliche Mengen:
Boltzmann | Conway-Maxwell-Poisson | discrete-Phase-Type | erweitert negativ binomial | Gauss-Kuzmin | gemischt Poisson | geometrisch | logarithmisch | negativ binomial | parabolisch-fraktal | Poisson | Skellam | verallgemeinert Poisson | Yule-Simon | Zeta

Kontinuierliche univariate Verteilungen

Kontinuierliche univariate Verteilungen mit kompaktem Intervall:
Beta | Cantor | Kumaraswamy | raised Cosine | Dreieck | Trapez | U-quadratisch | stetig uniform | Wigner-Halbkreis

Kontinuierliche univariate Verteilungen mit halboffenem Intervall:
Beta prime | Bose-Einstein | Burr | Chi | Chi-Quadrat | Coxian | Erlang | Exponential | Extremwert | F | Fermi-Dirac | Folded normal | Fréchet | Gamma | Gamma-Gamma | verallgemeinert invers Gauß | halblogistisch | halbnormal | Hartman-Watson | Hotellings T-Quadrat | hyper-exponentiale | hypoexponential | invers Chi-Quadrat | scale-invers Chi-Quadrat | Invers Normal | Invers Gamma | Kolmogorow-Verteilung | Lévy | log-normal | log-logistisch | Maxwell-Boltzmann | Maxwell-Speed | Nakagami | nichtzentriert Chi-Quadrat | Pareto | Phase-Type | Rayleigh | relativistisch Breit-Wigner | Rice | Rosin-Rammler | shifted Gompertz | truncated normal | Type-2-Gumbel | Weibull | Wilks’ Lambda

Kontinuierliche univariate Verteilungen mit unbeschränktem Intervall:
Cauchy | Extremwert | exponential Power | Fishers z | Fisher-Tippett (Gumbel) | generalized hyperbolic | Hyperbolic-secant | Landau | Laplace | alpha-stabil | logistisch | normal (Gauß) | normal-invers Gauß’sch | Skew-normal | Studentsche t | Type-1-Gumbel | Variance-Gamma | Voigt

Multivariate Verteilungen

Diskrete multivariate Verteilungen:
Dirichlet compound multinomial | Ewens | gemischt Multinomial | multinomial | multivariat hypergeometrisch | multivariat Poisson | negativmultinomial | Pólya/Eggenberger | polyhypergeometrisch

Kontinuierliche multivariate Verteilungen:
Dirichlet | GEM | generalized Dirichlet | multivariat normal | multivariat Student | normalskaliert invers Gamma | Normal-Gamma | Poisson-Dirichlet

Multivariate Matrixverteilungen:
Gleichverteilung auf der Stiefel-Mannigfaltigkeit | Invers Wishart | Matrix Beta | Matrix Gamma | Matrix invers Beta | Matrix invers Gamma | Matrix Normal | Matrix Student-t | Matrix-Von-Mises-Fisher-Verteilung | Normal-invers-Wishart | Normal-Wishart | Wishart