Stochastische Unabhängigkeit

Als frischgebackener Doktor der Medizin gehöre ich einer Elite von ca. 0,5% der Bevölkerung Österreichs an; aber wie viel Prozent der Bevölkerung haben, so wie ich, sowohl Medizin als auch Informatik abgeschlossen? Ich habe kurz nachgedacht, ob man das berechnen kann, und bin darauf gekommen, dass es nicht möglich ist, weil die relativen Häufigkeiten der Mediziner und der Informatiker im allgemeinen Fall nicht stochastisch unabhängig sind. Nach weiterem Nachdenken bin ich zum Schluss gekommen, dass dieses Beispiel gut das Konzept der stochastischen Unabhängigkeit illustriert und man darüber einen kurzen Blogeintrag schreiben könnte, auch wenn dieser Blog in erster Linie nicht der Lehre dient.

Wenn P(A) die Wahrscheinlichkeit ist, dass ein in Österreich lebender Mensch ein Studium der Medizin abgeschlossen hat, und P(B) die Wahrscheinlichkeit, dass er ein Informatikstudium abgeschlossen hat, dann könnte man meinen, die Wahrscheinlichkeit, beides abgeschlossen zu haben (wollen wir sie P(A & B) nennen), beträge:

P(A & B) = P(A) * P(B)

Das würde aber nur dann stimmen, wenn die Ereignisse A und B stochastisch unabhängig wären, und wir werden sehen, dass das nicht immer der Fall ist. Allgemein gilt nämlich nur die Formel:

P(A & B) = P(A | B) * P(B)

Wobei P(A | B) die Wahrscheinlichkeit meint, dass das Ereignis A eingetreten ist, wenn auch das Ereignis B eingetreten ist. Es handelt sich um eine bedingte Wahrscheinlichkeit. Bei stochastischer Unabhängigkeit gilt also:

P(A) = P(A | B)

Im konkreten Beispiel kann das (zufälligerweise) gelten, muss es aber nicht. Ein Beispiel dafür, warum diese Beziehung nicht immer gilt: Was wäre, wenn P(A & B) gleich 0 wäre, es also niemanden gäbe, der sowohl Medizin als auch Informatik absolviert hätte? Wenn die Formel für die stochastische Unabhängigkeit gälte, dann würde das bedeuten, dass P(A) oder P(B) (oder beide) ebenfalls gleich 0 sein müsste, denn a * b = 0 genau dann, wenn mindestens einer der beiden Faktoren a oder b gleich 0 ist.

Das würde aber bedeuten: Wären A und B stochastisch unabhängig, egal wie viel nun P(A) und P(B) konkret betragen, dann müsste es, gäbe es sowohl mindestens einen Absolventen der Medizin als auch einen Absolventen der Informatik, mehr als null Personen geben, die beide Studiengänge absolviert haben. (Das kann auch eine Zahl zwischen 0 und 1 sein.) Ich nehme an, es ist offensichtlich, dass das unlogisch ist. Daraus folgt, dass die Formel

P(A & B) = P(A) * P(B)

nicht immer gilt. A und B sind im allgemeinen Fall stochastisch nicht unabhängig. Die Wahrscheinlichkeit P(A) ist also meistens ungleich der bedingten Wahrscheinlichkeit P(A | B). Will heißen: Die Wahrscheinlichkeit, dass jemand, der ein Informatikstudium absolviert hat, auch ein Medizinstudium absolviert hat, ist verschieden von der relativen Häufigkeit von Medizin-Doktoren in der Bevölkerung.

Wenn man also nur die relativen Häufigkeiten von Medizin-Absolventen und von Informatik-Absolventen kennt, kann man keine Aussage über die relative Häufigkeit von Personen treffen, die beide Studienrichtungen absolviert haben. Man kann somit nur spekulieren.

Kommentare

Beliebte Posts aus diesem Blog

The Demoscene

Digital Art Natives

Autobiographical Sketch