Wahrscheinlichkeitsverteilung gesucht, Normalverteilung mit streuender Streuung

Für allgemeine Fragen zur Programmierung, welche nicht! direkt mit Lazarus zu tun haben.
Antworten
400kmh
Beiträge: 100
Registriert: Do 25. Mär 2010, 04:03

Wahrscheinlichkeitsverteilung gesucht, Normalverteilung mit streuender Streuung

Beitrag von 400kmh »

Hallo, ich suche nach einer Wahrscheinlichkeitsverteilung.

Bei bekanntem Mittelwert und bekannter Streuung ist die Normalverteilung geeignet.

Code: Alles auswählen

y := 1 / (sqrt(Pi)*Streuung) * Power(e,-(sqr(AbstandXzumMittelwert)/sqr(Streuung)));   
Die Charakteristik der Normalverteilung ist, dass die Werte nach außen hin mit konstant zunehmendem Faktor kleiner werden.

Was aber wenn die genaue Streuung nicht bekannt ist sondern nur die ungefähre Streuung? Man kennt also den Mittelwert für die Streuung aber nicht die genaue Streuung. Man könnte dafür Normalverteilungen mit logarithmisch variierender Streuung übereinanderlegen und nach Abstand zur mittleren Streuung gewichten(wobei wiederum die Normalverteilung angewendet werden kann).

Das ergibt eine Verteilung mit gänzlich anderer Charakteristik. Die Werte nehmen nach außen hin mit immer geringerem Faktor ab. Es ist mir jedoch keine vereinfachte Formel ersichtlich, die sich aufdrängt.

Aber wie stark streut die Streuung? Sollte man für die Stärke der Streuung der Streuung nicht auch eine Streuung unterstellen? Ich denke schon. Wiederum gewichtet.

Also habe ich einmal Normalverteilungen mit in variierendem Ausmaß variierender Streuung miteinander verrechnet. Nun drängt sich interessanterweise eine einfache Formel auf. Logarithmisch Skaliert nähert sich das schon sehr einer Pyramidenform an. Die Werte scheinen nach außen hin ungefähr mit dem immer gleichbleibendem Faktor abzunehmen.

Code: Alles auswählen

y := 1 / Power(1/mittlereStreuung, AbstandXzumMittelwert);
Gibt es dazu bekannte Theorie und Formeln? Größere Mathematiker haben sich damit vermutlich schon einmal beschäftigt.

wp_xyz
Beiträge: 4869
Registriert: Fr 8. Apr 2011, 09:01

Re: Wahrscheinlichkeitsverteilung gesucht, Normalverteilung mit streuender Streuung

Beitrag von wp_xyz »

Ich verstehe nicht, was du da machst. Warum nimmst du nicht die bekannte Formel und berechnest die Streuung (du meinst wahrscheinlich die Standardabweichung) aus den einzelnen Werten? Es gibt sogar Routinen dafür in der Unit Math:

Code: Alles auswählen

function StdDev(const data : array of Double) : float;inline;
function StdDev(const data : PDouble; Const N : Integer) : float;
{ calculates the mean and stddev }
procedure MeanAndStdDev(const data : array of Double;
  var mean,stddev : float);inline;
procedure MeanAndStdDev(const data : PDouble;
  Const N : Longint;var mean,stddev : float);
  
  // dasselbe auch noch für Single und Extended

400kmh
Beiträge: 100
Registriert: Do 25. Mär 2010, 04:03

Re: Wahrscheinlichkeitsverteilung gesucht, Normalverteilung mit streuender Streuung

Beitrag von 400kmh »

wp_xyz hat geschrieben:
Do 3. Jun 2021, 22:00
Ich verstehe nicht, was du da machst. Warum nimmst du nicht die bekannte Formel und berechnest die Streuung (du meinst wahrscheinlich die Standardabweichung) aus den einzelnen Werten?
Was ich habe sind Klassen und Objekte die danach klassiert werden sollen. Die Klassen haben Merkmale, von denen ich die Durchschnittsausprägung kenne und die ungefähre Streuung. Ich kenne die genauen Streuungen aber nicht. Bisher habe ich mit der Normalverteilung gearbeitet, aber die Ergebnisse kommen mir nicht so gut vor. Meines Erachtens kann die Normalverteilung nur angewendet werden, wenn man die genaue Standardabweichung kennt. Zur Normalverteilung: Bei der Normalverteilung bringt es nicht soviel, wenn ein Objekt die Merkmalsausprägung einer Klasse genau trifft, im Verhältnis dazu wenn es eine leichte Abweichung gibt (Denn die Normalverteilung ist oben rund.). Hauptsächlich kommt es darauf an, nicht stark abzuweichen. Da liegt, denke ich, das Problem. Die Ausprägung der Klasse genau zu treffen sollte sich mehr lohnen und eine starke Abweichung bei einem Merkmal nicht zu sehr ins Gewicht fallen. Damit ließen sich vielleicht bessere Ergebnisse erzielen. So meine Vermutung.

Dann habe ich mir gedacht, dass ich die genaue Streuung bzw. die Standardabweichung ja gar nicht kenne und das vielleicht relevant ist (Über alle Klassen kenne ich vielleicht die ungefähre Streuung, aber es könnte von Klasse zu Klasse oder auch von Einzelobjekt zu Einzelobjekt eine andere Streuung geben). Wenn man z. B. drei Normalverteilungen mit beispielsweise den Standardabweichungen 0.5 , 1 und 2 miteinander verrechnet, entspricht die Form der Kurve ja keiner Normalverteilung mehr. Die Kurve ist in der Mitte spitzer und geht gleichzeitig außen mehr in die Breite. Also genau das was ich haben möchte. Genaue Treffer werden mehr belohnt, starke Abweichungen weniger bestraft. Allerdings sieht die verrechneten Kurve nicht so aus als gäbe es da eine einfache Formel für.

Dann habe ich etwas weiter gedacht. Ich weiß ja auch nicht wie stark die Streuung der Streuung streut. Also habe ich auch das einbezogen. Zusammengerechnet habe ich dann vom Prinzip her folgende Normalverteilungen:

- Standardabweichung: 0,015625; Gewichtung: 1
- Standardabweichung: 0,125; Gewichtung: 4
- Standardabweichung: 1; Gewichtung: 6
- Standardabweichung: 8; Gewichtung: 4
- Standardabweichung: 64; Gewichtung: 1

- Standardabweichung: 0,0625; Gewichtung: 1*4
- Standardabweichung: 0,25; Gewichtung: 4*4
- Standardabweichung: 1; Gewichtung: 6*4
- Standardabweichung: 4; Gewichtung: 4*4
- Standardabweichung: 16; Gewichtung: 1*4

- Standardabweichung: 0,25; Gewichtung: 1*6
- Standardabweichung: 0,5; Gewichtung: 4*6
- Standardabweichung: 1; Gewichtung: 6*6
- Standardabweichung: 2; Gewichtung: 4*6
- Standardabweichung: 4; Gewichtung: 1*6

- Standardabweichung: 0,5; Gewichtung: 1*4
- Standardabweichung: 0,707; Gewichtung: 4*4
- Standardabweichung: 1; Gewichtung: 6*4
- Standardabweichung: 1,41; Gewichtung: 4*4
- Standardabweichung: 2; Gewichtung: 1*4

- Standardabweichung: 0,707; Gewichtung: 1
- Standardabweichung: 0,841; Gewichtung: 4
- Standardabweichung: 1; Gewichtung: 6
- Standardabweichung: 1,189; Gewichtung: 4
- Standardabweichung: 1,41; Gewichtung: 1

(Die Gewichtungen sind dem Pascalschen Dreieck zu entnehmen, dass ja entsprechend der Normalverteilung gebildet ist.)

Heraus kommt eine Kurve mit bei logarithmischer Skalierung nahezu geraden sich in der Mitte treffenden Flügeln. Wie ein Spitzdach. Da habe ich mir gedacht: Das kann kein Zufall sein. Da habe ich wohl die Lösung gefunden.

Allerdings merkwürdig, dass ich darüber im Internet nichts finde. Also habe ich hier mal nachgefragt. Vielleicht weiß da ja einer was drüber. Dass bei einer Verteilung die genaue Streuung nicht bekannt ist, sollte doch kein neues Problem der Heuristik sein.

wp_xyz
Beiträge: 4869
Registriert: Fr 8. Apr 2011, 09:01

Re: Wahrscheinlichkeitsverteilung gesucht, Normalverteilung mit streuender Streuung

Beitrag von wp_xyz »

Ich bin zuwenig Statistiker, als dass ich dazu kompetent antworten könnte. Daher aus dem hohlen Bauch: Der Begriff Standardabweichung hat m.E. nichts mit der Normalverteilung zu tun, aber wenn eine Normalverteilung vorliegt, weiß man, dass so-und-so-viele Prozent der Daten innerhalb des Bereichs zwischen Mittelwert-n*StdAbw und Mittelwert+n*StdAbw liegen. Bei anderen Verteilungen sind das andere Zahlen.

So wie du die Sache beschreibst, liegt bei dir gar keine Normalverteilung vor. Du kannst das testen, indem du die kumulierten Häufigkeiten in einem "Wahrscheinlichkeitsnetz" aufträgst (das ist ein Koordinatensystem in dem die integrierte Normalverteilung zu einer Geraden verzerrt wird) - das gibt es in TAChart. Fertig verfügbar ist es in dem Programm LazStats (https://sourceforge.net/p/lazarus-ccr/s ... /lazstats/), Menü "Analyses" > "Descriptive" > "Normality Tests". Den Screenshot mit wirklich normalverteilten Testdaten habe ich angehängt - man sieht über einen weiten Bereich in dieser Darstellung eine Gerade. Bei deinen Daten würde ich erwarten, dass die Kurve bei kleinen und großen Wahrscheinlichkeiten abflacht und ingesamt mehr eine S-Form hat.

In dem LazStats-Programm kannst du unter "Analyses" > "Descriptive" > "Normality Tests" die wichtigsten Kenngrößen einer Verteilung bestimmen, unabhängig von der Art der Verteilung (nur bei den genannten Fehlergrenzen wird eine Normalverteilung vorausgesetzt).

Das Programm stammt von einem Statistik-Professor, und sollte glaubwürdig sein (ich habe ihm lediglich ein etwas benutzerfreundlicheres Interface gegeben).

Zu deinen Annahmen kann ich nichts sagen.
Dateianhänge
NormalityTests.png
NormalityTests.png (22.84 KiB) 2640 mal betrachtet

400kmh
Beiträge: 100
Registriert: Do 25. Mär 2010, 04:03

Re: Wahrscheinlichkeitsverteilung gesucht, Normalverteilung mit streuender Streuung

Beitrag von 400kmh »

wp_xyz hat geschrieben:
Do 3. Jun 2021, 23:27
Ich bin zuwenig Statistiker, als dass ich dazu kompetent antworten könnte. Daher aus dem hohlen Bauch: Der Begriff Standardabweichung hat m.E. nichts mit der Normalverteilung zu tun, aber wenn eine Normalverteilung vorliegt, weiß man, dass so-und-so-viele Prozent der Daten innerhalb des Bereichs zwischen Mittelwert-n*StdAbw und Mittelwert+n*StdAbw liegen. Bei anderen Verteilungen sind das andere Zahlen.
Man kann die Varianz einer Normalverteilung durch die Standardabweichung angeben.
wp_xyz hat geschrieben:
Do 3. Jun 2021, 23:27
So wie du die Sache beschreibst, liegt bei dir gar keine Normalverteilung vor.
Die Situation ist, dass ich per se erst einmal nicht weiß, welche Verteilung vorliegt und mir auch keine Auswertung der Klassen vorliegt aus der ich das schließen könnte. Nehmen wir zur Veranschaulichung folgendes Beispiel: Ich habe die Apfelsorten A, B und C von denen die durchschnittlichen Größen und die durchschnittlichen Zuckergehälter bekannt sind. Die Varianz der Größe und des Zuckergehaltes ist jedoch nicht bekannt. Von welcher Verteilung ist auszugehen? Erste Vermutung: Normalverteilung. Problem: Varianz im Detail unbekannt.

Bild

Welche Normalverteilung nimmt man?

Selbst wenn man die durchschnittliche Varianz über alle Apfelsorten hinweg kennt, könnte diese z. B. von den Umweltbedigungen abhängen. Im Gewächshaus gibt es vielleicht weniger Varianz als in freier Natur beispielsweise.

Also, denke ich, ist es vernünftig mehrere Normalverteilungen mit unterschiedlicher Varianz miteinander zu verrechnen. Dabei kommt aber eine andere Charakteristik heraus.

(Vielleicht noch zur Verdeutlichung der Art der Grundthematik: Wenn ich nun Wahrscheinlichkeitsverteilungen für die Merkmalsausprägungen für alle Apfelsorten habe, kann ich danach für jede Apfelsorte die Wahrscheinlichkeit des Zustandekommens der Merkmalskombination eines konkreten Apfels berechnen und anhand dessen eine Wahrscheinlichkeitsaussage über die Sortenzugehörigkeit eines konkreten Apfels machen.)
wp_xyz hat geschrieben:
Do 3. Jun 2021, 23:27
Du kannst das testen, indem du die kumulierten Häufigkeiten in einem "Wahrscheinlichkeitsnetz" aufträgst
Ja, an sich ein sehr nützliches Instrument.
wp_xyz hat geschrieben:
Do 3. Jun 2021, 23:27
Bei deinen Daten würde ich erwarten, dass die Kurve bei kleinen und großen Wahrscheinlichkeiten abflacht und ingesamt mehr eine S-Form hat.
Ja, das erwarte ich auch.

wp_xyz
Beiträge: 4869
Registriert: Fr 8. Apr 2011, 09:01

Re: Wahrscheinlichkeitsverteilung gesucht, Normalverteilung mit streuender Streuung

Beitrag von wp_xyz »

400kmh hat geschrieben:
Fr 4. Jun 2021, 00:14
Erste Vermutung: Normalverteilung. Problem: Varianz im Detail unbekannt.
Wieso denn? Rechne sie aus - mit eigener Routine oder der in der Unit math. Dann plotte auch eine Normalverteilung mit der berechneten Varianz. Die Übereinstimmung oder Nicht-Übereinstimmung zeigt, ob eine Normalverteilung vorliegt oder nicht, zumindest in dieser Stichprobe. Alles andere ist Kaffeesatz-Leserei. Falls eine Abhängigkeit von verschiedenen Gewächshäusern, Regenmenge, vielleicht sogar vom Sternzeichen besteht, dann musst du halt Stichproben für diese Bedingungen entnehmen und dasselbe wiederholen.

Schicke Datensätze für die gemessenen Zuckergehalt-Werte von Apfelsorten A, B und C, oder was du halt prüfen willst, dann zeige ich das konkret.

Und wenn du die Aufteilung in die einzelnen Klassen nicht vornehmen kannst, dann ist die Berechnung der Standardabweichung aus der Gesamtmenge an Daten das beste das du machen kannst.

Aber vielleicht versteht ich das immer noch nicht. Wie lautet den das Thema deiner Untersuchung?

400kmh
Beiträge: 100
Registriert: Do 25. Mär 2010, 04:03

Re: Wahrscheinlichkeitsverteilung gesucht, Normalverteilung mit streuender Streuung

Beitrag von 400kmh »

wp_xyz hat geschrieben:
Fr 4. Jun 2021, 00:31
400kmh hat geschrieben:
Fr 4. Jun 2021, 00:14
Erste Vermutung: Normalverteilung. Problem: Varianz im Detail unbekannt.
Wieso denn? Rechne sie aus - mit eigener Routine oder der in der Unit math. Dann plotte auch eine Normalverteilung mit der berechneten Varianz. Die Übereinstimmung oder Nicht-Übereinstimmung zeigt, ob eine Normalverteilung vorliegt oder nicht, zumindest in dieser Stichprobe. Alles andere ist Kaffeesatz-Leserei. Falls eine Abhängigkeit von verschiedenen Gewächshäusern, Regenmenge, vielleicht sogar vom Sternzeichen besteht, dann musst du halt Stichproben für diese Bedingungen entnehmen und dasselbe wiederholen.
Die konkrete Anwendung ist nicht das Problem. Vielmehr stelle ich mir grundsätzliche Fragen zur Gültigkeitsvoraussetzung von Normalverteilungen. Wie häufig entsprechen ihr in der Praxis Häufigkeitsverteilungen? Unter welchen Voraussetzungen nicht? Und greift dann eine andere Formel?

Ich habe jetzt mal Häufigkeitsverteilungen gegoogelt, und bin auf folgendes gestoßen:

https://www.researchgate.net/figure/Abb ... _313611152

Bild

Bei der Häufigkeitsverteilung von Windleistungsfluktuationen wird hier mit der logarithmischer Skalierung deutlich, dass hier die Normalverteilung keine Anwendung findet. Die blaue Kurve links unten ähnelt vielmehr dem von mir beschriebenen Spitzdach. Und das ist auch logisch schließlich fluktuiert Windleistung mal stärker und mal schwächer. Demzufolge nähert man sich ihr eher an indem man Normalverteilungen mit variierender Streuung miteinander verrechnet. Und meine Vermutung ist dass die perfekte Form einer solchen Kurve in logarithmischer Skalierung genau spitzdachförmig ist.

Die Verteilung der Windleistungsfluktuationen erinnert mich sehr an meine theoretische Berechnung des Durchschnitts der Normalverteilungen mit variierender Streuung:
Verrechnung von Normalverteilungen.png
Verrechnung von Normalverteilungen.png (193.99 KiB) 2618 mal betrachtet
Soweit sogut. Aber auch hier interessant, dass im verlinkten Text nur von einem "deutlich intermittenten Charakter" die Rede ist sowie von "wesentlich häufigeren extremen Fluktuationen im Vergleich zur Gauß-Wahrscheinlichkeitsdichtefunktion". Einen richtigen Namen hat diese Art Verteilung anscheinend noch nicht.

Benutzeravatar
six1
Beiträge: 782
Registriert: Do 1. Jul 2010, 19:01

Re: Wahrscheinlichkeitsverteilung gesucht, Normalverteilung mit streuender Streuung

Beitrag von six1 »

Naja, ich würde behaupten, sie heißt: "Normalverteilung in logarithmischer Skalierung" 8)
Gruß, Michael

wp_xyz
Beiträge: 4869
Registriert: Fr 8. Apr 2011, 09:01

Re: Wahrscheinlichkeitsverteilung gesucht, Normalverteilung mit streuender Streuung

Beitrag von wp_xyz »

Mit welcher Berichtigung ignorierst du in deinen Überlegungen übrigens den Mittelwert? Wenn sich schon - um in dem Beispiel mit dem Zuckergehalt zu bleiben - die Streuung des Zuckergehalts je nach irgendwelchen Bedingungen verändert, wieso ändert sich dann nicht auch der Mittelwert selbst? Deine postulierte Spitze kann es nur geben, wenn der Mittelwert derselbe bleibt.

Dennoch gibt es natürlich nicht nur die Normalverteilung. Eine Variante ist z.B. die Log-Normalverteilung, die man z.B. in der Korngrößenverteilung einer Metallschicht sieht, hier folgt der Logarithmus der Größe einer Normalverteilung, als Folge sind die Werte nie kleiner als null und die Verteilung wird schief. Eine andere Verteilung ist die t-Verteilung, die man beim Vergleich von Mittelwerten nimmt und die der Normalverteilung sehr ähnlich sieht, nur hat sie breitere "Flügel". Ähnlich wie die Normalverteilung sieht auch die Lorentz-Kurve aus, nur hat sie sehr weite "Flügel", ähnlich so wie von dir postuliert (https://de.wikipedia.org/wiki/Lorentzkurve).

400kmh
Beiträge: 100
Registriert: Do 25. Mär 2010, 04:03

Re: Wahrscheinlichkeitsverteilung gesucht, Normalverteilung mit streuender Streuung

Beitrag von 400kmh »

wp_xyz hat geschrieben:
Fr 4. Jun 2021, 09:42
Mit welcher Berichtigung ignorierst du in deinen Überlegungen übrigens den Mittelwert? Wenn sich schon - um in dem Beispiel mit dem Zuckergehalt zu bleiben - die Streuung des Zuckergehalts je nach irgendwelchen Bedingungen verändert, wieso ändert sich dann nicht auch der Mittelwert selbst? Deine postulierte Spitze kann es nur geben, wenn der Mittelwert derselbe bleibt.
Meine Überlegung dazu: Es ist möglich, dass mit der Veränderung der Streuung eine Veränderung des Mittelwerts einhergeht, jedoch ist es wohl in der Praxis wohl häufig, dass dieser Zusammenhang systematisch statt zufällig ist. Z. B: Apfel im Gewächshaus hat gute, gleichbleibende Bedingungen und damit einen schwach variierenden Zuckergehalt auf gewünschtem Niveau (da ist dann die Spitze). Gleiche Sorte Apfel hat in freier Natur schlechtere und zugleich stärker variierende Bedingungen und damit stärker schwankende Zuckergehälter auf abweichendem Durchschnittsniveau. Aber es erscheint unwahrscheinlich, dass die gleiche Sorte Apfel auf irgendeinem anderen Niveau unter irgendwelchen Bedingungen wenig streuen sollte. (OK, vielleicht ist ein anderes Gewächshaus an einem anderen Zuckergehalt interessiert, weil Geschmäcker verschieden sind.) Aber das muss man sich halt im Einzelfall angucken. Aber sofern der Zusammenhang zwischen Stärke der Streuung und Mittelwert systematisch ist, nimmt die Kurve zwar einen (pseudo-)logarithmischen Charakter an, geht die von mir postulierte Spitze aber nicht verloren.

Aber natürlich kann es auch Fälle geben, wo der Zusammenhang zufällig ist, dann nähert sich die Kurve dadurch wieder einer Normalverteilung an. Ich stelle ja nicht infrage, dass es Fälle gibt, in denen die Normalverteilung Anwendung findet, sondern behaupte nur, dass es Fälle gibt, in denen was anderes Anwendung findet, und dass diese Fälle zu einem ebenfalls einfach beschreibbaren Idealtypus tendieren.
Eine andere Verteilung ist die t-Verteilung, die man beim Vergleich von Mittelwerten nimmt und die der Normalverteilung sehr ähnlich sieht, nur hat sie breitere "Flügel".
Interessant. Anlass hierfür ist wohl die unbekannte Differenz zwischen Varianz der Grundgesamtheit und Varianz der Stichprobe. Die Problematik scheint verwandt zu sein.

Antworten