MATRIX-ALGEBRA FÜR DIE VATER-SOHN-REGRESSION

von

Christian Strutz

 

Daß Söhne den Vätern oft ziemlich ähnlich sehen, ist weitgehend bekannt. Daß sie ihnen auch in meßbaren Eigenschaften wie Intelligenz, Körpergewicht und -länge ähneln, zeigen statistische Untersuchungen.

Mathematisch nachzuweisen, daß die Söhne dabei meistens Extremwerte ihrer Väter auf das Normalmaß zurückschrauben, sich also einen Rückschritt oder besser: eine Regression erlauben, war den Genies vom Format der Herren Gauß und Legendre vorbehalten. Diese hatten zu diesem Zweck die Methode der kleinsten Quadrate und - damit verbunden - die Ausgleichsrechnung entwickelt.

Die Abbildung 1 zeigt zum Beispiel eine Stichprobe von 12 Vater-Sohn Wertepaaren, das Gewicht betreffend. Das Gewicht des Vaters hat den Abszissenwert x, das Gewicht des von ihm abhängigen Sohnes den Ordinatenwert y.

Abbildung 1

Die durchgezogene Linie ist die Regressionsgerade oder Schätzfunktion mit der allgemeinen Formel: , wobei a den Abschnitt auf der y-Achse zeigt, wenn x = 0 ist, und b die Steigerung von y angibt, wenn der Wert von x um eine Einheit steigt.

Wöge ein Vater nur 60 kg, so käme sein Sohn auf schätzungsweise 64.4 kg, wöge ein anderer Vater aber 72 kg, so wäre das Gewicht seines Sohnes ungefähr 70.1 kg. Die folgenden Zeilen zeigen, wie zu dieser "ausgleichenden Gerechtigkeit" kommen können.

Zunächst seien die Meßdaten zusammengestellt:

Wertepaar

1

2

3

4

5

6

7

8

9

10

11

12

sum

n

Vater (x)

65

63

67

64

68

62

70

66

68

67

69

71

800

Sx

Sohn (y)

68

66

68

65

69

66

68

65

71

67

68

70

811

Sy

In der letzten Spalte dieser Übersicht befinden sich die Summen.

Wie zu erwarten, sind beide Extremwerte (Minimum: 62 kg, Maximum: 71 kg) bei den Vätern vertreten, während der Durchschnitt des Sohn-Gewichtes mit 67.58 kg leicht über dem des Vater-Gewichtes mit 66.67 kg liegt. Die Tatsache, daß es kein Gewicht unter 60 kg gibt, erleichtert die nachfolgende Berechnung: Wir können diese 60 kg von allen Meßwerten abziehen, so daß wir einfache Zahlen erhalten.

Da es sich bei den Daten um eine sehr kleine Stichprobe der Gesamtzahl der Väter und Söhne dieser Welt handelt, werden die Variablen mit den Kleinbuchstaben x und y , die Anzahl der Wertepaare mit n und die Summen nicht mit S sondern S bezeichnet.

Unser Ziel ist, für jeden x-Wert eines Vaters den dazu gehörenden y-Wert seines Sohnes zu schätzen. Deshalb suchen wir die Konstanten a und b für die Formel der Regressions-geraden . Dazu brauchen wir zwei Gleichungen mit zwei Unbekannten.

Wenn sich die y-Werte y1, y2,...,yn auf der Regressionsgeraden befinden, dann sind die entsprechenden x-Werte x1,x2,...xn mit a + bx1, a + bx2,...,a + bxn definiert. Da sich die positiven und negativen Abweichungen bei der Summierung aufheben würden, benötigen wir die Quadrate dieser Abweichungen. So lautet die Forderung für die Gleichung der kleinsten Quadrate:

sei im Minimum! Dies ist dann erfüllt, wenn die partiellen Ableitungen von Q nach a und Q nach b gleich Null sind:

Das Aufsummieren liefert die beiden Normalgleichungen:

wobei Sy und Sxy auf der rechten Seite des Gleichungssystems zu stehen kommen:

Der Knalleffekt besteht darin, daß ich die Zahlenwerte von n, Sx, Sx2 und Sxy unmittelbar aus der Multiplikation der transponierten Matrix X’ mit der Originalmatrix X erhalte, unter der Voraussetzung, daß ich der Matrix X noch eine Spalte mit lauter Einsen hinzufüge.

Was ist geschehn? Die beiden Matrizen haben gleichsam "automatisch" die sture Arbeit des Malnehmens und Zusammenzählens geleistet, wie die aufgeschlüsselte X’X Matrix zeigt.

So wird sichtbar, wie die zusätzliche Einser-Spalte bzw. -Zeile die einfachen Summen n, Sx und Sy liefert, während ohne sie nur die unteren rechten Werte der X’X Matrix berechnet würden, also Sx2, Sxy und Sy2.

Zur Berechnung der Konstanten a und b brauche ich die oberen zwei Zeilen der X’X Matrix mit

und der Determinanten sowie

als Vektor der rechten Seite des Gleichungssystems. Die Unbekannten a und b befinden sich im Lösungsvektor , so daß sich durch Multiplizieren der Inversen von A mit dem Vektor R die Auflösung des Rätsels ergibt. Aus A * L = R entsteht

A-1 * R = L.

Durch ein bißchen Umformulieren kommen wir für b auf die bekannte Formel:

.

Um den Spaß noch zu erhöhen, wende ich jetzt den soeben geschriebenen Matrizensalat auf die 12 von 60 kg befreiten Väter und Söhne an:

 

 

 

 

 

 

 

 

Die Formel für die Regressionsgerade lautet demnach: .

Zur Berechnung eines geschätzten Sohngewichtes aufgrund des Vatergewichtes müssen wir dem Sohn allerdings noch seine 60 kg Basisgewicht zurückgeben. Sollte ein Vater nur 50 kg auf die Waage bringen, so müßte sein Sohn, unserer soeben etablierten Ausgleichsrechnung nach, immerhin [4.407 + 0.476* (50-60)] + 60 = 59.6 kg wiegen.

Quod erat demonstrandum. Zu deutsch: Dies wollte ich mal gezeigt haben!

 

Lindau, Mai 1999

Dr. Christian Strutz, Steigstr. 26 D-88131 LINDAU
Lindau, März 1999
Über Fragen und Kritik freut sich der Autor : email
Strutz_Christian@t-online.de


Zur Artikelsammlung von Dr. Strutz
 

Mechanik Akustik Elektrik Optik Quanten Kerne Relativität Konstanten
Gravitation Rotation Wellen Geophysik Klima science Medizin Verkehr

Interaktiv-JAVA

Experimente

Online-Kurse 

Schule

Institute

Museen

news

topten

Geschichte Physiker MSR jufo Philosophie Mathe Klima Astronomie
Physlets Versuche Aufgaben Didaktik Literatur Kontakt Neues

Sucher

Programme Schülerhilfen scripten  Pisa Lehrmittel Projekte Aktuelles homepage


WWW.SCHULPHYSIK.DE

www.physiker.com
MM-Physik-ZUM
MM-Physik-Würzburg-Online

09. März 2005 © Schulphysik - privat

Impressum - Disclaimer - Awards