ΤΟ ΚΟΥΔΟΥΝΙ

Υπάρχουν εκείνοι που διαβάζουν αυτές τις ειδήσεις πριν από εσάς.
Εγγραφείτε για να λαμβάνετε τα πιο πρόσφατα άρθρα.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
Ονομα
Επώνυμο
Πώς θα θέλατε να διαβάσετε το The Bell
Χωρίς ανεπιθύμητο περιεχόμενο

Κατανομή Χ-τετράγωνο

Η κανονική κατανομή ορίζει τρεις κατανομές που χρησιμοποιούνται συχνά στη στατιστική επεξεργασία δεδομένων. Αυτές είναι οι διανομές των Pearson ("chi - Square"), Student και Fisher.

Θα επικεντρωθούμε στην κατανομή ("chi - τετράγωνο"). Αυτή η κατανομή μελετήθηκε για πρώτη φορά από τον αστρονόμο F. Helmert το 1876. Σε σχέση με την Gaussian θεωρία των σφαλμάτων, μελέτησε τα αθροίσματα των τετραγώνων n ανεξάρτητων προτύπων κανονικά κατανεμημένων τυχαίων μεταβλητών. Αργότερα, ο Karl Pearson ονόμασε αυτή τη συνάρτηση διανομής "chi-square". Και τώρα η διανομή φέρει το όνομά του.

Λόγω της στενής σχέσης της με την κανονική κατανομή, η κατανομή h2 παίζει σημαντικό ρόλο στη θεωρία πιθανοτήτων και στη μαθηματική στατιστική. Η κατανομή h2, και πολλές άλλες κατανομές που ορίζονται από την κατανομή h2 (για παράδειγμα, η κατανομή του Student), περιγράφουν κατανομές δειγμάτων διαφόρων συναρτήσεων από την κανονική κατανεμημένα αποτελέσματαπαρατηρήσεις και χρησιμοποιούνται για την κατασκευή διαστημάτων εμπιστοσύνης και στατιστικών δοκιμών.

Κατανομή Pearson (chi - τετράγωνο) - κατανομή τυχαία μεταβλητήόπου X1, X2,…, Xn είναι κανονικές ανεξάρτητες τυχαίες μεταβλητές και αναμενόμενη αξίακαθένα από αυτά είναι μηδέν και η τυπική απόκλιση είναι ένα.

Άθροισμα τετραγώνων

κατανέμεται σύμφωνα με το νόμο («χι - τετράγωνο»).

Σε αυτή την περίπτωση, ο αριθμός των όρων, δηλ. n, ονομάζεται «αριθμός βαθμών ελευθερίας» της κατανομής του χ-τετράγωνου. Καθώς ο αριθμός των βαθμών ελευθερίας αυξάνεται, η κατανομή προσεγγίζει αργά την κανονική.

Η πυκνότητα αυτής της κατανομής


Έτσι, η κατανομή του h2 εξαρτάται από μια παράμετρο n - τον αριθμό των βαθμών ελευθερίας.

Η συνάρτηση διανομής h2 έχει τη μορφή:

αν h2?0. (2.7.)

Το σχήμα 1 δείχνει ένα γράφημα της πυκνότητας πιθανότητας και της συνάρτησης κατανομής h2 για διαφορετικούς βαθμούς ελευθερίας.

Σχήμα 1 Εξάρτηση της πυκνότητας πιθανότητας q (x) στην κατανομή του h2 (chi - τετράγωνο) για διαφορετικό αριθμό βαθμών ελευθερίας.

Στιγμές της διανομής "chi-square":

Η κατανομή χ-τετράγωνο χρησιμοποιείται για την εκτίμηση της διακύμανσης (χρησιμοποιώντας ένα διάστημα εμπιστοσύνης), στον έλεγχο υποθέσεων συμφωνίας, ομοιογένειας, ανεξαρτησίας, κυρίως για ποιοτικές (κατηγοριοποιημένες) μεταβλητές που λαμβάνουν πεπερασμένο αριθμό τιμών και σε πολλά άλλα προβλήματα Στατιστική ανάλυσηδεδομένα.

«Χι-τετράγωνο» σε προβλήματα ανάλυσης στατιστικών δεδομένων

Οι στατιστικές μέθοδοι ανάλυσης δεδομένων χρησιμοποιούνται σχεδόν σε όλους τους τομείς της ανθρώπινης δραστηριότητας. Χρησιμοποιούνται όποτε είναι απαραίτητο να ληφθούν και να τεκμηριωθούν τυχόν κρίσεις για μια ομάδα (αντικείμενα ή υποκείμενα) με κάποια εσωτερική ετερογένεια.

Το σύγχρονο στάδιο ανάπτυξης των στατιστικών μεθόδων μπορεί να μετρηθεί από το 1900, όταν ο Άγγλος K. Pearson ίδρυσε το περιοδικό «Biometrika». Πρώτο τρίτο του 20ού αιώνα πέρασε υπό το πρόσημο της παραμετρικής στατιστικής. Μελετήθηκαν μέθοδοι που βασίζονται στην ανάλυση δεδομένων από παραμετρικές οικογένειες κατανομών που περιγράφονται από τις καμπύλες της οικογένειας Pearson. Η πιο δημοφιλής ήταν η κανονική διανομή. Για τον έλεγχο των υποθέσεων χρησιμοποιήθηκαν τα κριτήρια Pearson, Student και Fisher. Προτάθηκαν η μέθοδος μέγιστης πιθανότητας, ανάλυση διασποράς και διατυπώθηκαν οι κύριες ιδέες για τον προγραμματισμό του πειράματος.

Η κατανομή χ-τετράγωνο είναι μια από τις πιο ευρέως χρησιμοποιούμενες στις στατιστικές για τον έλεγχο στατιστικών υποθέσεων. Με βάση την κατανομή "χι-τετράγωνο", ένα από τα πιο ισχυρά τεστ καλής προσαρμογής, το τεστ "χι-τετράγωνο" του Pearson, κατασκευάζεται.

Το τεστ καλής προσαρμογής είναι ένα κριτήριο για τον έλεγχο της υπόθεσης σχετικά με τον προτεινόμενο νόμο της άγνωστης κατανομής.

Το τεστ p2 ("chi-square") χρησιμοποιείται για τον έλεγχο της υπόθεσης διαφορετικών κατανομών. Αυτή είναι η αξία του.

Ο τύπος υπολογισμού του κριτηρίου είναι ίσος με

όπου m και m" είναι εμπειρικές και θεωρητικές συχνότητες, αντίστοιχα

υπό εξέταση διανομή·

n είναι ο αριθμός των βαθμών ελευθερίας.

Για επαλήθευση, πρέπει να συγκρίνουμε εμπειρικές (παρατηρούμενες) και θεωρητικές (υπολογισμένες με την υπόθεση μιας κανονικής κατανομής) συχνότητες.

Με πλήρη σύμπτωση των εμπειρικών συχνοτήτων με τις συχνότητες που υπολογίζονται ή αναμένονται, S (E - T) = 0 και το κριτήριο ch2 θα είναι επίσης ίσο με μηδέν. Εάν το S (E - T) δεν είναι ίσο με μηδέν, αυτό θα υποδηλώνει μια απόκλιση μεταξύ των υπολογισμένων συχνοτήτων και των εμπειρικών συχνοτήτων της σειράς. Σε τέτοιες περιπτώσεις, είναι απαραίτητο να αξιολογηθεί η σημασία του κριτηρίου p2, το οποίο θεωρητικά μπορεί να ποικίλλει από το μηδέν έως το άπειρο. Αυτό γίνεται συγκρίνοντας την πραγματικά ληφθείσα τιμή του ch2f με την κρίσιμη τιμή του (ch2st) (a) και τον αριθμό των βαθμών ελευθερίας (n).

Η κατανομή των πιθανών τιμών της τυχαίας μεταβλητής h2 είναι συνεχής και ασύμμετρη. Εξαρτάται από τον αριθμό των βαθμών ελευθερίας (n) και τις προσεγγίσεις κανονική κατανομήόσο αυξάνεται ο αριθμός των παρατηρήσεων. Επομένως, η εφαρμογή του κριτηρίου p2 στην αξιολόγηση διακριτές κατανομέςσχετίζεται με ορισμένα σφάλματα που επηρεάζουν την αξία του, ειδικά για μικρά δείγματα. Για να ληφθούν πιο ακριβείς εκτιμήσεις, το δείγμα κατανεμήθηκε σε σειρά παραλλαγής, πρέπει να έχει τουλάχιστον 50 επιλογές. Η σωστή εφαρμογή του κριτηρίου p2 απαιτεί επίσης ότι οι συχνότητες των παραλλαγών στις ακραίες κατηγορίες δεν πρέπει να είναι μικρότερες από 5. αν είναι λιγότερες από 5, τότε συνδυάζονται με τις συχνότητες γειτονικών κλάσεων έτσι ώστε το συνολικό ποσό να είναι μεγαλύτερο ή ίσο με 5. Σύμφωνα με το συνδυασμό συχνοτήτων μειώνεται και ο αριθμός των κλάσεων (Ν). Ο αριθμός των βαθμών ελευθερίας ορίζεται σύμφωνα με τον δευτερεύοντα αριθμό τάξεων, λαμβάνοντας υπόψη τον αριθμό των περιορισμών στην ελευθερία παραλλαγής.

Δεδομένου ότι η ακρίβεια του προσδιορισμού του κριτηρίου p2 εξαρτάται σε μεγάλο βαθμό από την ακρίβεια του υπολογισμού των θεωρητικών συχνοτήτων (T), οι μη στρογγυλεμένες θεωρητικές συχνότητες θα πρέπει να χρησιμοποιούνται για να ληφθεί η διαφορά μεταξύ της εμπειρικής και της υπολογισμένης συχνότητας.

Για παράδειγμα, ας πάρουμε μια μελέτη που δημοσιεύτηκε σε έναν ιστότοπο αφιερωμένο στην εφαρμογή στατιστικών μεθόδων στις ανθρωπιστικές επιστήμες.

Το τεστ Chi-square επιτρέπει τη σύγκριση των κατανομών συχνοτήτων, είτε είναι κανονικά κατανεμημένες είτε όχι.

Η συχνότητα αναφέρεται στον αριθμό των περιστατικών ενός γεγονότος. Συνήθως, η συχνότητα εμφάνισης ενός γεγονότος αντιμετωπίζεται όταν οι μεταβλητές μετρώνται στην κλίμακα των ονομάτων και τα άλλα χαρακτηριστικά τους, εκτός από τη συχνότητα, είναι αδύνατο ή προβληματικό να επιλεγούν. Με άλλα λόγια, όταν η μεταβλητή έχει ποιοτικά χαρακτηριστικά. Επίσης, πολλοί ερευνητές τείνουν να μεταφράζουν τις βαθμολογίες των τεστ σε επίπεδα (υψηλό, μεσαίο, χαμηλό) και να δημιουργούν πίνακες κατανομής βαθμολογίας για να μάθουν τον αριθμό των ατόμων σε αυτά τα επίπεδα. Για να αποδειχθεί ότι σε ένα από τα επίπεδα (σε μια από τις κατηγορίες) ο αριθμός των ατόμων είναι πραγματικά περισσότερα (λιγότερα), χρησιμοποιείται επίσης ο συντελεστής Chi-square.

Ας ρίξουμε μια ματιά στο απλούστερο παράδειγμα.

Πραγματοποιήθηκε τεστ αυτοεκτίμησης σε νεότερους εφήβους. Οι βαθμολογίες των τεστ μεταφράστηκαν σε τρία επίπεδα: υψηλό, μεσαίο, χαμηλό. Οι συχνότητες κατανεμήθηκαν ως εξής:

Υψηλό (H) 27 άτομα.

Μεσαίο (C) 12 άτομα

Χαμηλό (Η) 11 ανά άτομο.

Είναι προφανές ότι η πλειοψηφία των παιδιών με υψηλή αυτοεκτίμηση, ωστόσο, αυτό χρειάζεται να αποδειχθεί στατιστικά. Για να γίνει αυτό, χρησιμοποιούμε το τεστ Chi-square.

Καθήκον μας είναι να ελέγξουμε εάν τα εμπειρικά δεδομένα που λαμβάνονται διαφέρουν από τα θεωρητικά εξίσου πιθανά. Για να γίνει αυτό, είναι απαραίτητο να βρούμε τις θεωρητικές συχνότητες. Στην περίπτωσή μας, οι θεωρητικές συχνότητες είναι ισοπιθανές συχνότητες που βρίσκονται προσθέτοντας όλες τις συχνότητες και διαιρώντας με τον αριθμό των κατηγοριών.

Στην περίπτωσή μας:

(B + C + H) / 3 \u003d (27 + 12 + 11) / 3 \u003d 16,6

Ο τύπος για τον υπολογισμό του τεστ chi-square είναι:

h2 \u003d? (E - T); / Τ

Φτιάχνουμε ένα τραπέζι:

Εμπειρικός (Ε)

Θεωρητικός (Τ)

Βρείτε το άθροισμα της τελευταίας στήλης:

Τώρα πρέπει να βρείτε την κρίσιμη τιμή του κριτηρίου σύμφωνα με τον πίνακα κρίσιμων τιμών (Πίνακας 1 στο Παράρτημα). Για να γίνει αυτό, χρειαζόμαστε τον αριθμό των βαθμών ελευθερίας (n).

n = (R - 1) * (C - 1)

όπου R είναι ο αριθμός των γραμμών στον πίνακα, C είναι ο αριθμός των στηλών.

Στην περίπτωσή μας, υπάρχει μόνο μία στήλη (δηλαδή οι αρχικές εμπειρικές συχνότητες) και τρεις σειρές (κατηγορίες), οπότε ο τύπος αλλάζει - εξαιρούμε τις στήλες.

n = (R - 1) = 3-1 = 2

Για την πιθανότητα σφάλματος p?0,05 και n = 2, η κρίσιμη τιμή είναι h2 = 5,99.

Η εμπειρική τιμή που λαμβάνεται είναι μεγαλύτερη από την κρίσιμη τιμή - οι διαφορές συχνότητας είναι σημαντικές (n2= 9,64, p≤0,05).

Όπως μπορείτε να δείτε, ο υπολογισμός του κριτηρίου είναι πολύ απλός και δεν απαιτεί πολύ χρόνο. Πρακτική αξίατο τεστ chi-square είναι τεράστιο. Αυτή η μέθοδος είναι πιο πολύτιμη στην ανάλυση των απαντήσεων στα ερωτηματολόγια.

Ας πάρουμε ένα πιο σύνθετο παράδειγμα.

Για παράδειγμα, ένας ψυχολόγος θέλει να μάθει αν είναι αλήθεια ότι οι δάσκαλοι είναι πιο προκατειλημμένοι προς τα αγόρια παρά προς τα κορίτσια. Εκείνοι. πιο πιθανό να επαινούν τα κορίτσια. Για να γίνει αυτό, η ψυχολόγος ανέλυσε τα χαρακτηριστικά των μαθητών που έγραψαν οι δάσκαλοι, σχετικά με τη συχνότητα εμφάνισης τριών λέξεων: «ενεργός», «επιμελής», «πειθαρχημένος», μετρήθηκαν επίσης συνώνυμα λέξεων. Τα δεδομένα σχετικά με τη συχνότητα εμφάνισης των λέξεων καταχωρήθηκαν στον πίνακα:

Για την επεξεργασία των ληφθέντων δεδομένων, χρησιμοποιούμε το τεστ chi-square.

Για να γίνει αυτό, κατασκευάζουμε έναν πίνακα κατανομής εμπειρικών συχνοτήτων, δηλ. οι συχνότητες που παρατηρούμε:

Θεωρητικά, αναμένουμε οι συχνότητες να κατανέμονται ισομερώς, δηλ. η συχνότητα θα κατανέμεται αναλογικά μεταξύ αγοριών και κοριτσιών. Ας φτιάξουμε έναν πίνακα θεωρητικών συχνοτήτων. Για να το κάνετε αυτό, πολλαπλασιάστε το άθροισμα των σειρών με το άθροισμα στηλών και διαιρέστε τον αριθμό που προκύπτει με το συνολικό άθροισμα (α).

Ο πίνακας που προκύπτει για τους υπολογισμούς θα μοιάζει με αυτό:

h2 \u003d? (E - T); / Τ

n = (R - 1), όπου R είναι ο αριθμός των σειρών στον πίνακα.

Στην περίπτωσή μας, χι-τετράγωνο = 4,21; n = 2.

Σύμφωνα με τον πίνακα των κρίσιμων τιμών του κριτηρίου, βρίσκουμε: με n = 2 και επίπεδο σφάλματος 0,05, την κρίσιμη τιμή h2 = 5,99.

Η τιμή που προκύπτει είναι μικρότερη από την κρίσιμη τιμή, πράγμα που σημαίνει ότι η μηδενική υπόθεση γίνεται αποδεκτή.

Συμπέρασμα: οι δάσκαλοι δεν δίνουν σημασία στο φύλο του παιδιού όταν γράφουν τα χαρακτηριστικά του.

παράρτημα

Κρίσιμα σημεία κατανομής p2

Το χ2 τεστ Pearson είναι μια μη παραμετρική μέθοδος που σας επιτρέπει να αξιολογήσετε τη σημασία των διαφορών μεταξύ του πραγματικού (που αποκαλύφθηκε ως αποτέλεσμα της μελέτης) αριθμού των αποτελεσμάτων ή ποιοτικά χαρακτηριστικάδείγματα που εμπίπτουν σε κάθε κατηγορία και ο θεωρητικός αριθμός που μπορεί να αναμένεται στις ομάδες που μελετήθηκαν εάν η μηδενική υπόθεση είναι αληθής. Με απλούστερους όρους, η μέθοδος σας επιτρέπει να αξιολογήσετε τη στατιστική σημασία των διαφορών μεταξύ δύο ή περισσότερων σχετικών δεικτών (συχνότητες, μερίδια).

1. Ιστορικό ανάπτυξης του κριτηρίου χ 2

Το τεστ chi-square για την ανάλυση πινάκων έκτακτης ανάγκης αναπτύχθηκε και προτάθηκε το 1900 από έναν Άγγλο μαθηματικό, στατιστικολόγο, βιολόγο και φιλόσοφο, τον ιδρυτή της μαθηματικής στατιστικής και έναν από τους ιδρυτές της βιομετρίας. Καρλ Πίρσον(1857-1936).

2. Σε τι χρησιμεύει το κριτήριο χ 2 του Pearson;

Το τεστ chi-square μπορεί να εφαρμοστεί στην ανάλυση πίνακες έκτακτης ανάγκηςπου περιέχει πληροφορίες σχετικά με τη συχνότητα των αποτελεσμάτων ανάλογα με την παρουσία ενός παράγοντα κινδύνου. Για παράδειγμα, πίνακας έκτακτης ανάγκης τεσσάρων πεδίωνως εξής:

Η Έξοδος είναι (1) Χωρίς έξοδο (0) Σύνολο
Υπάρχει ένας παράγοντας κινδύνου (1) ΕΝΑ σι Α+Β
Χωρίς παράγοντα κινδύνου (0) ντο ρε C+D
Σύνολο A+C Β+Δ Α+Β+Γ+Δ

Πώς να συμπληρώσετε έναν τέτοιο πίνακα έκτακτης ανάγκης; Ας εξετάσουμε ένα μικρό παράδειγμα.

Σε εξέλιξη βρίσκεται μελέτη για την επίδραση του καπνίσματος στον κίνδυνο εμφάνισης αρτηριακής υπέρτασης. Για αυτό, επιλέχθηκαν δύο ομάδες ατόμων - η πρώτη περιελάμβανε 70 άτομα που καπνίζουν τουλάχιστον 1 πακέτο τσιγάρα καθημερινά, η δεύτερη - 80 μη καπνιστές της ίδιας ηλικίας. Στην πρώτη ομάδα, 40 άτομα είχαν υπέρταση. Στη δεύτερη - αρτηριακή υπέρταση παρατηρήθηκε σε 32 άτομα. Αντίστοιχα, η φυσιολογική αρτηριακή πίεση στην ομάδα των καπνιστών ήταν σε 30 άτομα (70 - 40 = 30) και στην ομάδα των μη καπνιστών - σε 48 (80 - 32 = 48).

Συμπληρώνουμε τον πίνακα έκτακτων τεσσάρων πεδίων με τα αρχικά δεδομένα:

Στον πίνακα έκτακτης ανάγκης που προκύπτει, κάθε γραμμή αντιστοιχεί σε μια συγκεκριμένη ομάδα θεμάτων. Στήλες - δείχνουν τον αριθμό των ατόμων με αρτηριακή υπέρταση ή με φυσιολογική αρτηριακή πίεση.

Η πρόκληση για τον ερευνητή είναι: υπάρχουν στατιστικά σημαντικές διαφορές μεταξύ της συχνότητας των ατόμων με αρτηριακή πίεση μεταξύ των καπνιστών και των μη καπνιστών; Μπορείτε να απαντήσετε σε αυτήν την ερώτηση υπολογίζοντας το τεστ χ-τετράγωνο του Pearson και συγκρίνοντας την τιμή που προκύπτει με την κρίσιμη.

3. Προϋποθέσεις και περιορισμοί σχετικά με τη χρήση του πειράματος chi-square του Pearson

  1. Συγκρίσιμοι δείκτες θα πρέπει να μετρώνται σε ονομαστική κλίμακα(για παράδειγμα, το φύλο του ασθενούς - αρσενικό ή θηλυκό) ή σε τακτικός(για παράδειγμα, ο βαθμός αρτηριακής υπέρτασης, λαμβάνοντας τιμές από 0 έως 3).
  2. Αυτή η μέθοδοςεπιτρέπει την ανάλυση όχι μόνο πινάκων τεσσάρων πεδίων, όταν τόσο ο παράγοντας όσο και το αποτέλεσμα είναι δυαδικές μεταβλητές, δηλαδή έχουν μόνο δύο πιθανές τιμές​​(για παράδειγμα, άνδρας ή γυναίκα, παρουσία ή απουσία συγκεκριμένης ασθένειας στην ιστορία ...). Το τεστ chi-square του Pearson μπορεί επίσης να χρησιμοποιηθεί στην περίπτωση της ανάλυσης πινάκων πολλαπλών πεδίων, όταν ο παράγοντας και (ή) το αποτέλεσμα λαμβάνουν τρεις ή περισσότερες τιμές.
  3. Οι αντιστοιχισμένες ομάδες θα πρέπει να είναι ανεξάρτητες, δηλαδή το τεστ χ-τετράγωνο δεν πρέπει να χρησιμοποιείται κατά τη σύγκριση των παρατηρήσεων πριν και μετά. Δοκιμή McNemar(όταν συγκρίνονται δύο συγγενείς πληθυσμοί) ή υπολογίζονται Q-test Cochran(σε περίπτωση σύγκρισης τριών ή περισσότερων ομάδων).
  4. Κατά την ανάλυση πινάκων τεσσάρων πεδίων αναμενόμενες τιμέςσε καθένα από τα κελιά πρέπει να είναι τουλάχιστον 10. Σε περίπτωση που σε τουλάχιστον ένα κελί το αναμενόμενο φαινόμενο λάβει τιμή από 5 έως 9, πρέπει να υπολογιστεί η δοκιμή χ-τετράγωνου με διόρθωση Yates. Εάν σε τουλάχιστον ένα κελί το αναμενόμενο φαινόμενο είναι μικρότερο από 5, τότε η ανάλυση θα πρέπει να χρησιμοποιηθεί Το ακριβές τεστ του Fisher.
  5. Στην περίπτωση ανάλυσης πινάκων πολλαπλών πεδίων, ο αναμενόμενος αριθμός παρατηρήσεων δεν πρέπει να λαμβάνει τιμές μικρότερες από 5 σε περισσότερο από το 20% των κελιών.

4. Πώς να υπολογίσετε το τεστ Χ-τετράγωνο του Pearson;

Για να υπολογίσετε το τεστ chi-square, πρέπει:

Αυτός ο αλγόριθμος είναι εφαρμόσιμος και για πίνακες τεσσάρων και πολλών πεδίων.

5. Πώς να ερμηνεύσετε την τιμή του chi-square του Pearson;

Στην περίπτωση που η λαμβανόμενη τιμή του κριτηρίου χ 2 είναι μεγαλύτερη από την κρίσιμη, συμπεραίνουμε ότι υπάρχει στατιστική σχέσημεταξύ του υπό μελέτη παράγοντα κινδύνου και του αποτελέσματος σε κατάλληλο επίπεδο σημασίας.

6. Ένα παράδειγμα υπολογισμού του Pearson chi-square test

Ας προσδιορίσουμε τη στατιστική σημασία της επίδρασης του παράγοντα καπνίσματος στην επίπτωση της αρτηριακής υπέρτασης σύμφωνα με τον παραπάνω πίνακα:

  1. Υπολογίζουμε τις αναμενόμενες τιμές για κάθε κελί:
  2. Βρείτε την τιμή του πειράματος chi-square του Pearson:

    χ 2 \u003d (40-33,6) 2 / 33,6 + (30-36,4) 2 / 36,4 + (32-38,4) 2 / 38,4 + (48-41,6) 2 / 41,6 \u003d 4,396.

  3. Ο αριθμός των βαθμών ελευθερίας f = (2-1)*(2-1) = 1. Βρίσκουμε από τον πίνακα την κρίσιμη τιμή του chi-square test Pearson, η οποία, σε επίπεδο σημαντικότητας p=0,05 και το αριθμός βαθμών ελευθερίας 1, είναι 3.841.
  4. Συγκρίνουμε την λαμβανόμενη τιμή του τεστ chi-square με την κρίσιμη: 4,396 > 3,841, επομένως, η εξάρτηση της επίπτωσης της αρτηριακής υπέρτασης από την παρουσία καπνίσματος είναι στατιστικά σημαντική. Το επίπεδο σημαντικότητας αυτής της σχέσης αντιστοιχεί στο p<0.05.

23. Η έννοια της κατανομής του chi-square και Student, και η γραφική άποψη

1) Μια (χι-τετράγωνη) κατανομή με n βαθμούς ελευθερίας είναι η κατανομή του αθροίσματος των τετραγώνων n ανεξάρτητων τυπικών κανονικών τυχαίων μεταβλητών.

Κατανομή (χι - τετράγωνο)– κατανομή μιας τυχαίας μεταβλητής (επιπλέον, η μαθηματική προσδοκία για καθεμία από αυτές είναι 0 και η τυπική απόκλιση είναι 1)

όπου τυχαίες μεταβλητές είναι ανεξάρτητα και έχουν την ίδια κατανομή. Σε αυτή την περίπτωση, ο αριθμός των όρων, δηλ. , ονομάζεται «αριθμός βαθμών ελευθερίας» της κατανομής χι-τετράγωνο. Ο αριθμός του chi-square καθορίζεται από μια παράμετρο, τον αριθμό των βαθμών ελευθερίας. Καθώς ο αριθμός των βαθμών ελευθερίας αυξάνεται, η κατανομή προσεγγίζει αργά την κανονική.

Τότε το άθροισμα των τετραγώνων τους

είναι μια τυχαία μεταβλητή που κατανέμεται σύμφωνα με τον λεγόμενο νόμο chi-square με k = n βαθμούς ελευθερίας. εάν οι όροι σχετίζονται με κάποια σχέση (για παράδειγμα, ), τότε ο αριθμός των βαθμών ελευθερίας είναι k = n - 1.

Η πυκνότητα αυτής της κατανομής

Εδώ είναι η συνάρτηση γάμμα. συγκεκριμένα, Г(n + 1) = n! .

Επομένως, η κατανομή χ-τετράγωνο καθορίζεται από μια παράμετρο - τον αριθμό των βαθμών ελευθερίας k.

Παρατήρηση 1. Καθώς ο αριθμός των βαθμών ελευθερίας αυξάνεται, η κατανομή του χ-τετράγωνου σταδιακά προσεγγίζει την κανονική.

Παρατήρηση 2. Χρησιμοποιώντας την κατανομή «chi-square», προσδιορίζονται πολλές άλλες κατανομές που συναντώνται στην πράξη, για παράδειγμα, η κατανομή μιας τυχαίας μεταβλητής - το μήκος ενός τυχαίου διανύσματος (X1, X2, ..., Xp) , των οποίων οι συντεταγμένες είναι ανεξάρτητες και κατανέμονται σύμφωνα με τον κανονικό νόμο.

Η χ2-κατανομή εξετάστηκε για πρώτη φορά από τους R. Helmert (1876) και K. Pearson (1900).

Math.exp.=n; D=2n

2) Κατανομή μαθητή

Θεωρήστε δύο ανεξάρτητες τυχαίες μεταβλητές: Z, η οποία έχει κανονική κατανομή και κανονικοποιημένη (δηλαδή, M(Z) = 0, σ(Z) = 1) και V, κατανεμημένη σύμφωνα με το νόμο του χι-τετραγώνου με k βαθμούς ελευθερίας. Στη συνέχεια η τιμή

έχει μια κατανομή που ονομάζεται t - κατανομή ή Κατανομή Student με k βαθμούς ελευθερίας. Στην περίπτωση αυτή, το k ονομάζεται «αριθμός βαθμών ελευθερίας» της κατανομής του Μαθητή.

Καθώς ο αριθμός των βαθμών ελευθερίας αυξάνεται, η κατανομή του Μαθητή πλησιάζει γρήγορα την κανονική.

Αυτή η διανομή εισήχθη το 1908 από τον Άγγλο στατιστικολόγο W. Gosset, ο οποίος εργαζόταν σε ένα εργοστάσιο μπύρας. Οι πιθανοτικές-στατιστικές μέθοδοι χρησιμοποιήθηκαν για τη λήψη οικονομικών και τεχνικών αποφάσεων σε αυτό το εργοστάσιο, έτσι η διοίκηση του απαγόρευσε στον V. Gosset να δημοσιεύει επιστημονικά άρθρα με το όνομά του. Με αυτόν τον τρόπο προστατεύτηκε ένα εμπορικό μυστικό, «τεχνογνωσία» με τη μορφή πιθανοτικών-στατιστικών μεθόδων που ανέπτυξε ο W. Gosset. Ωστόσο, μπόρεσε να δημοσιεύσει με το ψευδώνυμο «Φοιτητής». Η ιστορία του Gosset-Student δείχνει ότι πριν από εκατό χρόνια, η μεγάλη οικονομική αποτελεσματικότητα των πιθανοτικών-στατιστικών μεθόδων λήψης αποφάσεων ήταν προφανής στους Βρετανούς μάνατζερ.

Μέχρι τα τέλη του 19ου αιώνα, η κανονική κατανομή θεωρούνταν ο παγκόσμιος νόμος της διακύμανσης των δεδομένων. Ωστόσο, ο K. Pearson παρατήρησε ότι οι εμπειρικές συχνότητες μπορεί να διαφέρουν πολύ από την κανονική κατανομή. Το ερώτημα ήταν πώς να το αποδείξουμε. Απαιτούσε όχι μόνο μια γραφική σύγκριση, η οποία είναι υποκειμενική, αλλά και μια αυστηρή ποσοτική αιτιολόγηση.

Έτσι εφευρέθηκε το κριτήριο χ 2(τετράγωνο χι), το οποίο ελέγχει τη σημασία της ασυμφωνίας μεταξύ εμπειρικών (παρατηρούμενων) και θεωρητικών (αναμενόμενων) συχνοτήτων. Αυτό συνέβη το 1900, αλλά το κριτήριο χρησιμοποιείται ακόμα και σήμερα. Επιπλέον, έχει προσαρμοστεί για να επιλύει ένα ευρύ φάσμα εργασιών. Πρώτα απ 'όλα, αυτή είναι η ανάλυση κατηγορικών δεδομένων, δηλ. αυτά που εκφράζονται όχι από την ποσότητα, αλλά από το ότι ανήκουν σε μια κατηγορία. Για παράδειγμα, η κατηγορία του αυτοκινήτου, το φύλο του συμμετέχοντος στο πείραμα, ο τύπος του φυτού κ.λπ. Μαθηματικές πράξεις όπως η πρόσθεση και ο πολλαπλασιασμός δεν μπορούν να εφαρμοστούν σε τέτοια δεδομένα, μόνο οι συχνότητες μπορούν να υπολογιστούν για αυτά.

Δηλώνουμε τις παρατηρούμενες συχνότητες Ω (Παρατηρήθηκε), αναμενόμενος - E (αναμενόμενο). Για παράδειγμα, ας πάρουμε το αποτέλεσμα της ρίψης ενός ζαριού 60 φορές. Αν είναι συμμετρική και ομοιόμορφη, η πιθανότητα να ανέβει οποιαδήποτε πλευρά είναι 1/6 και επομένως ο αναμενόμενος αριθμός κάθε πλευράς που θα ανέβει είναι 10 (1/6∙60). Γράφουμε τις παρατηρούμενες και τις αναμενόμενες συχνότητες σε πίνακα και σχεδιάζουμε ιστόγραμμα.

Η μηδενική υπόθεση είναι ότι οι συχνότητες είναι συνεπείς, δηλαδή τα πραγματικά δεδομένα δεν έρχονται σε αντίθεση με τα αναμενόμενα. Μια εναλλακτική υπόθεση είναι ότι οι αποκλίσεις στις συχνότητες υπερβαίνουν τις τυχαίες διακυμάνσεις, οι αποκλίσεις είναι στατιστικά σημαντικές. Για να βγάλουμε ένα αυστηρό συμπέρασμα, χρειαζόμαστε.

  1. Ένα γενικευμένο μέτρο της ασυμφωνίας μεταξύ παρατηρούμενων και αναμενόμενων συχνοτήτων.
  2. Η κατανομή αυτού του μέτρου υπό την εγκυρότητα της υπόθεσης ότι δεν υπάρχουν διαφορές.

Ας ξεκινήσουμε με την απόσταση μεταξύ των συχνοτήτων. Αν πάρουμε απλώς τη διαφορά Ο - Ε, τότε ένα τέτοιο μέτρο θα εξαρτηθεί από την κλίμακα των δεδομένων (συχνότητες). Για παράδειγμα, 20 - 5 = 15 και 1020 - 1005 = 15. Και στις δύο περιπτώσεις, η διαφορά είναι 15. Αλλά στην πρώτη περίπτωση, οι αναμενόμενες συχνότητες είναι 3 φορές μικρότερες από τις παρατηρούμενες και στη δεύτερη περίπτωση, μόνο 1,5 %. Χρειαζόμαστε ένα σχετικό μέτρο που δεν εξαρτάται από την κλίμακα.

Ας προσέξουμε τα ακόλουθα γεγονότα. Γενικά, ο αριθμός των κατηγοριών στις οποίες μετρώνται οι συχνότητες μπορεί να είναι πολύ μεγαλύτερος, επομένως η πιθανότητα μια μεμονωμένη παρατήρηση να εμπίπτει στη μία ή στην άλλη κατηγορία είναι πολύ μικρή. Αν ναι, τότε η κατανομή μιας τέτοιας τυχαίας μεταβλητής θα υπακούει στον νόμο των σπάνιων γεγονότων, γνωστό ως Ο νόμος του Πουασόν. Στο νόμο Poisson, όπως είναι γνωστό, η τιμή της μαθηματικής προσδοκίας και η διακύμανση είναι ίδιες (παράμετρος λ ). Ως εκ τούτου, η αναμενόμενη συχνότητα για κάποια κατηγορία ονομαστικής μεταβλητής Eiθα είναι η ταυτόχρονη και η διασπορά της. Επιπλέον, ο νόμος του Poisson με μεγάλο αριθμό παρατηρήσεων τείνει στο φυσιολογικό. Συνδυάζοντας αυτά τα δύο γεγονότα, παίρνουμε ότι εάν η υπόθεση για τη συμφωνία μεταξύ των παρατηρούμενων και των αναμενόμενων συχνοτήτων είναι αληθής, τότε, με μεγάλο αριθμό παρατηρήσεων, έκφραση

Είναι σημαντικό να θυμάστε ότι η κανονικότητα θα εμφανίζεται μόνο σε αρκετά υψηλές συχνότητες. Στις στατιστικές, είναι γενικά αποδεκτό ότι ο συνολικός αριθμός των παρατηρήσεων (το άθροισμα των συχνοτήτων) πρέπει να είναι τουλάχιστον 50 και η αναμενόμενη συχνότητα σε κάθε διαβάθμιση πρέπει να είναι τουλάχιστον 5. Μόνο σε αυτήν την περίπτωση, η τιμή που εμφανίζεται παραπάνω έχει μια τυπική κανονική διανομή. Ας υποθέσουμε ότι αυτή η προϋπόθεση πληρούται.

Η τυπική κανονική κατανομή έχει σχεδόν όλες τις τιμές εντός ±3 (κανόνας τριών σίγμα). Έτσι, λάβαμε μια σχετική διαφορά στις συχνότητες για μία διαβάθμιση. Χρειαζόμαστε ένα γενικευμένο μέτρο. Δεν μπορείτε απλώς να προσθέσετε όλες τις αποκλίσεις - παίρνουμε 0 (μάντεψε γιατί). Ο Pearson πρότεινε την προσθήκη των τετραγώνων αυτών των αποκλίσεων.

Αυτά είναι τα σημάδια Τεστ Chi-square Pearson. Εάν οι συχνότητες αντιστοιχούν πραγματικά στις αναμενόμενες, τότε η τιμή του κριτηρίου θα είναι σχετικά μικρή (γιατί οι περισσότερες αποκλίσεις είναι σχεδόν μηδενικές). Αλλά αν το κριτήριο αποδειχθεί μεγάλο, τότε αυτό μαρτυρεί υπέρ σημαντικών διαφορών μεταξύ των συχνοτήτων.

Το κριτήριο Pearson γίνεται «μεγάλο» όταν η εμφάνιση μιας τέτοιας ή ακόμη μεγαλύτερης αξίας είναι απίθανη. Και για να υπολογιστεί μια τέτοια πιθανότητα, είναι απαραίτητο να γνωρίζουμε την κατανομή του κριτηρίου όταν το πείραμα επαναλαμβάνεται πολλές φορές, όταν η υπόθεση της συμφωνίας συχνότητας είναι σωστή.

Όπως μπορείτε να δείτε, η τιμή του chi-square εξαρτάται επίσης από τον αριθμό των όρων. Όσο περισσότερα από αυτά, τόσο μεγαλύτερη θα πρέπει να είναι η αξία του κριτηρίου, γιατί κάθε όρος θα συνεισφέρει στο συνολικό ποσό. Επομένως, για κάθε ποσότητα ανεξάρτητοςόρους, θα έχει τη δική του διανομή. Τελικά φαίνεται πως χ 2είναι μια ολόκληρη οικογένεια διανομών.

Και εδώ φτάνουμε σε μια γαργαληρή στιγμή. Τι είναι ένας αριθμός ανεξάρτητοςόροι? Φαίνεται ότι οποιοσδήποτε όρος (δηλαδή απόκλιση) είναι ανεξάρτητος. Το σκέφτηκε και ο K. Pearson, αλλά αποδείχθηκε ότι ήταν λάθος. Στην πραγματικότητα, ο αριθμός των ανεξάρτητων όρων θα είναι ένας μικρότερος από τον αριθμό των διαβαθμίσεων της ονομαστικής μεταβλητής n. Γιατί; Διότι αν έχουμε ένα δείγμα για το οποίο έχει ήδη υπολογιστεί το άθροισμα των συχνοτήτων, τότε μία από τις συχνότητες μπορεί πάντα να οριστεί ως η διαφορά μεταξύ του συνολικού αριθμού και του αθροίσματος όλων των άλλων. Ως εκ τούτου, η απόκλιση θα είναι κάπως μικρότερη. Ο Ronald Fisher παρατήρησε αυτό το γεγονός 20 χρόνια αφότου ο Pearson ανέπτυξε το κριτήριό του. Ακόμη και τα τραπέζια έπρεπε να ξαναφτιάξουν.

Με αυτή την ευκαιρία, ο Fisher εισήγαγε μια νέα έννοια στη στατιστική - βαθμός ελευθερίας(βαθμοί ελευθερίας), που είναι ο αριθμός των ανεξάρτητων όρων στο άθροισμα. Η έννοια των βαθμών ελευθερίας έχει μια μαθηματική εξήγηση και εμφανίζεται μόνο σε κατανομές που σχετίζονται με το κανονικό (Student, Fisher-Snedekor και το ίδιο το chi-square).

Για να κατανοήσουμε καλύτερα την έννοια των βαθμών ελευθερίας, ας στραφούμε στο φυσικό ανάλογο. Φανταστείτε ένα σημείο να κινείται ελεύθερα στο διάστημα. Έχει 3 βαθμούς ελευθερίας, γιατί μπορεί να κινηθεί προς οποιαδήποτε κατεύθυνση του τρισδιάστατου χώρου. Εάν ένα σημείο κινείται κατά μήκος οποιασδήποτε επιφάνειας, τότε έχει ήδη δύο βαθμούς ελευθερίας (εμπρός-πίσω, δεξιά-αριστερά), αν και συνεχίζει να βρίσκεται σε τρισδιάστατο χώρο. Το σημείο που κινείται κατά μήκος του ελατηρίου βρίσκεται και πάλι σε τρισδιάστατο χώρο, αλλά έχει μόνο έναν βαθμό ελευθερίας, γιατί μπορεί να κινηθεί είτε προς τα εμπρός είτε προς τα πίσω. Όπως μπορείτε να δείτε, ο χώρος όπου βρίσκεται το αντικείμενο δεν αντιστοιχεί πάντα στην πραγματική ελευθερία κινήσεων.

Επίσης, κατά προσέγγιση η κατανομή ενός στατιστικού κριτηρίου μπορεί να εξαρτάται από μικρότερο αριθμό στοιχείων από τα αθροίσματα για τον υπολογισμό του. Στη γενική περίπτωση, ο αριθμός των βαθμών ελευθερίας είναι μικρότερος από τις παρατηρήσεις με βάση τον αριθμό των διαθέσιμων εξαρτήσεων.

Άρα η κατανομή είναι chi τετράγωνο ( χ 2) είναι μια οικογένεια κατανομών, καθεμία από τις οποίες εξαρτάται από μια παράμετρο βαθμών ελευθερίας. Και ο επίσημος ορισμός του τεστ chi-square είναι ο εξής. Διανομή χ 2(χι-τετράγωνο) με κβαθμοί ελευθερίας είναι η κατανομή του αθροίσματος των τετραγώνων κανεξάρτητες τυπικές κανονικές τυχαίες μεταβλητές.

Στη συνέχεια, θα μπορούσαμε να περάσουμε στον ίδιο τον τύπο, σύμφωνα με τον οποίο υπολογίζεται η συνάρτηση κατανομής χ-τετράγωνο, αλλά, ευτυχώς, τα πάντα έχουν υπολογιστεί από καιρό για εμάς. Για να λάβετε την πιθανότητα ενδιαφέροντος, μπορείτε να χρησιμοποιήσετε είτε τον αντίστοιχο στατιστικό πίνακα είτε μια έτοιμη συνάρτηση στο Excel.

Είναι ενδιαφέρον να δούμε πώς αλλάζει το σχήμα της κατανομής του χ-τετράγωνου ανάλογα με τον αριθμό των βαθμών ελευθερίας.

Καθώς οι βαθμοί ελευθερίας αυξάνονται, η κατανομή του τετράγωνου χ τείνει να είναι κανονική. Αυτό εξηγείται από τη δράση του κεντρικού οριακού θεωρήματος, σύμφωνα με το οποίο το άθροισμα ενός μεγάλου αριθμού ανεξάρτητων τυχαίων μεταβλητών έχει κανονική κατανομή. Δεν λέει τίποτα για τετράγωνα.

Δοκιμή υποθέσεων Chi-Squared Pearson

Φτάνουμε λοιπόν στον έλεγχο των υποθέσεων χρησιμοποιώντας τη μέθοδο chi-square. Γενικά η τεχνική παραμένει. Προβάλλεται μια μηδενική υπόθεση ότι οι παρατηρούμενες συχνότητες αντιστοιχούν στις αναμενόμενες (δηλαδή δεν υπάρχει διαφορά μεταξύ τους, αφού προέρχονται από τον ίδιο γενικό πληθυσμό). Εάν ισχύει αυτό, τότε η διαφορά θα είναι σχετικά μικρή, εντός των ορίων των τυχαίων διακυμάνσεων. Το μέτρο της εξάπλωσης καθορίζεται από τη δοκιμή chi-square. Στη συνέχεια, είτε συγκρίνεται το ίδιο το κριτήριο με την κρίσιμη τιμή (για το αντίστοιχο επίπεδο σημασίας και βαθμούς ελευθερίας), είτε, πιο σωστά, υπολογίζεται η παρατηρούμενη τιμή p, δηλ. την πιθανότητα απόκτησης τέτοιας ή ακόμη μεγαλύτερης τιμής του κριτηρίου υπό την εγκυρότητα της μηδενικής υπόθεσης.

Επειδή Εφόσον μας ενδιαφέρει η συμφωνία των συχνοτήτων, τότε η υπόθεση θα απορριφθεί όταν το κριτήριο είναι μεγαλύτερο από το κρίσιμο επίπεδο. Εκείνοι. το κριτήριο είναι μονόπλευρο. Ωστόσο, μερικές φορές (μερικές φορές) απαιτείται να ελεγχθεί η υπόθεση του αριστερού. Για παράδειγμα, όταν τα εμπειρικά δεδομένα είναι τόσο πολύ παρόμοια με τα θεωρητικά. Τότε το κριτήριο μπορεί να πέσει σε μια απίθανη περιοχή, αλλά ήδη στα αριστερά. Το γεγονός είναι ότι σε φυσικές συνθήκες, είναι απίθανο να ληφθούν συχνότητες που πρακτικά συμπίπτουν με τις θεωρητικές. Υπάρχει πάντα κάποια τυχαιότητα που δίνει ένα σφάλμα. Αλλά αν δεν υπάρχει τέτοιο σφάλμα, τότε ίσως τα δεδομένα παραποιήθηκαν. Ωστόσο, η υπόθεση του δεξιού χεριού συνήθως ελέγχεται.

Ας επιστρέψουμε στο πρόβλημα με τα ζάρια. Υπολογίστε την τιμή του τεστ chi-square σύμφωνα με τα διαθέσιμα δεδομένα.

Τώρα ας βρούμε την κρίσιμη τιμή στους 5 βαθμούς ελευθερίας ( κ) και επίπεδο σημαντικότητας 0,05 ( α ) σύμφωνα με τον πίνακα των κρίσιμων τιμών της κατανομής χ-τετράγωνο.

Δηλαδή, ένα ποσό 0,05 chi τετράγωνο κατανομής (δεξιά ουρά) με 5 βαθμούς ελευθερίας χ2 0,05; 5 = 11,1.

Ας συγκρίνουμε την πραγματική και την τιμή του πίνακα. 3.4( χ 2) < 11,1 (χ2 0,05; 5). Το υπολογισμένο κριτήριο αποδείχθηκε μικρότερο, πράγμα που σημαίνει ότι η υπόθεση της ισότητας (συναίνεσης) των συχνοτήτων δεν απορρίπτεται. Στο σχήμα, η κατάσταση μοιάζει με αυτό.

Εάν η υπολογιζόμενη τιμή έπεφτε στην κρίσιμη περιοχή, τότε η μηδενική υπόθεση θα απορριφόταν.

Θα ήταν πιο σωστό να υπολογίσουμε και την τιμή p. Για να το κάνετε αυτό, πρέπει να βρείτε στον πίνακα την πλησιέστερη τιμή για έναν δεδομένο αριθμό βαθμών ελευθερίας και να δείτε το αντίστοιχο επίπεδο σημασίας. Αλλά αυτός είναι ο τελευταίος αιώνας. Θα χρησιμοποιήσουμε υπολογιστή, ιδιαίτερα MS Excel. Το Excel έχει πολλές λειτουργίες που σχετίζονται με το χι-τετράγωνο.

Παρακάτω ακολουθεί μια σύντομη περιγραφή τους.

XI2.OBR- κρίσιμη τιμή του κριτηρίου για μια δεδομένη πιθανότητα στα αριστερά (όπως στους στατιστικούς πίνακες)

chi2.ex.phείναι η κρίσιμη τιμή του κριτηρίου για μια δεδομένη πιθανότητα στα δεξιά. Η συνάρτηση ουσιαστικά αντιγράφει την προηγούμενη. Αλλά εδώ μπορείτε να υποδείξετε αμέσως το επίπεδο α , αντί να το αφαιρέσουμε από το 1. Αυτό είναι πιο βολικό, γιατί Στις περισσότερες περιπτώσεις, χρειάζεται η δεξιά ουρά της διανομής.

CH2.DIST– p-value στα αριστερά (η πυκνότητα μπορεί να υπολογιστεί).

HI2.DIST.PH– p-value στα δεξιά.

HI2.TEST– εκτελεί μια δοκιμή χ-τετράγωνο σε δύο περιοχές συχνοτήτων ταυτόχρονα. Ο αριθμός των βαθμών ελευθερίας λαμβάνεται κατά ένα λιγότερο από τον αριθμό των συχνοτήτων στη στήλη (όπως θα έπρεπε), επιστρέφοντας μια τιμή p.

Προς το παρόν, ας υπολογίσουμε για το πείραμά μας την κρίσιμη (πίνακας) τιμή για 5 βαθμούς ελευθερίας και άλφα 0,05. Ο τύπος του Excel θα μοιάζει με αυτό:

CH2.OBR(0,95;5)

chi2.inv.rx(0,05;5)

Το αποτέλεσμα θα είναι το ίδιο - 11,0705. Είναι αυτή η τιμή που βλέπουμε στον πίνακα (στρογγυλοποιημένη στο 1 δεκαδικό ψηφίο).

Τέλος, υπολογίζουμε την τιμή p για 5 βαθμούς ελευθερίας του κριτηρίου χ 2= 3,4. Χρειαζόμαστε την πιθανότητα στα δεξιά, οπότε παίρνουμε τη συνάρτηση με την προσθήκη RH (δεξιά ουρά)

CH2.DIST.RH(3,4;5) = 0,63857

Άρα, με 5 βαθμούς ελευθερίας, η πιθανότητα απόκτησης της τιμής του κριτηρίου χ 2= 3,4 και περισσότερο ισούται με σχεδόν 64%. Φυσικά, η υπόθεση δεν απορρίπτεται (η τιμή p είναι μεγαλύτερη από 5%), οι συχνότητες συμφωνούν πολύ καλά.

Τώρα ας ελέγξουμε την υπόθεση της συμφωνίας συχνότητας χρησιμοποιώντας τη δοκιμή χ-τετράγωνο και τη συνάρτηση Excel HI2.TEST.

Χωρίς πίνακες, χωρίς δυσκίνητους υπολογισμούς. Καθορίζοντας στήλες με παρατηρούμενες και αναμενόμενες συχνότητες ως ορίσματα συνάρτησης, παίρνουμε αμέσως την τιμή p. Η ομορφιά.

Φανταστείτε τώρα ότι παίζετε ζάρια με έναν ύποπτο τύπο. Η κατανομή των πόντων από το 1 έως το 5 παραμένει η ίδια, αλλά ρίχνει 26 εξάρια (ο αριθμός όλων των ρόλων γίνεται 78).

Η τιμή p σε αυτή την περίπτωση αποδεικνύεται ότι είναι 0,003, που είναι πολύ μικρότερη από 0,05. Υπάρχουν σοβαροί λόγοι για να αμφιβάλλουμε για την ορθότητα των ζαριών. Δείτε πώς φαίνεται αυτή η πιθανότητα σε ένα διάγραμμα κατανομής χ-τετράγωνο.

Το ίδιο το κριτήριο χ-τετράγωνο εδώ αποδεικνύεται ότι είναι 17,8, το οποίο, φυσικά, είναι περισσότερο από το κριτήριο του πίνακα (11,1).

Ελπίζω να μπόρεσα να εξηγήσω ποιο είναι το κριτήριο καλής προσαρμογής. χ 2(χι-τετράγωνο) Pearson και πώς ελέγχονται οι στατιστικές υποθέσεις με αυτό.

Τέλος, για άλλη μια φορά για μια σημαντική προϋπόθεση! Η δοκιμή chi-square λειτουργεί σωστά μόνο όταν ο αριθμός όλων των συχνοτήτων υπερβαίνει τις 50 και η ελάχιστη αναμενόμενη τιμή για κάθε διαβάθμιση δεν είναι μικρότερη από 5. Εάν σε οποιαδήποτε κατηγορία η αναμενόμενη συχνότητα είναι μικρότερη από 5, αλλά το άθροισμα όλων των συχνοτήτων υπερβαίνει 50, τότε αυτή η κατηγορία συνδυάζεται με την πλησιέστερη έτσι ώστε η συνολική συχνότητά τους να υπερβαίνει το 5. Εάν αυτό δεν είναι δυνατό ή το άθροισμα των συχνοτήτων είναι μικρότερο από 50, τότε θα πρέπει να χρησιμοποιηθούν πιο ακριβείς μέθοδοι δοκιμής υποθέσεων. Θα τα πούμε άλλη φορά.

Ακολουθεί ένα βίντεο κλιπ σχετικά με τον τρόπο δοκιμής μιας υπόθεσης χρησιμοποιώντας το τεστ χ-τετράγωνο στο Excel.

Η ποσοτική μελέτη των βιολογικών φαινομένων απαιτεί αναγκαστικά τη δημιουργία υποθέσεων που μπορούν να χρησιμοποιηθούν για να εξηγήσουν αυτά τα φαινόμενα. Για να ελεγχθεί αυτή ή εκείνη η υπόθεση, τίθεται σε εφαρμογή μια σειρά από ειδικά πειράματα και τα πραγματικά δεδομένα που λαμβάνονται συγκρίνονται με εκείνα που αναμένονται θεωρητικά σύμφωνα με αυτήν την υπόθεση. Εάν υπάρχει αντιστοιχία, αυτός μπορεί να είναι επαρκής λόγος για να αποδεχτείτε την υπόθεση. Εάν τα πειραματικά δεδομένα δεν συμφωνούν με τα θεωρητικά αναμενόμενα, υπάρχει μεγάλη αμφιβολία για την ορθότητα της προτεινόμενης υπόθεσης.

Ο βαθμός συμμόρφωσης των πραγματικών δεδομένων με το αναμενόμενο (υποθετικό) μετριέται με τη δοκιμή προσαρμογής chi-square:

 την πραγματικά παρατηρούμενη τιμή του χαρακτηριστικού σε Εγώ-παιχνίδι, - ο θεωρητικά αναμενόμενος αριθμός ή σύμβολο (δείκτης) για μια δεδομένη ομάδα, κ- αριθμός ομάδων δεδομένων.

Το κριτήριο προτάθηκε από τον K. Pearson το 1900 και μερικές φορές ονομάζεται κριτήριο του Pearson.

Εργο.Μεταξύ 164 παιδιών που κληρονόμησαν τον παράγοντα από τον έναν γονέα και τον παράγοντα από τον άλλο, υπήρχαν 46 παιδιά με τον παράγοντα, 50 με τον παράγοντα, 68 και με τους δύο. Υπολογίστε τις αναμενόμενες συχνότητες σε αναλογία 1:2:1 μεταξύ των ομάδων και προσδιορίστε τον βαθμό συμφωνίας μεταξύ των εμπειρικών δεδομένων χρησιμοποιώντας τη δοκιμή Pearson.

Απόφαση:Ο λόγος των παρατηρούμενων συχνοτήτων είναι 46:68:50, θεωρητικά αναμενόμενος 41:82:41.

Ας ορίσουμε το επίπεδο σημαντικότητας στο 0,05. Η τιμή του πίνακα του τεστ Pearson για αυτό το επίπεδο σημαντικότητας με τον αριθμό βαθμών ελευθερίας ίσο με αυτό αποδείχθηκε ότι είναι 5,99. Επομένως, η υπόθεση για την αντιστοιχία των πειραματικών δεδομένων με τα θεωρητικά μπορεί να γίνει αποδεκτή, αφού, .

Σημειώστε ότι κατά τον υπολογισμό της δοκιμής chi-square, δεν θέτουμε πλέον την προϋπόθεση για την απαραίτητη κανονικότητα της κατανομής. Το τεστ chi-square μπορεί να χρησιμοποιηθεί για οποιεσδήποτε κατανομές είμαστε ελεύθεροι να επιλέξουμε στις υποθέσεις μας. Υπάρχει κάποια καθολικότητα σε αυτό το κριτήριο.

Μια άλλη εφαρμογή του κριτηρίου του Pearson είναι η σύγκριση μιας εμπειρικής κατανομής με μια κανονική κατανομή Gauss. Ταυτόχρονα, μπορεί να αποδοθεί στην ομάδα κριτηρίων για τον έλεγχο της κανονικότητας της κατανομής. Ο μόνος περιορισμός είναι το γεγονός ότι ο συνολικός αριθμός τιμών (παραλλαγή) κατά τη χρήση αυτού του κριτηρίου πρέπει να είναι αρκετά μεγάλος (τουλάχιστον 40) και ο αριθμός των τιμών σε μεμονωμένες κατηγορίες (διαστήματα) πρέπει να είναι τουλάχιστον 5. Διαφορετικά, θα πρέπει να συνδυαστούν γειτονικά διαστήματα. Ο αριθμός των βαθμών ελευθερίας κατά τον έλεγχο της κανονικότητας της κατανομής πρέπει να υπολογίζεται ως εξής:

    1. Το κριτήριο του Fisher.

Αυτό το παραμετρικό τεστ χρησιμεύει για τον έλεγχο της μηδενικής υπόθεσης σχετικά με την ισότητα των διακυμάνσεων των κανονικά κατανεμημένων πληθυσμών.

Ή.

Για μικρά μεγέθη δείγματος, η εφαρμογή του Student's t-test μπορεί να είναι σωστή μόνο εάν οι διακυμάνσεις είναι ίσες. Επομένως, πριν ελέγξετε την ισότητα των μέσων δειγμάτων, είναι απαραίτητο να βεβαιωθείτε ότι το Student's t-test είναι έγκυρο.

που Ν 1 , Ν 2 μεγέθη δειγμάτων, 1 , 2 - τον αριθμό των βαθμών ελευθερίας για αυτά τα δείγματα.

Όταν χρησιμοποιείτε πίνακες, θα πρέπει να σημειωθεί ότι ο αριθμός των βαθμών ελευθερίας για ένα δείγμα με μεγαλύτερη διακύμανση επιλέγεται ως αριθμός στήλης του πίνακα και για μια μικρότερη απόκλιση, ως αριθμός σειράς του πίνακα.

Για το επίπεδο σημαντικότητας σύμφωνα με τους πίνακες μαθηματικών στατιστικών, βρίσκουμε μια τιμή πίνακα. Εάν, τότε η υπόθεση της ισότητας των διακυμάνσεων απορριφθεί για το επιλεγμένο επίπεδο σημαντικότητας.

Παράδειγμα.Μελέτησε την επίδραση του κοβαλτίου στο σωματικό βάρος των κουνελιών. Το πείραμα πραγματοποιήθηκε σε δύο ομάδες ζώων: πειραματικά και μάρτυρες. Έμπειρος έλαβε ένα πρόσθετο στη δίαιτα με τη μορφή υδατικού διαλύματος χλωριούχου κοβαλτίου. Κατά τη διάρκεια του πειράματος, η αύξηση βάρους ήταν σε γραμμάρια:

Ο έλεγχος

ΤΟ ΚΟΥΔΟΥΝΙ

Υπάρχουν εκείνοι που διαβάζουν αυτές τις ειδήσεις πριν από εσάς.
Εγγραφείτε για να λαμβάνετε τα πιο πρόσφατα άρθρα.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
Ονομα
Επώνυμο
Πώς θα θέλατε να διαβάσετε το The Bell
Χωρίς ανεπιθύμητο περιεχόμενο