ΤΟ ΚΟΥΔΟΥΝΙ

Υπάρχουν εκείνοι που διαβάζουν αυτές τις ειδήσεις πριν από εσάς.
Εγγραφείτε για να λαμβάνετε τα πιο πρόσφατα άρθρα.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
Ονομα
Επώνυμο
Πώς θα θέλατε να διαβάσετε το The Bell
Χωρίς ανεπιθύμητο περιεχόμενο

Γλωσσάρι στατιστικών όρων

Γενικά ερωτήματα στατιστικής

ΤΙ ΕΙΝΑΙ Η ΙΑΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ;

Η στατιστική είναι μια ποσοτική περιγραφή και μέτρηση γεγονότων, φαινομένων, αντικειμένων. Εννοείται ως βιομηχανία πρακτικές δραστηριότητες(συλλογή, επεξεργασία και ανάλυση δεδομένων για μαζικά φαινόμενα), ως κλάδος της γνώσης, δηλ. ειδικός επιστημονική πειθαρχία, και, ως σύνολο συνοπτικών, τελικοί ψηφιακοί δείκτες που συλλέγονται για να χαρακτηρίσουν οποιαδήποτε περιοχή κοινωνικά φαινόμενα.

Η στατιστική είναι μια επιστήμη που μελετά τα πρότυπα των μαζικών φαινομένων με τη μέθοδο της γενίκευσης των δεικτών.

Η ιατρική στατιστική είναι μια ανεξάρτητη κοινωνική επιστήμη που μελετά η ποσοτική πλευρά των μαζικών κοινωνικών φαινομένωνάρρηκτα συνδεδεμένη με την ποιοτική τους πλευρά, επιτρέποντας μέθοδος γενικευμένων δεικτώννα μελετήσει τα πρότυπα αυτών των φαινομένων, κρίσιμες διαδικασίεςστην οικονομική, κοινωνική ζωή της κοινωνίας, την υγεία της, το σύστημα οργάνωσης της ιατρικής περίθαλψης του πληθυσμού.

Οι στατιστικές μέθοδοι είναι ένα σύνολο τεχνικών για την επεξεργασία υλικών μαζικής παρατήρησης, οι οποίες περιλαμβάνουν: ομαδοποίηση, περίληψη, λήψη δεικτών, στατιστική ανάλυσή τους κ.λπ.

Οι στατιστικές μέθοδοι στην ιατρική χρησιμοποιούνται για:

  1. μελέτη της κατάστασης της δημόσιας υγείας του πληθυσμού στο σύνολό του και των κύριων ομάδων του, συλλέγοντας και αναλύοντας στατιστικά δεδομένα για το μέγεθος και τη σύνθεση του πληθυσμού, την αναπαραγωγή του, τη φυσική του ανάπτυξη, τον επιπολασμό και τη διάρκεια διαφόρων ασθενειών κ.λπ.
  2. εντοπισμός και καθιέρωση δεσμών μεταξύ του γενικού επιπέδου νοσηρότητας και θνησιμότητας από κάθε μεμονωμένη ασθένεια με διάφορους παράγοντες περιβάλλον;
  3. συλλογή και μελέτη αριθμητικών δεδομένων για το δίκτυο ιατρικών ιδρυμάτων, τις δραστηριότητές τους και το προσωπικό τους για τον σχεδιασμό δραστηριοτήτων υγειονομικής περίθαλψης, την παρακολούθηση της εφαρμογής σχεδίων για την ανάπτυξη του δικτύου και των δραστηριοτήτων των ιδρυμάτων υγείας και την αξιολόγηση της ποιότητας εργασίας των μεμονωμένων ιατρικών ιδρυμάτων.
  4. αξιολόγηση της αποτελεσματικότητας των μέτρων για την πρόληψη και τη θεραπεία ασθενειών·
  5. προσδιορισμός της στατιστικής σημασίας των αποτελεσμάτων της μελέτης στην κλινική και το πείραμα.

Ενότητες ιατρικών στατιστικών:

  • γενικές θεωρητικές και μεθοδολογικές βάσεις της στατιστικής,
  • στατιστικές για την υγεία του πληθυσμού,
  • στατιστικές υγείας.

ΔΗΜΙΟΥΡΓΙΑ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ ΣΤΟ MS EXCEL

Προκειμένου η βάση δεδομένων να είναι βολική για περαιτέρω επεξεργασία, θα πρέπει να ακολουθούνται απλές αρχές:

1) Το καλύτερο πρόγραμμα για τη δημιουργία βάσης δεδομένων είναι το MS Excel. Τα δεδομένα από το Excel μπορούν αργότερα να μεταφερθούν εύκολα σε άλλα εξειδικευμένα στατιστικά πακέτα, όπως Statistica, SPSS κ.λπ. για πιο σύνθετους χειρισμούς. Ωστόσο, έως και το 80-90% των υπολογισμών μπορεί να εκτελεστεί πιο εύκολα στο ίδιο το Excel χρησιμοποιώντας το πρόσθετο Data Analysis.

2) Η επάνω γραμμή του πίνακα με τη βάση δεδομένων έχει σχεδιαστεί ως κεφαλίδα, όπου εισάγονται τα ονόματα των δεικτών που λαμβάνονται υπόψη σε αυτή τη στήλη. Δεν είναι επιθυμητό να χρησιμοποιήσετε τη συγχώνευση κελιών (αυτή η απαίτηση ισχύει για ολόκληρη τη βάση δεδομένων γενικά), καθώς σε αυτήν την περίπτωση πολλές λειτουργίες θα καταστούν άκυρες. Επίσης, δεν πρέπει να δημιουργήσετε μια κεφαλίδα "διώροφης", στην οποία η επάνω γραμμή υποδεικνύει το όνομα μιας ομάδας ομοιογενών δεικτών και η κατώτατη γραμμή - συγκεκριμένους δείκτες. Για να ομαδοποιήσετε ομοιογενείς δείκτες, είναι καλύτερο να τους επισημάνετε με ένα μονοχρωματικό γέμισμα ή να συμπεριλάβετε μια δυνατότητα ομαδοποίησης σε παρενθέσεις στο όνομά τους.

Για παράδειγμα, όχι με αυτόν τον τρόπο:

ΓΕΝΙΚΗ ΑΝΑΛΥΣΗ ΑΙΜΑΤΟΣ
ER LEU TR
ER(UAC) LEU(UAC) TR(UAC)

Στην τελευταία έκδοση, διασφαλίζεται τόσο η κεφαλίδα μιας ιστορίας όσο και η οπτική ομοιογένεια των δεδομένων (όλα αναφέρονται στους δείκτες UAC).

3) Η πρώτη στήλη πρέπει να περιέχει τον αύξοντα αριθμό του ασθενούς σε αυτή τη βάση δεδομένων, χωρίς να τον συνδέει με κανέναν από τους δείκτες που μελετήθηκαν. Αυτό θα καταστήσει δυνατή στο μέλλον την εύκολη επαναφορά της αρχικής σειράς ασθενών σε οποιοδήποτε στάδιο, ακόμη και μετά από πολλές ταξινομήσεις της λίστας.

4) Η δεύτερη στήλη συνήθως συμπληρώνεται με τα ονόματα (ή τα πλήρη ονόματα) των ασθενών.

5) Οι ποσοτικοί δείκτες (αυτοί που μετρώνται με αριθμούς, για παράδειγμα - ύψος, βάρος, αρτηριακή πίεση, καρδιακός ρυθμός κ.λπ.) ταιριάζουν στον πίνακα σε αριθμητική μορφή. Φαίνεται ότι αυτό είναι ήδη σαφές, αλλά πρέπει να θυμόμαστε ότι στο Excel, ξεκινώντας από την έκδοση του 2007, οι κλασματικές τιμές υποδηλώνονται με μια τελεία: 4.5. Εάν γράψετε έναν αριθμό που χωρίζεται με κόμμα, τότε θα γίνει αντιληπτός ως κείμενο και αυτές οι στήλες θα πρέπει να ξαναγραφτούν.

6) Με ποιοτικούς δείκτες είναι πιο δύσκολο. Αυτά που έχουν δύο παραλλαγές της τιμής (τις λεγόμενες δυαδικές τιμές: Ναι-Όχι, Διαθέσιμο-Απών, Άνδρας-Γυναίκα), είναι καλύτερα να μεταφραστούν στο δυαδικό σύστημα: 0 και 1. Η τιμή 1 συνήθως εκχωρείται σε μια θετική τιμή (Ναι, Διαθέσιμο) , 0 - αρνητική (Όχι, Κανένα).

7) Οι ποιοτικοί δείκτες που έχουν πολλές τιμές που διαφέρουν ως προς τη σοβαρότητα, το επίπεδο του φαινομένου (Αδύναμο-Μεσαίο-Ισχυρό; Κρύο-Ζεστό-Καυτό) μπορούν να ταξινομηθούν και, κατά συνέπεια, να μεταφραστούν επίσης σε αριθμούς. Στο χαμηλότερο επίπεδο του φαινομένου εκχωρείται η χαμηλότερη κατάταξη - 0 ή 1, οι επόμενοι βαθμοί υποδεικνύονται από τις τιμές των βαθμών με τη σειρά. Για παράδειγμα: Καμία ασθένεια - 0, ήπια - 1, μέτρια - 2, σοβαρή - 3.

8) Μερικές φορές ένας δείκτης ποιότητας αντιστοιχεί σε πολλές τιμές. Για παράδειγμα, στη στήλη "Ταυτόχρονη διάγνωση", εάν υπάρχουν πολλές ασθένειες, θέλουμε να τις υποδείξουμε διαχωρισμένες με κόμμα. Αυτό δεν πρέπει να γίνει, καθώς η επεξεργασία τέτοιων δεδομένων είναι πολύ δύσκολη και δεν μπορεί να αυτοματοποιηθεί. Ως εκ τούτου, είναι προτιμότερο να γίνονται πολλές στήλες με συγκεκριμένες ομάδες ασθενειών («CVD ασθένειες», «ασθένειες του γαστρεντερικού σωλήνα» κ.λπ.) ή ορισμένες νοσολογίες («chr.gastritis», «CHD» κ.λπ.), στο το οποίο τα δεδομένα εισάγονται σε δυαδική, δυαδική μορφή: 1 (που σημαίνει "Υπάρχει μια δεδομένη ασθένεια") - 0 ("Δεν υπάρχει δεδομένη ασθένεια").

9) Για να διακρίνετε μεταξύ μεμονωμένων ομάδων δεικτών, μπορείτε να χρησιμοποιήσετε ενεργά το χρώμα: για παράδειγμα, οι στήλες με δείκτες KLA επισημαίνονται με κόκκινο, τα δεδομένα OAM - με κίτρινο κ.λπ.

10) Κάθε ασθενής πρέπει να αντιστοιχεί σε μία γραμμή του πίνακα.

Ένας τέτοιος σχεδιασμός της βάσης δεδομένων επιτρέπει όχι μόνο να απλοποιήσει σημαντικά τη διαδικασία της στατιστικής επεξεργασίας της, αλλά και να διευκολύνει την πλήρωσή της στο στάδιο της συλλογής υλικού.

ΠΟΙΑ ΜΕΘΟΔΟ ΝΑ ΕΠΙΛΕΞΩ ΓΙΑ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ;

Μετά τη συλλογή όλων των δεδομένων, κάθε ερευνητής αντιμετωπίζει το ερώτημα της επιλογής της καταλληλότερης μεθόδου στατιστικής επεξεργασίας. Και αυτό δεν προκαλεί έκπληξη: οι σύγχρονες στατιστικές συνδυάζονται μεγάλο ποσόδιάφορα κριτήρια και μεθόδους. Όλα έχουν τα δικά τους χαρακτηριστικά, μπορεί να είναι κατάλληλα για δύο φαινομενικά παρόμοιες καταστάσεις. Σε αυτό το άρθρο θα προσπαθήσουμε να συστηματοποιήσουμε όλες τις κύριες, πιο κοινές μεθόδους Στατιστική ανάλυσηανάλογα με το σκοπό τους.

Ωστόσο, πρώτα, λίγα λόγια για το τι είδους στατιστικά δεδομένα υπάρχουν, αφού από αυτό εξαρτάται η επιλογή της καταλληλότερης μεθόδου ανάλυσης.

Κλίμακα μέτρησης

Κατά τη διεξαγωγή μιας μελέτης, προσδιορίζονται οι τιμές των διαφόρων χαρακτηριστικών για κάθε μονάδα παρατήρησης. Ανάλογα με την κλίμακα στην οποία μετρώνται, όλα τα ζώδια χωρίζονται σε ποσοτικόςκαι ποιότητα. Οι ποιοτικοί δείκτες στην έρευνα κατανέμονται σύμφωνα με τα λεγόμενα ονομαστικόςκλίμακα. Επιπλέον, οι δείκτες μπορούν να παρουσιαστούν από σειρά κατάταξηςκλίμακα.

Για παράδειγμα, γίνεται σύγκριση δεικτών καρδιακής δραστηριότητας σε αθλητές και άτομα που κάνουν καθιστική ζωή.

Παράλληλα, προσδιορίστηκαν τα ακόλουθα χαρακτηριστικά στα υποκείμενα:

  • πάτωμα- είναι ονομαστικόςένας δείκτης που παίρνει δύο τιμές - αρσενικό ή θηλυκό.
  • ηλικία - ποσοτικόςδείκτης,
  • Αθλητισμός - ονομαστικόςένας δείκτης που λαμβάνει δύο τιμές: εμπλοκή ή μη,
  • ΠΑΛΜΟΣ ΚΑΡΔΙΑΣ - ποσοτικόςδείκτης,
  • συστολική αρτηριακή πίεση - ποσοτικόςδείκτης,
  • παράπονα για πόνο σε στήθος - είναι ποιότηταδείκτη, οι τιμές του οποίου μπορούν να προσδιοριστούν ως ονομαστικός(υπάρχουν παράπονα - δεν υπάρχουν παράπονα), και σύμφωνα με σειρά κατάταξηςμια κλίμακα ανάλογα με τη συχνότητα (για παράδειγμα, εάν ο πόνος εμφανίζεται πολλές φορές την ημέρα - στον δείκτη εκχωρείται κατάταξη 3, πολλές φορές το μήνα - βαθμός 2, αρκετές φορές το χρόνο - κατάταξη 1, εάν υπάρχει δεν υπάρχουν παράπονα για πόνο στο στήθος - εκχωρείται κατάταξη 0) .

Αριθμός αντιστοιχισμένων πληθυσμών

Το επόμενο ζήτημα που πρέπει να αποφασιστεί προκειμένου να επιλεγεί μια στατιστική μέθοδος είναι ο αριθμός των πληθυσμών που θα αντιστοιχιστούν στη μελέτη.

  • Στις περισσότερες περιπτώσεις, στις κλινικές δοκιμές, έχουμε να κάνουμε με δύο ομάδες ασθενών - βασικόςκαι έλεγχος. Βασικός, ή έμπειρος, θεωρείται η ομάδα στην οποία χρησιμοποιήθηκε η μελετημένη μέθοδος διάγνωσης ή θεραπείας ή στην οποία οι ασθενείς πάσχουν από τη νόσο που αποτελεί το αντικείμενο της παρούσας μελέτης. έλεγχοςη ομάδα, αντίθετα, αποτελείται από ασθενείς που λαμβάνουν συμβατική ιατρική περίθαλψη, εικονικό φάρμακο ή άτομα που δεν έχουν την υπό μελέτη νόσο. Αυτοί οι πληθυσμοί που αντιπροσωπεύονται από διαφορετικούς ασθενείς ονομάζονται άσχετος.
    Υπάρχουν ακόμη σχετίζεται με, ή ζευγαρώσει, συγκεντρωτικά στοιχεία, όταν πρόκειται για τα ίδια άτομα, αλλά συγκρίνονται οι τιμές οποιουδήποτε χαρακτηριστικού, λαμβάνονται πριν και μετάέρευνα. Ο αριθμός των συγκριτικών συνόλων είναι επίσης ίσος με 2, αλλά εφαρμόζονται διαφορετικές μέθοδοι σε αυτά από ό,τι σε άσχετα.
  • Μια άλλη επιλογή είναι η περιγραφή έναςολότητα, η οποία, κατά γενική ομολογία, αποτελεί τη βάση κάθε έρευνας γενικότερα. Ακόμα κι αν ο κύριος σκοπός της εργασίας είναι η σύγκριση δύο ή περισσότερων ομάδων, πρέπει πρώτα να χαρακτηριστεί η καθεμία από αυτές. Για αυτό, χρησιμοποιούνται μέθοδοι περιγραφικά στατιστικά. Επιπλέον, για έναν μόνο πληθυσμό, μπορούν να εφαρμοστούν μέθοδοι ανάλυση συσχέτισης, χρησιμοποιείται για την εύρεση μιας σχέσης μεταξύ δύο ή περισσότερων από τα υπό μελέτη χαρακτηριστικά (για παράδειγμα, η εξάρτηση του ύψους από το σωματικό βάρος ή η εξάρτηση του καρδιακού ρυθμού από τη θερμοκρασία του σώματος).
  • Τέλος, μπορεί να υπάρχουν πολλά συγκριτικά σύνολα. Αυτό είναι πολύ κοινό στην ιατρική έρευνα. Οι ασθενείς μπορούν να ομαδοποιηθούν ανάλογα με τη χρήση διαφόρων φαρμάκων (για παράδειγμα, κατά τη σύγκριση της αποτελεσματικότητας των αντιυπερτασικών φαρμάκων: ομάδα 1 - αναστολείς ΜΕΑ, 2 - βήτα-αναστολείς, 3 - φάρμακα κεντρικής δράσης), ανάλογα με τη σοβαρότητα της νόσου ( ομάδα 1 - ήπια, 2 - μέτρια, 3 - βαριά), κ.λπ.

Επίσης σημαντικό είναι το ερώτημα κανονικότητα κατανομήςπληθυσμούς που μελετήθηκαν. Εξαρτάται από το αν μπορούν να εφαρμοστούν μέθοδοι παραμετρική ανάλυσηή μόνο μη παραμετρική. Οι προϋποθέσεις που πρέπει να πληρούνται σε κανονικά κατανεμημένους πληθυσμούς είναι:

  1. μέγιστη εγγύτητα ή ισότητα των τιμών του αριθμητικού μέσου όρου, του τρόπου λειτουργίας και του μέσου όρου·
  2. συμμόρφωση με τον κανόνα "τρία σίγμα" (τουλάχιστον το 68,3% της παραλλαγής βρίσκεται στο διάστημα M ± 1σ, τουλάχιστον το 95,5% της παραλλαγής είναι στο διάστημα M ± 2σ, τουλάχιστον το 99,7% της παραλλαγής βρίσκεται στο διάστημα M ± 3σ διάστημα;
  3. Οι δείκτες μετρώνται σε ποσοτική κλίμακα.
  4. θετικά αποτελέσματα των δοκιμών για την κανονικότητα της κατανομής χρησιμοποιώντας ειδικά κριτήρια - Kolmogorov-Smirnov ή Shapiro-Wilk.

Αφού προσδιορίσουμε όλα τα χαρακτηριστικά των πληθυσμών που μελετήθηκαν, προτείνουμε τη χρήση του παρακάτω πίνακα για την επιλογή της βέλτιστης μεθόδου στατιστικής ανάλυσης.

Μέθοδος Κλίμακα για δείκτες μέτρησης Αριθμός συγκριτικών πληθυσμών Σκοπός επεξεργασίας Διανομή δεδομένων
Student's t-test ποσοτικός 2 κανονικός
Student's t-test με διόρθωση Bonferroni ποσοτικός 3 ή περισσότερα σύγκριση άσχετων πληθυσμών κανονικός
Ζευγάρι Student's t-test ποσοτικός 2 κανονικός
Μονόδρομη ανάλυση διακύμανσης (ANOVA) ποσοτικός 3 ή περισσότερα σύγκριση άσχετων πληθυσμών κανονικός
Μονόδρομη ανάλυση διακύμανσης (ANOVA) με επαναλαμβανόμενες μετρήσεις ποσοτικός 3 ή περισσότερα σύγκριση των σχετικών πληθυσμών κανονικός
Τεστ Mann-Whitney U ποσοτική, κατάταξη 2 σύγκριση άσχετων πληθυσμών όποιος
Rosenbaum Q-test ποσοτική, κατάταξη 2 σύγκριση άσχετων πληθυσμών όποιος
Τεστ Kruskell-Wallis ποσοτικός 3 ή περισσότερα σύγκριση άσχετων πληθυσμών όποιος
Τεστ Wilcoxon ποσοτική, κατάταξη 2 σύγκριση των σχετικών πληθυσμών όποιος
Σημάδια G-test ποσοτική, κατάταξη 2 σύγκριση των σχετικών πληθυσμών όποιος
Κριτήριο Friedman ποσοτική, κατάταξη 3 ή περισσότερα σύγκριση των σχετικών πληθυσμών όποιος
Κριτήριο χ 2 Pearson ονομαστικός 2 ή περισσότερα σύγκριση άσχετων πληθυσμών όποιος
Το ακριβές τεστ του Fisher ονομαστικός 2 σύγκριση άσχετων πληθυσμών όποιος
Δοκιμή McNemar ονομαστικός 2 σύγκριση των σχετικών πληθυσμών όποιος
Q-test Cochran ονομαστικός 3 ή περισσότερα σύγκριση των σχετικών πληθυσμών όποιος
Σχετικός κίνδυνος (Risk Ratio, RR) ονομαστικός 2 σύγκριση άσχετων πληθυσμών σε μελέτες κοόρτης όποιος
Αναλογία πιθανοτήτων (OR) ονομαστικός 2 σύγκριση άσχετων πληθυσμών σε μελέτες περιπτώσεων ελέγχου όποιος
Συντελεστής συσχέτισης Pearson ποσοτικός 2 σειρές μετρήσεων κανονικός
Συντελεστής συσχέτισης βαθμού Spearman ποσοτική, κατάταξη 2 σειρές μετρήσεων εντοπισμός σχέσεων μεταξύ χαρακτηριστικών όποιος
Συντελεστής συσχέτισης Kendall ποσοτική, κατάταξη 2 σειρές μετρήσεων εντοπισμός σχέσεων μεταξύ χαρακτηριστικών όποιος
Συντελεστής Συμφωνίας Kendall ποσοτική, κατάταξη 3 ή περισσότερες σειρές μετρήσεων εντοπισμός σχέσεων μεταξύ χαρακτηριστικών όποιος
Υπολογισμός των μέσων τιμών (M) και των μέσων σφαλμάτων (m) ποσοτικός 1 περιγραφικά στατιστικά όποιος
Υπολογισμός διάμεσων (Me) και εκατοστημόνων (τεταρτημορίων) σειρά κατάταξης 1 περιγραφικά στατιστικά όποιος
Υπολογισμός σχετικές τιμές(P) και τα μέσα σφάλματα (m) ονομαστικός 1 περιγραφικά στατιστικά όποιος
Κριτήριο Shapiro-Wilk ποσοτικός 1 ανάλυση διανομής όποιος
Κριτήριο Kolmogorov-Smirnov ποσοτικός 1 ανάλυση διανομής όποιος
Κριτήριο ω 2 Smirnov-Kramer-von Mises ποσοτικός 1 ανάλυση διανομής όποιος
Μέθοδος Kaplan-Meier όποιος 1 ανάλυση επιβίωσης όποιος
Μοντέλο αναλογικών κινδύνων Cox όποιος 1 ανάλυση επιβίωσης όποιος

Σπουδαίοι στατιστικολόγοι

Karl Pearson (27 Μαρτίου 1857 - 27 Απριλίου 1936)

Στις 27 Μαρτίου 1857 γεννήθηκε ο Karl Pearson - ο σπουδαίος Άγγλος μαθηματικός, στατιστικολόγος, βιολόγος και φιλόσοφος. ιδρυτής της μαθηματικής στατιστικής, ένας από τους ιδρυτές της βιομετρίας.

Έχοντας λάβει θέση καθηγητή στα εφαρμοσμένα μαθηματικά στο University College του Λονδίνου σε ηλικία 27 ετών, ο Karl Pearson άρχισε να μελετά στατιστικές, τις οποίες αντιλαμβανόταν ως ένα γενικό επιστημονικό εργαλείο, σύμφωνα με τις καθόλου συμβατικές του ιδέες σχετικά με την ανάγκη παροχής στους φοιτητές ευρεία προοπτική.

Τα κύρια επιτεύγματα του Pearson στον τομέα της στατιστικής περιλαμβάνουν την ανάπτυξη των θεμελίων της θεωρίας της συσχέτισης και της ενδεχόμενης γνωρισμάτων, την εισαγωγή των "καμπυλών Pearson" για την περιγραφή των εμπειρικών κατανομών και την εξαιρετικά σημαντική δοκιμασία χ-τετράγωνο, και τη σύνταξη ενός μεγάλου αριθμός στατιστικών πινάκων. Ο Pearson εφάρμοσε τη στατιστική μέθοδο και ιδιαίτερα τη θεωρία της συσχέτισης σε πολλούς κλάδους της επιστήμης.

Εδώ είναι μια από τις δηλώσεις του: "Η πρώτη ερασιτεχνική εισαγωγή σύγχρονων στατιστικών μεθόδων στην καθιερωμένη επιστήμη αντιτίθεται με τυπική περιφρόνηση. Έζησα όμως την εποχή που πολλοί από αυτούς άρχισαν να εφαρμόζουν κρυφά τις ίδιες τις μεθόδους που αρχικά καταδίκαζαν."

Και ήδη το 1920, ο Pearson έγραψε ένα σημείωμα στο οποίο ανέφερε ότι ο στόχος της βιομετρικής σχολής «είναι να μετατρέψει τη στατιστική σε κλάδο των εφαρμοσμένων μαθηματικών, να γενικεύσει, να απορρίψει ή να δικαιολογήσει τις πενιχρές μεθόδους της παλιάς σχολής πολιτικής και κοινωνικοί στατιστικολόγοι, και, γενικά, να μετατραπεί η στατιστική από αθλητικό γήπεδο για ερασιτέχνες και συζητητές σε σοβαρό κλάδο της επιστήμης. Ήταν απαραίτητο να ασκήσουμε κριτική στις ατελείς και συχνά λανθασμένες μεθόδους στην ιατρική, την ανθρωπολογία, την κρανιομετρία, την ψυχολογία, την εγκληματολογία, τη βιολογία, την κοινωνιολογία προκειμένου να δοθούν σε αυτές τις επιστήμες νέα και πιο ισχυρά μέσα. Η μάχη διαρκεί σχεδόν είκοσι χρόνια, αλλά υπάρχουν πολλά σημάδια ότι η παλιά εχθρότητα έχει μείνει πίσω μας και οι νέες μέθοδοι είναι παγκοσμίως αποδεκτές.

Ο Karl Pearson είχε πολύ ευέλικτα ενδιαφέροντα: σπούδασε φυσική στη Χαϊδελβέργη, ενδιαφερόταν για τα κοινωνικά και οικονομικό ρόλοθρησκεία και μάλιστα έκανε διαλέξεις για τη γερμανική ιστορία και λογοτεχνία στο Κέιμπριτζ και στο Λονδίνο.

Είναι ελάχιστα γνωστό γεγονός ότι σε ηλικία 28 ετών, ο Karl Pearson έδωσε διαλέξεις για το «γυναικείο ζήτημα» και μάλιστα ίδρυσε τη Λέσχη Ανδρών και Γυναικών, η οποία διήρκεσε μέχρι το 1889, στην οποία όλα όσα σχετίζονται με τις γυναίκες, συμπεριλαμβανομένων των σχέσεων μεταξύ των φύλων, συζητήθηκε ελεύθερα και απεριόριστα.

Ο σύλλογος αποτελούνταν από ίσο αριθμό ανδρών και γυναικών, κυρίως φιλελεύθερες μεσαίες τάξεις, σοσιαλιστές και φεμινίστριες.

Το θέμα των συζητήσεων του συλλόγου ήταν το ευρύτερο φάσμα θεμάτων: από τις σεξουαλικές σχέσεις στην αρχαία ελληνική Αθήνα μέχρι την κατάσταση των βουδιστών καλόγριών, από τη στάση απέναντι στον γάμο μέχρι τα προβλήματα πορνείας. Ουσιαστικά, η «Λέσχη ανδρών και γυναικών» αμφισβήτησε τους καθιερωμένους κανόνες αλληλεπίδρασης μεταξύ ανδρών και γυναικών, καθώς και ιδέες για τη «σωστή» σεξουαλικότητα. Στη βικτωριανή Αγγλία, όπου πολλοί αντιλαμβάνονταν τη σεξουαλικότητα ως κάτι «χαμηλό» και «ζωικό», και η άγνοια για τη σεξουαλική διαπαιδαγώγηση ήταν ευρέως διαδεδομένη, η συζήτηση τέτοιων θεμάτων ήταν πραγματικά ριζοσπαστική.

Το 1898, ο Pearson τιμήθηκε με το Μετάλλιο Δαρβίνου της Βασιλικής Εταιρείας, το οποίο αρνήθηκε, πιστεύοντας ότι τα βραβεία «πρέπει να δίνονται στους νέους για να τους ενθαρρύνουν».

Florence Nightingale (12 Μαΐου 1820 - 13 Αυγούστου 1910)

Florence Nightingale (1820-1910) - αδελφή του ελέους και δημόσια προσωπικότητα της Μεγάλης Βρετανίας, στα γενέθλια της οποίας γιορτάζουμε σήμερα τη Διεθνή Ημέρα Νοσοκόμας.

Γεννήθηκε στη Φλωρεντία σε μια πλούσια αριστοκρατική οικογένεια, έλαβε εξαιρετική εκπαίδευση, ήξερε έξι γλώσσες. ΑΠΟ νεαρά χρόνιαονειρευόταν να γίνει αδελφή του ελέους, το 1853 έλαβε νοσηλευτική εκπαίδευση στην κοινότητα των αδελφών του πάστορα Flender στο Kaiserwerth και έγινε διευθύντρια ενός μικρού ιδιωτικού νοσοκομείου στο Λονδίνο.

Τον Οκτώβριο του 1854, κατά τη διάρκεια Ο πόλεμος της Κριμαίας, η Φλωρεντία, μαζί με 38 βοηθούς, πήγαν σε νοσοκομεία πεδίου στην Κριμαία. Οργανώνοντας τη φροντίδα των τραυματιών, εφάρμοσε με συνέπεια τις αρχές υγιεινής και υγιεινής. Ως αποτέλεσμα, σε λιγότερο από έξι μήνες, το ποσοστό θανάτων στα νοσοκομεία μειώθηκε από 42 σε 2,2%!

Έθεσε στον εαυτό της το καθήκον να μεταρρυθμίσει την ιατρική υπηρεσία στο στρατό, η Nightingale διασφάλισε ότι τα νοσοκομεία ήταν εξοπλισμένα με συστήματα εξαερισμού και αποχέτευσης. Το προσωπικό του νοσοκομείου πρέπει να έχει λάβει την απαραίτητη εκπαίδευση. Οργανώθηκε μια στρατιωτική ιατρική σχολή και πραγματοποιήθηκε επεξηγηματική εργασία μεταξύ στρατιωτών και αξιωματικών σχετικά με τη σημασία της πρόληψης ασθενειών.

Η συμβολή της Florence Nightingale στην ιατρική στατιστική είναι μεγάλη!

  • Το βιβλίο της 800 σελίδων Σημειώσεις σχετικά με τους παράγοντες που επηρεάζουν την υγεία, την αποτελεσματικότητα και τη διαχείριση του νοσοκομείου βρετανικός στρατός» (1858) περιείχε μια ολόκληρη ενότητα αφιερωμένη στη στατιστική και εικονογραφημένη με διαγράμματα.
  • Ο Nightingale ήταν πρωτοπόρος στη χρήση γραφικών εικόνων στη στατιστική. Εφηύρε πίνακες πίτας, τους οποίους ονόμασε «κοκοροσκούφες» και χρησιμοποίησε για να περιγράψει πρότυπα θνησιμότητας. Πολλά από τα διαγράμματα της συμπεριλήφθηκαν στην έκθεση της επιτροπής για τα προβλήματα υγείας στο στρατό, χάρη στην οποία ελήφθη η απόφαση για μεταρρύθμιση της στρατιωτικής ιατρικής.
  • Ανέπτυξε το πρώτο έντυπο συλλογής στατιστικών στοιχείων στα νοσοκομεία, το οποίο είναι ο πρόδρομος των σύγχρονων εντύπων αναφοράς για τις δραστηριότητες του νοσοκομείου.

Το 1859 εξελέγη Μέλος της Βασιλικής Στατιστικής Εταιρείας και στη συνέχεια έγινε επίτιμο μέλος της Αμερικανικής Στατιστικής Εταιρείας.

Johann Carl Friedrich Gauss (30 Απριλίου 1777 - 23 Φεβρουαρίου 1855)

Στις 30 Απριλίου 1777 γεννήθηκε στο Μπράουνσβαϊγκ ο μεγάλος Γερμανός μαθηματικός, μηχανικός, φυσικός, αστρονόμος, τοπογράφος και στατιστικολόγος Johann Carl Friedrich Gauss.

Θεωρείται ένας από τους μεγαλύτερους μαθηματικούς όλων των εποχών, ο «Βασιλιάς των Μαθηματικών». Βραβευμένος με το μετάλλιο Copley (1838), ξένο μέλος της Σουηδικής (1821) και της Ρωσικής (1824) Ακαδημίας Επιστημών, της Αγγλικής Βασιλικής Εταιρείας.

Ήδη σε ηλικία τριών ετών, ο Καρλ ήξερε να διαβάζει και να γράφει, διορθώνοντας ακόμη και τα λάθη μέτρησης του πατέρα του. Σύμφωνα με το μύθο, δασκάλα σχολείουΤα μαθηματικά, για να κρατήσουν τα παιδιά απασχολημένα για μεγάλο χρονικό διάστημα, τα κάλεσε να μετρήσουν το άθροισμα των αριθμών από το 1 έως το 100. Ο νεαρός Γκάους παρατήρησε ότι τα αθροίσματα ανά ζεύγη από τα αντίθετα άκρα είναι τα ίδια: 1 + 100 = 101, 2 + 99 = 101 , κ.λπ., και πήρε αμέσως το αποτέλεσμα: 50×101=5050. Μέχρι τα βαθιά γεράματα έκανε τους περισσότερους υπολογισμούς στο μυαλό του.

Τα κύρια επιστημονικά επιτεύγματα του Carl Gauss στη στατιστική είναι η δημιουργία της μεθόδου ελάχιστα τετράγωνα, που αποτελεί τη βάση της ανάλυσης παλινδρόμησης.

Μελέτησε επίσης λεπτομερώς τον κοινό στη φύση νόμο της κανονικής κατανομής, η γραφική παράσταση του οποίου έκτοτε συχνά ονομάζεται Gaussian. Ο κανόνας τριών σιγμάτων (κανόνας Gaussian) που περιγράφει την κανονική κατανομή έχει γίνει ευρέως γνωστός.

Λεβ Σεμιόνοβιτς Καμίνσκι (1889 - 1962)

Στην 75η επέτειο της Νίκης στη Μεγάλη Πατριωτικός ΠόλεμοςΘέλω να θυμηθώ και να πω για έναν αξιόλογο επιστήμονα, έναν από τους ιδρυτές της στρατιωτικής ιατρικής και υγειονομικής στατιστικής στην ΕΣΣΔ - τον Lev Semyonovich Kaminsky (1889-1962).

Γεννήθηκε στις 27 Μαΐου 1889 στο Κίεβο. Αφού αποφοίτησε με άριστα το 1918 από την ιατρική σχολή του Πανεπιστημίου της Πετρούπολης, ο Καμίνσκι ήταν στις τάξεις του Κόκκινου Στρατού, από τον Απρίλιο του 1919 έως τα τέλη του 1920 υπηρέτησε ως επικεφαλής ιατρός του 136ου ενοποιημένου νοσοκομείου εκκένωσης του Νοτιοανατολικού Μετώπου.

Από το 1922, ο Lev Semyonovich ήταν υπεύθυνος του υγειονομικού και επιδημιολογικού τμήματος της ιατρικής και υγειονομικής υπηρεσίας του Βορειοδυτικού Σιδηροδρόμου. Μέσα σε αυτά τα χρόνια άρχισε επιστημονική δραστηριότητα Kaminsky υπό την καθοδήγηση του καθ. S.A.Novoselsky. Στο κοινό θεμελιώδες έργο τους "Losses in Past Wars", αναλύθηκε στατιστικό υλικό για τις ανθρώπινες απώλειες στους πολέμους διαφόρων στρατών του κόσμου από το 1756 έως το 1918. Σε επόμενες εργασίες, ο Kaminsky ανέπτυξε και τεκμηρίωσε μια νέα, πιο ακριβή ταξινόμηση των στρατιωτικών απωλειών .

Η μονογραφία «Εθνική Διατροφή και Δημόσια Υγεία» (1929) εξέτασε λεπτομερώς τις υγειονομικές και υγειονομικές πτυχές των επιπτώσεων των πολέμων στην υγεία του πληθυσμού, καθώς και την οργάνωση της ιατρικής περίθαλψης για τον πληθυσμό και το στρατό κατά τα χρόνια του πολέμου. .

Από το 1935 έως το 1943, ο Lev Semenovich ήταν επικεφαλής του τμήματος υγειονομικών (από το 1942 - ιατρικές) στατιστικές του Λαϊκού Επιτροπείου Υγείας της ΕΣΣΔ. Τον Οκτώβριο του 1943, ο Καθ. Kaminsky έγινε επικεφαλής του Τμήματος Στρατιωτικής Ιατρικής Στατιστικής της Στρατιωτικής Ιατρικής Ακαδημίας. S.M. Kirov, και από το 1956 είναι καθηγητής στο Τμήμα Στατιστικής και Λογιστικής του Κρατικού Πανεπιστημίου του Λένινγκραντ.

Ο Lev Semyonovich υποστήριξε την ευρεία εισαγωγή ποσοτικών μεθόδων στην πρακτική των υγειονομικών και ιατρικών στατιστικών. Το 1959, υπό τη συγγραφή του, εκδόθηκε φροντιστήριο«Στατιστική επεξεργασία εργαστηριακών και κλινικών δεδομένων: η χρήση στατιστικών σε επιστημονικές και πρακτική δουλειάγιατρός», που για πολλά χρόνια έγινε ένα από τα καλύτερα εγχώρια εγχειρίδια ιατρικών στατιστικών. Στον πρόλογο, ο L.S. Kaminsky σημειώνει:
«... Φαίνεται σημαντικό οι θεράποντες ιατροί να ξέρουν πώς να ξεκινήσουν τη δουλειά τους, να μπορούν να συλλέγουν και να επεξεργάζονται τους σωστούς αριθμούς, κατάλληλους για συγκρίσεις και συγκρίσεις».

Κριτήρια και μέθοδοι

Student's t-test για ανεξάρτητους πληθυσμούς

Το Student's t-test είναι ένα γενικό όνομα για μια κατηγορία μεθόδων για στατιστικό έλεγχο υποθέσεων (statistical tests) με βάση την κατανομή του Student. Οι πιο συνηθισμένες περιπτώσεις εφαρμογής του τεστ t σχετίζονται με τον έλεγχο της ισότητας των μέσων σε δύο δείγματα.

Αυτό το κριτήριο αναπτύχθηκε William Seeley Gosset

2. Σε τι χρησιμεύει το Student's t-test;

Το Student's t-test χρησιμοποιείται για τον προσδιορισμό της στατιστικής σημασίας των μέσων διαφορών. Μπορεί να χρησιμοποιηθεί τόσο σε περιπτώσεις σύγκρισης ανεξάρτητων δειγμάτων (για παράδειγμα, ομάδες ασθενών με σακχαρώδη διαβήτη και ομάδες υγιών ατόμων), όσο και κατά τη σύγκριση σχετικών πληθυσμών (για παράδειγμα, ο μέσος παλμός στους ίδιους ασθενείς πριν και μετά τη λήψη αντιαρρυθμικό φάρμακο). Στην τελευταία περίπτωση, υπολογίζεται το ζευγαρωμένο Student's t-test

3. Πότε μπορεί να χρησιμοποιηθεί το Student's t-test;

Για την εφαρμογή του Student's t-test, είναι απαραίτητο τα αρχικά δεδομένα να έχουν κανονική κατανομή. Επίσης σημαντική είναι η ισότητα των διασπορών (κατανομών) των συγκρινόμενων ομάδων (ομοσκεδαστικότητα). Για άνισες διακυμάνσεις, χρησιμοποιείται το t-test Welch (Welch "s t).

Με απουσία κανονική κατανομήσύγκριση δειγμάτων, αντί για το Student's t-test, χρησιμοποιούνται παρόμοιες μέθοδοι μη παραμετρικής στατιστικής, μεταξύ των οποίων η πιο γνωστή είναι Mann-Whitney U-test.

4. Πώς να υπολογίσετε το Student's t-test;

Για τη σύγκριση των μέσων, το Student's t-test υπολογίζεται χρησιμοποιώντας τον ακόλουθο τύπο:

όπου Μ 1- αριθμητικός μέσος όρος του πρώτου συγκριθέντος πληθυσμού (ομάδα), Μ 2- αριθμητικός μέσος όρος του δεύτερου συγκριτικού πληθυσμού (ομάδα), m 1 - μέσο σφάλμαπρώτος αριθμητικός μέσος όρος, m2- το μέσο σφάλμα του δεύτερου αριθμητικού μέσου όρου.

Η προκύπτουσα τιμή του Student's t-test πρέπει να ερμηνεύεται σωστά. Για να γίνει αυτό, πρέπει να γνωρίζουμε τον αριθμό των θεμάτων σε κάθε ομάδα (n 1 και n 2). Εύρεση του αριθμού των βαθμών ελευθερίας φάσύμφωνα με τον ακόλουθο τύπο:

F \u003d (n 1 + n 2) - 2

Μετά από αυτό, προσδιορίζουμε την κρίσιμη τιμή του Student's t-test για το απαιτούμενο επίπεδο σημαντικότητας (για παράδειγμα, p=0,05) και για έναν δεδομένο αριθμό βαθμών ελευθερίας φάσύμφωνα με τον πίνακα (βλ. παρακάτω).

  • Εάν η υπολογιζόμενη τιμή του Student's t-test είναι ίση ή μεγαλύτερη από την κρίσιμη τιμή που βρίσκεται στον πίνακα, συμπεραίνουμε ότι οι διαφορές μεταξύ των συγκριτικών τιμών είναι στατιστικά σημαντικές.
  • Εάν η τιμή του υπολογισθέντος Student's t-test είναι μικρότερη από την πίνακα, τότε οι διαφορές μεταξύ των συγκριμένων τιμών δεν είναι στατιστικά σημαντικές.

Για τη μελέτη της αποτελεσματικότητας ενός νέου σκευάσματος σιδήρου, επιλέχθηκαν δύο ομάδες ασθενών με αναιμία. Στην πρώτη ομάδα, οι ασθενείς έλαβαν νέο φάρμακο για δύο εβδομάδες και στη δεύτερη ομάδα έλαβαν εικονικό φάρμακο. Στη συνέχεια μετρήθηκε το επίπεδο της αιμοσφαιρίνης στο περιφερικό αίμα. Στην πρώτη ομάδα μέσο επίπεδοη αιμοσφαιρίνη ανήλθε σε 115,4±1,2 g/l, και στη δεύτερη - 103,7±2,3 g/l (τα δεδομένα παρουσιάζονται σε μορφή M±m), οι συγκριθέντες πληθυσμοί έχουν φυσιολογική κατανομή. Ο αριθμός της πρώτης ομάδας ήταν 34 και της δεύτερης - 40 ασθενείς. Είναι απαραίτητο να εξαχθεί ένα συμπέρασμα σχετικά με τη στατιστική σημασία των διαφορών που προέκυψαν και την αποτελεσματικότητα του νέου παρασκευάσματος σιδήρου.

Λύση:Για να αξιολογήσουμε τη σημασία των διαφορών, χρησιμοποιούμε το Student's t-test, που υπολογίζεται ως η διαφορά μεταξύ των μέσων διαιρούμενη με το άθροισμα των τετραγώνων σφαλμάτων:

Μετά την εκτέλεση των υπολογισμών, η τιμή του t-test ήταν ίση με 4,51. Βρίσκουμε τον αριθμό των βαθμών ελευθερίας ως (34 + 40) - 2 = 72. Συγκρίνουμε τη ληφθείσα τιμή του Student's t-test 4,51 με την κρίσιμη τιμή στο p=0,05 που υποδεικνύεται στον πίνακα: 1,993. Εφόσον η υπολογισμένη τιμή του κριτηρίου είναι μεγαλύτερη από την κρίσιμη τιμή, συμπεραίνουμε ότι οι παρατηρούμενες διαφορές είναι στατιστικά σημαντικές (επίπεδο σημαντικότητας p<0,05).


T-test PAIRED STUDENT

Το Paired Student's t-test είναι μία από τις τροποποιήσεις της μεθόδου Student που χρησιμοποιείται για τον προσδιορισμό της στατιστικής σημασίας των διαφορών στις ζευγαρωμένες (επαναλαμβανόμενες) μετρήσεις.

1. Ιστορικό ανάπτυξης του t-test

T-test αναπτύχθηκε William Gossetγια την αξιολόγηση της ποιότητας της μπύρας στο Guinness. Σε σχέση με τις υποχρεώσεις προς την εταιρεία να μην αποκαλύπτει εμπορικά μυστικά, το άρθρο του Gosset δημοσιεύτηκε το 1908 στο περιοδικό Biometrics με το ψευδώνυμο "Student" (Student).

2. Σε τι χρησιμεύει το ζευγαρωμένο Student's t-test;

Το Paired Student's t-test χρησιμοποιείται για τη σύγκριση δύο εξαρτημένων (ζευγών) δειγμάτων. Εξαρτώνται οι μετρήσεις που λαμβάνονται στους ίδιους ασθενείς αλλά σε διαφορετικές χρονικές στιγμές, για παράδειγμα, η αρτηριακή πίεση σε υπερτασικούς ασθενείς πριν και μετά τη λήψη ενός αντιυπερτασικού φαρμάκου. Η μηδενική υπόθεση δηλώνει ότι δεν υπάρχουν διαφορές μεταξύ των συγκριτικών δειγμάτων, ενώ η εναλλακτική υπόθεση αναφέρει ότι υπάρχουν στατιστικά σημαντικές διαφορές.

3. Πότε μπορεί να χρησιμοποιηθεί το ζευγαρωμένο Student's t-test;

Η κύρια προϋπόθεση είναι η εξάρτηση των δειγμάτων, δηλαδή οι συγκριτικές τιμές θα πρέπει να λαμβάνονται με επαναλαμβανόμενες μετρήσεις μιας παραμέτρου στους ίδιους ασθενείς.

Όπως και στην περίπτωση της σύγκρισης ανεξάρτητων δειγμάτων, για να εφαρμοστεί το ζευγαρωμένο t-test, είναι απαραίτητο τα αρχικά δεδομένα να έχουν κανονική κατανομή. Εάν δεν πληρούται αυτή η προϋπόθεση, οι μη παραμετρικές στατιστικές μέθοδοι, όπως π.χ Σημάδια G-testή Wilcoxon t-test.

Το ζευγοποιημένο t-test μπορεί να χρησιμοποιηθεί μόνο όταν συγκρίνετε δύο δείγματα. Εάν θέλετε να συγκρίνετε τρεις ή περισσότερες επαναλαμβανόμενες μετρήσεις, θα πρέπει να χρησιμοποιήσετε μονόδρομη ανάλυση διακύμανσης (ANOVA) για επαναλαμβανόμενες μετρήσεις.

4. Πώς να υπολογίσετε το ζευγαρωμένο Student's t-test;

Το ζευγαρωμένο Student's t-test υπολογίζεται χρησιμοποιώντας τον ακόλουθο τύπο:

όπου M d- τον αριθμητικό μέσο όρο των διαφορών μεταξύ των δεικτών που μετρήθηκαν πριν και μετά, σd- τυπική απόκλιση των διαφορών των δεικτών, n- τον αριθμό των θεμάτων.

5. Πώς ερμηνεύεται η τιμή του Student's t-test;

Η ερμηνεία της λαμβανόμενης τιμής του ζευγαρωμένου Student's t-test δεν διαφέρει από την αξιολόγηση του t-test για άσχετους πληθυσμούς. Πρώτα απ 'όλα, είναι απαραίτητο να βρείτε τον αριθμό των βαθμών ελευθερίας φάσύμφωνα με τον ακόλουθο τύπο:

F = n - 1

Μετά από αυτό, προσδιορίζουμε την κρίσιμη τιμή του Student's t-test για το απαιτούμενο επίπεδο σημαντικότητας (για παράδειγμα, p<0,05) и при данном числе степеней свободы φάσύμφωνα με τον πίνακα (βλ. παρακάτω).

Συγκρίνουμε τις κρίσιμες και τις υπολογισμένες τιμές του κριτηρίου:

  • Εάν η υπολογιζόμενη τιμή του ζευγαρωμένου Student's t-test είναι ίση ή μεγαλύτερη από την κρίσιμη τιμή που βρέθηκε στον πίνακα, συμπεραίνουμε ότι οι διαφορές μεταξύ των συγκριτικών τιμών είναι στατιστικά σημαντικές.
  • Εάν η τιμή του υπολογισθέντος ζευγαρωμένου Student's t-test είναι μικρότερη από την τιμή του πίνακα, τότε οι διαφορές μεταξύ των συγκριτικών τιμών δεν είναι στατιστικά σημαντικές.

6. Παράδειγμα υπολογισμού του Student's t-test

Για να αξιολογηθεί η αποτελεσματικότητα ενός νέου υπογλυκαιμικού παράγοντα, μετρήθηκαν τα επίπεδα γλυκόζης στο αίμα σε ασθενείς με σακχαρώδη διαβήτη πριν και μετά τη λήψη του φαρμάκου. Ως αποτέλεσμα, προέκυψαν τα ακόλουθα δεδομένα:

Λύση:

1. Υπολογίστε τη διαφορά κάθε ζεύγους τιμών (d):

Ο ασθενής Ν Επίπεδο γλυκόζης αίματος, mmol/l Διαφορά τιμής (δ)
πριν πάρετε το φάρμακο μετά τη λήψη του φαρμάκου
1 9.6 5.7 3.9
2 8.1 5.4 2.7
3 8.8 6.4 2.4
4 7.9 5.5 2.4
5 9.2 5.3 3.9
6 8.0 5.2 2.8
7 8.4 5.1 3.3
8 10.1 6.9 3.2
9 7.8 7.5 2.3
10 8.1 5.0 3.1

2. Βρείτε τον αριθμητικό μέσο όρο των διαφορών χρησιμοποιώντας τον τύπο:

3. Βρείτε την τυπική απόκλιση των διαφορών από τον μέσο όρο με τον τύπο:

4. Υπολογίστε το ζευγαρωμένο Student's t-test:

5. Ας συγκρίνουμε τη λαμβανόμενη τιμή του Student's t-test 8.6 με την τιμή του πίνακα, η οποία, με τον αριθμό βαθμών ελευθερίας f ίσο με 10 - 1 = 9 και το επίπεδο σημαντικότητας p=0.05, είναι 2.262. Δεδομένου ότι η λαμβανόμενη τιμή είναι μεγαλύτερη από την κρίσιμη, συμπεραίνουμε ότι υπάρχουν στατιστικά σημαντικές διαφορές στα επίπεδα γλυκόζης στο αίμα πριν και μετά τη λήψη του νέου φαρμάκου.

Εμφάνιση πίνακα κρίσιμων τιμών του Student's t-test

ΚΡΙΤΗΡΙΟ U MANN-WHITNEY

Το Mann-Whitney U-test είναι μια μη παραμετρική στατιστική δοκιμή που χρησιμοποιείται για τη σύγκριση δύο ανεξάρτητων δειγμάτων ως προς το επίπεδο οποιουδήποτε χαρακτηριστικού, μετρούμενο ποσοτικά. Η μέθοδος βασίζεται στον προσδιορισμό του εάν η ζώνη τεμνόμενων τιμών μεταξύ δύο μεταβλητών σειρών (μια σειρά τιμών παραμέτρων στο πρώτο δείγμα και η ίδια στο δεύτερο δείγμα) είναι αρκετά μικρή. Όσο μικρότερη είναι η τιμή του κριτηρίου, τόσο πιο πιθανό είναι να είναι σημαντικές οι διαφορές μεταξύ των τιμών των παραμέτρων στα δείγματα.

1. Ιστορικό της ανάπτυξης του U-test

Αυτή η μέθοδος για την ανίχνευση διαφορών μεταξύ δειγμάτων προτάθηκε το 1945 από έναν Αμερικανό χημικό και στατιστικολόγο Φρανκ Γουίλκοξον.
Το 1947, αναθεωρήθηκε ουσιαστικά και επεκτάθηκε από μαθηματικούς H.B. Mann(H.B. Mann) και D.R. Whitney(D.R. Whitney), με τα ονόματα του οποίου αποκαλείται συνήθως σήμερα.

2. Σε τι χρησιμεύει το Mann-Whitney U-test;

Το Mann-Whitney U-test χρησιμοποιείται για την αξιολόγηση των διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων ως προς το επίπεδο οποιουδήποτε ποσοτικού χαρακτηριστικού.

3. Πότε μπορεί να χρησιμοποιηθεί το τεστ Mann-Whitney U;

Η δοκιμή Mann-Whitney U είναι μια μη παραμετρική δοκιμή, επομένως, σε αντίθεση με Student's t-test

Το U-test είναι κατάλληλο για σύγκριση μικρών δειγμάτων: κάθε δείγμα πρέπει να περιέχει τουλάχιστον 3 τιμές χαρακτηριστικών. Επιτρέπεται σε ένα δείγμα να υπάρχουν 2 τιμές, αλλά στο δεύτερο τότε πρέπει να υπάρχουν τουλάχιστον πέντε.

Η προϋπόθεση για την εφαρμογή του Mann-Whitney U-test είναι η απουσία στις συγκρινόμενες ομάδες τιμών αντιστοίχισης του χαρακτηριστικού (όλοι οι αριθμοί είναι διαφορετικοί) ή ένας πολύ μικρός αριθμός τέτοιων αντιστοιχιών.

Ένα ανάλογο του Mann-Whitney U-test για σύγκριση τριών ή περισσότερων ομάδων είναι Δοκιμή Kruskal-Wallis.

4. Πώς να υπολογίσετε το U-test Mann-Whitney;

Πρώτον, και από τα δύο συγκριτικά δείγματα, ενιαία σειρά κατάταξης, διατάσσοντας τις μονάδες παρατήρησης ανάλογα με το βαθμό αύξησης του χαρακτηριστικού και αποδίδοντας χαμηλότερη τιμή σε χαμηλότερη κατάταξη. Στην περίπτωση ίσων τιμών χαρακτηριστικών για πολλές μονάδες, σε καθεμία από αυτές εκχωρείται ο αριθμητικός μέσος όρος των διαδοχικών τιμών κατάταξης.

Για παράδειγμα, δύο μονάδες που καταλαμβάνουν τη 2η και την 3η θέση (κατάταξη) σε μία μόνο σειρά κατάταξης έχουν τις ίδιες τιμές. Επομένως, σε καθένα από αυτά αποδίδεται μια κατάταξη ίση με (3 + 2) / 2 = 2,5.

Στη συγκεντρωμένη μεμονωμένη σειρά κατάταξης, ο συνολικός αριθμός των βαθμών θα είναι ίσος με:

N = n 1 + n 2

όπου n 1 είναι ο αριθμός των στοιχείων στο πρώτο δείγμα και n 2 είναι ο αριθμός των στοιχείων στο δεύτερο δείγμα.

Στη συνέχεια, χωρίζουμε ξανά τη μοναδική σειρά κατάταξης σε δύο, που αποτελούνται από μονάδες του πρώτου και του δεύτερου δείγματος, αντίστοιχα, ενώ θυμόμαστε τις τιμές των βαθμών για κάθε μονάδα. Υπολογίζουμε χωριστά το άθροισμα των βαθμών που έπεσαν στο μερίδιο των στοιχείων του πρώτου δείγματος και χωριστά - στο μερίδιο των στοιχείων του δεύτερου δείγματος. Προσδιορίστε το μεγαλύτερο από τα δύο αθροίσματα κατάταξης (T x) που αντιστοιχεί στο δείγμα με n x στοιχεία.

Τέλος, βρίσκουμε την τιμή του Mann-Whitney U-test χρησιμοποιώντας τον τύπο:

5. Πώς να ερμηνεύσετε την τιμή του Mann-Whitney U-test;

Η λαμβανόμενη τιμή του κριτηρίου U συγκρίνεται σύμφωνα με τον πίνακα για το επιλεγμένο επίπεδο στατιστικής σημασίας (p=0,05 ή p=0,01) με την κρίσιμη τιμή του U για έναν δεδομένο αριθμό συγκριτικών δειγμάτων:

  • Εάν η τιμή που προκύπτει U πιο λιγοπίνακας ή ισοδυναμείσε αυτόν, τότε αναγνωρίζεται η στατιστική σημασία των διαφορών μεταξύ των επιπέδων του χαρακτηριστικού στα υπό εξέταση δείγματα (μια εναλλακτική υπόθεση γίνεται αποδεκτή). Η σημασία των διαφορών είναι μεγαλύτερη, όσο χαμηλότερη είναι η τιμή του U.
  • Εάν η τιμή που προκύπτει U περισσότεροσε πίνακα, η μηδενική υπόθεση γίνεται δεκτή.
Εμφάνιση του πίνακα των κρίσιμων τιμών της δοκιμής U Mann-Whitney σε p=0,05

ΚΡΙΤΗΡΙΟ WILCOXON

Η δοκιμή Wilcoxon για συνδεδεμένα δείγματα (επίσης γνωστή ως Wilcoxon's T-test, Wilcoxon's test, Wilcoxon's signed rank test, Wilcoxon's rank sum test) είναι μια μη παραμετρική στατιστική δοκιμή που χρησιμοποιείται για τη σύγκριση δύο συνδεδεμένων (ζευγών) δειγμάτων με το επίπεδο οποιουδήποτε ποσοτικού χαρακτηριστικού μετριέται σε συνεχή ή τακτική κλίμακα.

Η ουσία της μεθόδου είναι ότι συγκρίνονται οι απόλυτες τιμές της σοβαρότητας των μετατοπίσεων προς τη μία ή την άλλη κατεύθυνση. Για να γίνει αυτό, πρώτα κατατάσσονται όλες οι απόλυτες τιμές των βάρδιων και, στη συνέχεια, συνοψίζονται οι τάξεις. Εάν οι μετατοπίσεις προς τη μία ή την άλλη κατεύθυνση συμβαίνουν τυχαία, τότε τα αθροίσματα των βαθμών τους θα είναι περίπου ίσα. Εάν η ένταση των μετατοπίσεων προς μία κατεύθυνση είναι μεγαλύτερη, τότε το άθροισμα των βαθμών των απόλυτων τιμών των μετατοπίσεων προς την αντίθετη κατεύθυνση θα είναι σημαντικά χαμηλότερο από ό,τι θα μπορούσε να είναι με τυχαίες αλλαγές.

1. Ιστορικό της ανάπτυξης του τεστ Wilcoxon για συνδεδεμένα δείγματα

Το τεστ προτάθηκε για πρώτη φορά το 1945 από τον Αμερικανό στατιστικολόγο και χημικό Frank Wilcoxon (1892-1965). Στην ίδια επιστημονική εργασία, ο συγγραφέας περιέγραψε ένα άλλο κριτήριο που χρησιμοποιείται στην περίπτωση σύγκρισης ανεξάρτητων δειγμάτων.

2. Σε τι χρησιμεύει το τεστ Wilcoxon;

Το Wilcoxon t-test χρησιμοποιείται για την αξιολόγηση των διαφορών μεταξύ δύο συνόλων μετρήσεων που πραγματοποιούνται στον ίδιο πληθυσμό ατόμων, αλλά υπό διαφορετικές συνθήκες ή σε διαφορετικούς χρόνους. Αυτό το τεστ είναι σε θέση να αποκαλύψει την κατεύθυνση και τη σοβαρότητα των αλλαγών - δηλαδή εάν οι δείκτες μετατοπίζονται περισσότερο προς τη μία κατεύθυνση από την άλλη.

Ένα κλασικό παράδειγμα μιας κατάστασης στην οποία μπορεί να εφαρμοστεί το Wilcoxon T-test για σχετικούς πληθυσμούς είναι μια μελέτη πριν και μετά, όπου συγκρίνονται οι βαθμολογίες πριν και μετά τη θεραπεία. Για παράδειγμα, κατά τη μελέτη της αποτελεσματικότητας ενός αντιυπερτασικού παράγοντα, η αρτηριακή πίεση συγκρίνεται πριν από τη λήψη του φαρμάκου και μετά τη λήψη του.

3. Προϋποθέσεις και περιορισμοί στη χρήση του Wilcoxon T-test

  1. Η δοκιμή Wilcoxon είναι μια μη παραμετρική δοκιμή, επομένως, σε αντίθεση με ζευγαρωμένο Student's t-test, δεν απαιτεί την παρουσία κανονικής κατανομής των συγκριτικών πληθυσμών.
  2. Ο αριθμός των ατόμων κατά τη χρήση του Wilcoxon T-test πρέπει να είναι τουλάχιστον 5.
  3. Το υπό μελέτη χαρακτηριστικό μπορεί να μετρηθεί τόσο σε ποσοτική συνεχή (αρτηριακή πίεση, καρδιακός ρυθμός, αριθμός λευκοκυττάρων σε 1 ml αίματος) όσο και σε τακτική κλίμακα (αριθμός σημείων, σοβαρότητα της νόσου, βαθμός μόλυνσης από μικροοργανισμούς).
  4. Αυτό το κριτήριο χρησιμοποιείται μόνο όταν συγκρίνονται δύο σειρές μετρήσεων. Ένα ανάλογο του Wilcoxon T-test για τη σύγκριση τριών ή περισσότερων συγγενών πληθυσμών είναι Κριτήριο Friedman.

4. Πώς να υπολογίσετε το Wilcoxon T-test για σχετικά δείγματα;

  1. Υπολογίστε τη διαφορά μεταξύ των τιμών των ζευγαρωμένων μετρήσεων για κάθε θέμα. Οι μηδενικές μετατοπίσεις δεν λαμβάνονται υπόψη περαιτέρω.
  2. Προσδιορίστε ποιες από τις διαφορές είναι τυπικές, δηλαδή αντιστοιχούν στην κατεύθυνση αλλαγής του δείκτη που επικρατεί στη συχνότητα.
  3. Κατατάξτε τις διαφορές των ζευγών με τις απόλυτες τιμές τους (δηλαδή, χωρίς να λάβετε υπόψη το πρόσημο), σε αύξουσα σειρά. Σε χαμηλότερη απόλυτη τιμή της διαφοράς εκχωρείται χαμηλότερη κατάταξη.
  4. Υπολογίστε το άθροισμα των βαθμών που αντιστοιχούν σε άτυπες μετατοπίσεις.

Έτσι, το Wilcoxon T-test για σχετικά δείγματα υπολογίζεται με τον ακόλουθο τύπο:

όπου ΣRr είναι το άθροισμα των βαθμών που αντιστοιχούν σε άτυπες αλλαγές του δείκτη.

5. Πώς να ερμηνεύσετε την τιμή του τεστ Wilcoxon;

Η ληφθείσα τιμή του Wilcoxon T-test συγκρίνεται με την κρίσιμη τιμή σύμφωνα με τον πίνακα για το επιλεγμένο επίπεδο στατιστικής σημασίας ( p=0,05ή p=0,01) για δεδομένο αριθμό συγκριτικών δειγμάτων n:

  • Αν η υπολογισθείσα (εμπειρική) τιμή της Θερμ. μικρότερο από τον πίνακα T cr. ή ίσο με αυτό, τότε αναγνωρίζεται η στατιστική σημασία των μεταβολών του δείκτη στην τυπική κατεύθυνση (μια εναλλακτική υπόθεση γίνεται αποδεκτή). Η σημασία των διαφορών είναι μεγαλύτερη, όσο χαμηλότερη είναι η τιμή του T.
  • Αν Θερμ. περισσότερα T cr. , η μηδενική υπόθεση για την απουσία στατιστικής σημασίας των μεταβολών του δείκτη γίνεται αποδεκτή.

Ένα παράδειγμα υπολογισμού του τεστ Wilcoxon για σχετικά δείγματα

Μια φαρμακευτική εταιρεία διεξάγει έρευνα για ένα νέο φάρμακο από την ομάδα των μη στεροειδών αντιφλεγμονωδών φαρμάκων. Για αυτό, επιλέχθηκε μια ομάδα 10 εθελοντών που έπασχαν από οξείες ιογενείς λοιμώξεις του αναπνευστικού με υπερθερμία. Η θερμοκρασία του σώματός τους μετρήθηκε πριν και 30 λεπτά μετά τη λήψη του νέου φαρμάκου. Απαιτείται να συναχθεί συμπέρασμα σχετικά με τη σημασία της μείωσης της θερμοκρασίας του σώματος ως αποτέλεσμα της λήψης του φαρμάκου.

  1. Τα αρχικά δεδομένα παρουσιάζονται με τη μορφή του παρακάτω πίνακα:
  2. Για να υπολογίσουμε το Wilcoxon T-test, υπολογίζουμε τις διαφορές στους ζευγαρωμένους δείκτες και ταξινομούμε τις απόλυτες τιμές τους. Ταυτόχρονα, οι άτυπες τάξεις θα επισημαίνονται με κόκκινο:
    Ν Επώνυμο t του σώματος πριν από τη λήψη του φαρμάκου t του σώματος μετά τη λήψη του φαρμάκου Διαφορά δεικτών, δ |δ| Τάξη
    1. Ιβάνοφ 39.0 37.6 -1.4 1.4 7
    2. Πετρόφ 39.5 38.7 -0.8 0.8 5
    3. Σιντόροφ 38.6 38.7 0.1 0.1 1.5
    4. Ποπόφ 39.1 38.5 -0.6 0.6 4
    5. Νικολάεφ 40.1 38.6 -1.5 1.5 8
    6. Κοζλόφ 39.3 37.5 -1.8 1.8 9
    7. Ιγνάτιεφ 38.9 38.8 -0.1 0.1 1.5
    8. Σεμένοφ 39.2 38.0 -1.2 1.2 6
    9. Εγκόροφ 39.8 39.8 0
    10. Αλεξέεφ 38.8 39.3 0.5 0.5 3
    Όπως βλέπουμε τυπική μετατόπισηδείκτης είναι η μείωσή του, που σημειώθηκε σε 7 περιπτώσεις από τις 10. Σε μία περίπτωση (στον ασθενή Egorov), η θερμοκρασία δεν άλλαξε μετά τη λήψη του φαρμάκου και επομένως αυτή η περίπτωση δεν χρησιμοποιήθηκε σε περαιτέρω ανάλυση. Σε δύο περιπτώσεις (σε ασθενείς των Sidorov και Alekseev) άτυπη μετατόπισηθερμοκρασία προς τα πάνω. Οι τάξεις που αντιστοιχούν στην άτυπη βάρδια είναι 1,5 και 3.
  3. Υπολογίζουμε το Wilcoxon T-test, το οποίο είναι ίσο με το άθροισμα των βαθμών που αντιστοιχούν στην άτυπη μετατόπιση του δείκτη:

    T = ΣRr = 3 + 1,5 = 4,5

  4. Συγκρίνετε Θερμ. με Τ κρ. , που στο επίπεδο σημαντικότητας p=0,05 και n=9 ισούται με 8. Επομένως, το T emp.
  5. Συμπεραίνουμε ότι η μείωση της θερμοκρασίας του σώματος σε ασθενείς με ARVI ως αποτέλεσμα λήψης νέου φαρμάκου είναι στατιστικά σημαντική (σ.<0.05).
Εμφάνιση πίνακα κρίσιμων τιμών της δοκιμής Wilcoxon T

Τεστ CHI-SQUARE PEARSON

Το τεστ Pearson χ2 είναι μια μη παραμετρική μέθοδος που σας επιτρέπει να αξιολογήσετε τη σημασία των διαφορών μεταξύ του πραγματικού (που αποκαλύφθηκε ως αποτέλεσμα της μελέτης) αριθμού των αποτελεσμάτων ή των ποιοτικών χαρακτηριστικών του δείγματος που εμπίπτουν σε κάθε κατηγορία και του θεωρητικού αριθμού που μπορεί να αναμένεται στις ομάδες που μελετήθηκαν εάν η μηδενική υπόθεση είναι αληθής. Με απλούστερους όρους, η μέθοδος σας επιτρέπει να αξιολογήσετε τη στατιστική σημασία των διαφορών μεταξύ δύο ή περισσότερων σχετικών δεικτών (συχνότητες, μερίδια).

1. Ιστορικό ανάπτυξης του κριτηρίου χ 2

Το τεστ chi-square για την ανάλυση πινάκων έκτακτης ανάγκης αναπτύχθηκε και προτάθηκε το 1900 από έναν Άγγλο μαθηματικό, στατιστικολόγο, βιολόγο και φιλόσοφο, τον ιδρυτή της μαθηματικής στατιστικής και έναν από τους ιδρυτές της βιομετρίας. Καρλ Πίρσον(1857-1936).

2. Σε τι χρησιμεύει το κριτήριο χ 2 του Pearson;

Το τεστ chi-square μπορεί να εφαρμοστεί στην ανάλυση πίνακες έκτακτης ανάγκηςπου περιέχει πληροφορίες σχετικά με τη συχνότητα των αποτελεσμάτων ανάλογα με την παρουσία ενός παράγοντα κινδύνου. Για παράδειγμα, ένας πίνακας έκτακτης ανάγκης τεσσάρων πεδίων μοιάζει με αυτό:

Η Έξοδος είναι (1) Χωρίς έξοδο (0) Σύνολο
Υπάρχει ένας παράγοντας κινδύνου (1) ΕΝΑ σι Α+Β
Χωρίς παράγοντα κινδύνου (0) ντο ρε C+D
Σύνολο A+C Β+Δ Α+Β+Γ+Δ

Πώς να συμπληρώσετε έναν τέτοιο πίνακα έκτακτης ανάγκης; Ας εξετάσουμε ένα μικρό παράδειγμα.

Σε εξέλιξη βρίσκεται μελέτη για την επίδραση του καπνίσματος στον κίνδυνο εμφάνισης αρτηριακής υπέρτασης. Για αυτό, επιλέχθηκαν δύο ομάδες ατόμων - η πρώτη περιελάμβανε 70 άτομα που καπνίζουν τουλάχιστον 1 πακέτο τσιγάρα καθημερινά, η δεύτερη - 80 μη καπνιστές της ίδιας ηλικίας. Στην πρώτη ομάδα, 40 άτομα είχαν υπέρταση. Στη δεύτερη - αρτηριακή υπέρταση παρατηρήθηκε σε 32 άτομα. Αντίστοιχα, η φυσιολογική αρτηριακή πίεση στην ομάδα των καπνιστών ήταν σε 30 άτομα (70 - 40 = 30) και στην ομάδα των μη καπνιστών - σε 48 (80 - 32 = 48).

Συμπληρώνουμε τον πίνακα έκτακτων τεσσάρων πεδίων με τα αρχικά δεδομένα:

Στον πίνακα έκτακτης ανάγκης που προκύπτει, κάθε γραμμή αντιστοιχεί σε μια συγκεκριμένη ομάδα θεμάτων. Στήλες - δείχνουν τον αριθμό των ατόμων με αρτηριακή υπέρταση ή με φυσιολογική αρτηριακή πίεση.

Η πρόκληση για τον ερευνητή είναι: υπάρχουν στατιστικά σημαντικές διαφορές μεταξύ της συχνότητας των ατόμων με αρτηριακή πίεση μεταξύ των καπνιστών και των μη καπνιστών; Μπορείτε να απαντήσετε σε αυτήν την ερώτηση υπολογίζοντας το τεστ χ-τετράγωνο του Pearson και συγκρίνοντας την τιμή που προκύπτει με την κρίσιμη.

  1. Συγκρίσιμοι δείκτες θα πρέπει να μετρώνται σε ονομαστική κλίμακα (για παράδειγμα, το φύλο του ασθενούς - αρσενικό ή θηλυκό) ή σε μια τακτική κλίμακα (για παράδειγμα, ο βαθμός αρτηριακής υπέρτασης, ο οποίος παίρνει τιμές από 0 έως 3).
  2. Αυτή η μέθοδος επιτρέπει την ανάλυση όχι μόνο πινάκων τεσσάρων πεδίων, όταν τόσο ο παράγοντας όσο και το αποτέλεσμα είναι δυαδικές μεταβλητές, δηλαδή έχουν μόνο δύο πιθανές τιμές (για παράδειγμα, αρσενικό ή θηλυκό, παρουσία ή απουσία ορισμένου ασθένεια στο ιστορικό ...). Το τεστ chi-square του Pearson μπορεί επίσης να χρησιμοποιηθεί στην περίπτωση της ανάλυσης πινάκων πολλαπλών πεδίων, όταν ο παράγοντας και (ή) το αποτέλεσμα λαμβάνουν τρεις ή περισσότερες τιμές.
  3. Οι αντιστοιχισμένες ομάδες θα πρέπει να είναι ανεξάρτητες, δηλαδή το τεστ χ-τετράγωνο δεν πρέπει να χρησιμοποιείται κατά τη σύγκριση των παρατηρήσεων πριν και μετά. Δοκιμή McNemar(όταν συγκρίνονται δύο συγγενείς πληθυσμοί) ή υπολογίζονται Q-test Cochran(σε περίπτωση σύγκρισης τριών ή περισσότερων ομάδων).
  4. Κατά την ανάλυση πινάκων τεσσάρων πεδίων αναμενόμενες τιμέςσε καθένα από τα κελιά πρέπει να είναι τουλάχιστον 10. Σε περίπτωση που σε τουλάχιστον ένα κελί το αναμενόμενο φαινόμενο λάβει τιμή από 5 έως 9, πρέπει να υπολογιστεί η δοκιμή χ-τετράγωνου με διόρθωση Yates. Εάν σε τουλάχιστον ένα κελί το αναμενόμενο φαινόμενο είναι μικρότερο από 5, τότε η ανάλυση θα πρέπει να χρησιμοποιηθεί Το ακριβές τεστ του Fisher.
  5. Στην περίπτωση ανάλυσης πινάκων πολλαπλών πεδίων, ο αναμενόμενος αριθμός παρατηρήσεων δεν πρέπει να λαμβάνει τιμές μικρότερες από 5 σε περισσότερο από το 20% των κελιών.

4. Πώς να υπολογίσετε το τεστ Χ-τετράγωνο του Pearson;

Για να υπολογίσετε το τεστ chi-square, πρέπει:

Αυτός ο αλγόριθμος είναι εφαρμόσιμος και για πίνακες τεσσάρων και πολλών πεδίων.

5. Πώς να ερμηνεύσετε την τιμή του chi-square του Pearson;

Σε περίπτωση που η λαμβανόμενη τιμή του κριτηρίου χ 2 είναι μεγαλύτερη από την κρίσιμη, συμπεραίνουμε ότι υπάρχει στατιστική σχέση μεταξύ του παράγοντα κινδύνου που μελετήθηκε και του αποτελέσματος στο κατάλληλο επίπεδο σημαντικότητας.

6. Ένα παράδειγμα υπολογισμού του Pearson chi-square test

Ας προσδιορίσουμε τη στατιστική σημασία της επίδρασης του παράγοντα καπνίσματος στην επίπτωση της αρτηριακής υπέρτασης σύμφωνα με τον παραπάνω πίνακα:

  1. Υπολογίζουμε τις αναμενόμενες τιμές για κάθε κελί:
  2. Βρείτε την τιμή του πειράματος chi-square του Pearson:

    χ 2 \u003d (40-33,6) 2 / 33,6 + (30-36,4) 2 / 36,4 + (32-38,4) 2 / 38,4 + (48-41,6) 2 / 41,6 \u003d 4,396.

  3. Ο αριθμός των βαθμών ελευθερίας f = (2-1)*(2-1) = 1. Βρίσκουμε την κρίσιμη τιμή του Pearson chi-square test από τον πίνακα, η οποία, σε επίπεδο σημαντικότητας p=0,05 και το αριθμός βαθμών ελευθερίας 1, είναι 3.841.
  4. Συγκρίνουμε τη λαμβανόμενη τιμή του τεστ chi-square με την κρίσιμη: 4,396 > 3,841, επομένως, η εξάρτηση της επίπτωσης της αρτηριακής υπέρτασης από την παρουσία του καπνίσματος είναι στατιστικά σημαντική. Το επίπεδο σημαντικότητας αυτής της σχέσης αντιστοιχεί στο p<0.05.
Εμφάνιση πίνακα κρίσιμων τιμών της δοκιμής chi-square του Pearson

ΑΚΡΙΒΗ ΚΡΙΤΗΡΙΟ ΤΟΥ FISHER

Η ακριβής δοκιμή Fisher είναι μια δοκιμή που χρησιμοποιείται για τη σύγκριση δύο σχετικών δεικτών που χαρακτηρίζουν τη συχνότητα ενός συγκεκριμένου χαρακτηριστικού που έχει δύο τιμές. Τα αρχικά δεδομένα για τον υπολογισμό της ακριβούς δοκιμής του Fisher συνήθως ομαδοποιούνται με τη μορφή πίνακα τεσσάρων πεδίων.

1. Ιστορικό ανάπτυξης του κριτηρίου

Το κριτήριο προτάθηκε για πρώτη φορά Ρόναλντ Φίσερστο βιβλίο του Design of Experiments. Αυτό συνέβη το 1935. Ο ίδιος ο Fisher ισχυρίστηκε ότι η Muriel Bristol ώθησε αυτή την ιδέα. Στις αρχές της δεκαετίας του 1920, ο Ronald, η Muriel και ο William Roach βρίσκονταν στην Αγγλία σε έναν πειραματικό γεωργικό σταθμό. Η Muriel ισχυρίστηκε ότι μπορούσε να προσδιορίσει τη σειρά με την οποία χύνονταν τσάι και γάλα στο φλιτζάνι της. Τότε δεν κατέστη δυνατό να εξακριβωθεί η ορθότητα της δήλωσής της.

Αυτό οδήγησε στην ιδέα του Fisher για την «μηδενική υπόθεση». Ο στόχος δεν ήταν να προσπαθήσουμε να αποδείξουμε ότι η Muriel μπορούσε να διακρίνει τη διαφορά μεταξύ διαφορετικών φλυτζανιών τσαγιού. Αποφασίστηκε να διαψευσθεί η υπόθεση ότι μια γυναίκα κάνει μια επιλογή τυχαία. Διαπιστώθηκε ότι η μηδενική υπόθεση δεν μπορεί ούτε να αποδειχθεί ούτε να τεκμηριωθεί. Αλλά μπορεί να διαψευσθεί κατά τη διάρκεια πειραμάτων.

Έγιναν 8 φλιτζάνια. Στα πρώτα τέσσερα, το γάλα χύνεται πρώτα, στα άλλα τέσσερα - τσάι. Τα κύπελλα ήταν μπερδεμένα. Το Μπρίστολ προσκλήθηκε να δοκιμάσει το τσάι και να μοιράσει τα φλιτζάνια σύμφωνα με τη μέθοδο παρασκευής τσαγιού. Το αποτέλεσμα θα έπρεπε να ήταν δύο ομάδες. Η ιστορία λέει ότι το πείραμα ήταν επιτυχημένο.

Χάρη στη δοκιμή Fisher, η πιθανότητα ότι το Bristol ενεργεί διαισθητικά έχει μειωθεί στο 0,01428. Δηλαδή, ήταν δυνατό να προσδιοριστεί σωστά το κύπελλο σε μία περίπτωση από τις 70. Ωστόσο, δεν υπάρχει τρόπος να μηδενιστούν οι πιθανότητες που καθορίζει τυχαία η Μαντάμ. Ακόμα κι αν αυξήσεις τον αριθμό των φλιτζανιών.

Αυτή η ιστορία έδωσε ώθηση στην ανάπτυξη της «μηδενικής υπόθεσης». Ταυτόχρονα, προτάθηκε το ακριβές τεστ του Fisher, η ουσία του οποίου είναι να απαριθμήσει όλους τους πιθανούς συνδυασμούς εξαρτημένων και ανεξάρτητων μεταβλητών.

2. Σε τι χρησιμεύει το ακριβές τεστ Fisher;

Το ακριβές τεστ Fisher χρησιμοποιείται κυρίως για τη σύγκριση μικρών δειγμάτων. Υπάρχουν δύο σημαντικοί λόγοι για αυτό. Πρώτον, ο υπολογισμός του κριτηρίου είναι μάλλον επαχθής και μπορεί να πάρει πολύ χρόνο ή να απαιτήσει ισχυρούς υπολογιστικούς πόρους. Δεύτερον, το κριτήριο είναι αρκετά ακριβές (κάτι που αντικατοπτρίζεται ακόμη και στο όνομά του), γεγονός που του επιτρέπει να χρησιμοποιηθεί σε μελέτες με μικρό αριθμό παρατηρήσεων.

Ιδιαίτερη θέση δίνεται στο ακριβές κριτήριο του Fisher στην ιατρική. Πρόκειται για μια σημαντική μέθοδο επεξεργασίας ιατρικών δεδομένων, η οποία έχει βρει εφαρμογή σε πολλές επιστημονικές μελέτες. Χάρη σε αυτό, είναι δυνατό να διερευνηθεί η σχέση ορισμένων παραγόντων και αποτελεσμάτων, να συγκριθεί η συχνότητα παθολογικών καταστάσεων μεταξύ δύο ομάδων ατόμων κ.λπ.

3. Σε ποιες περιπτώσεις μπορεί να χρησιμοποιηθεί το ακριβές τεστ Fisher;

  1. Οι συγκρίσιμες μεταβλητές πρέπει να μετρώνται σε ονομαστική κλίμακα και να έχουν μόνο δύο τιμές, για παράδειγμα, η αρτηριακή πίεση είναι φυσιολογική ή αυξημένη, το αποτέλεσμα είναι ευνοϊκό ή δυσμενές, υπάρχουν μετεγχειρητικές επιπλοκές ή όχι.
  2. Το ακριβές τεστ του Fisher έχει σχεδιαστεί για να συγκρίνει δύο ανεξάρτητες ομάδες χωρισμένες ανά παράγοντα. Κατά συνέπεια, ο παράγοντας πρέπει επίσης να έχει μόνο δύο πιθανές τιμές.
  3. Το τεστ είναι κατάλληλο για σύγκριση πολύ μικρών δειγμάτων: Το ακριβές τεστ Fisher μπορεί να χρησιμοποιηθεί για την ανάλυση τεσσάρων πλήρων πινάκων σε περίπτωση αναμενόμενων τιμών φαινομένων μικρότερες από 5, που αποτελεί περιορισμό εφαρμογής Τεστ Χι-τετράγωνο του Pearson, ακόμη και με τη διόρθωση του Yates.
  4. Το ακριβές τεστ Fisher μπορεί να είναι μονομερές ή αμφίπλευρο. Με μια μονόπλευρη επιλογή, είναι γνωστό ακριβώς πού θα αποκλίνει ένας από τους δείκτες. Για παράδειγμα, μια μελέτη συγκρίνει πόσοι ασθενείς ανάρρωσαν σε σύγκριση με μια ομάδα ελέγχου. Θεωρείται ότι η θεραπεία δεν μπορεί να επιδεινώσει την κατάσταση των ασθενών, αλλά μόνο είτε να θεραπεύσει είτε όχι.
    Η δοκιμή δύο ουρών αξιολογεί τις διαφορές συχνότητας σε δύο κατευθύνσεις. Δηλαδή, εκτιμάται η πιθανότητα τόσο μεγαλύτερης όσο και μικρότερης συχνότητας του φαινομένου στην πειραματική ομάδα σε σύγκριση με την ομάδα ελέγχου.

Ένα ανάλογο της ακριβούς δοκιμής του Fisher είναι Τεστ Χι-τετράγωνο του Pearson, ενώ η ακριβής δοκιμή του Fisher έχει μεγαλύτερη ισχύ, ειδικά κατά τη σύγκριση μικρών δειγμάτων, και ως εκ τούτου έχει ένα πλεονέκτημα σε αυτή την περίπτωση.

4. Πώς να υπολογίσετε το ακριβές τεστ του Fisher;

Για παράδειγμα, μελετάμε την εξάρτηση της συχνότητας γέννησης παιδιών με συγγενείς δυσπλασίες (CMD) από το κάπνισμα της μητέρας κατά τη διάρκεια της εγκυμοσύνης. Για αυτό, επιλέχθηκαν δύο ομάδες εγκύων γυναικών, η μία από τις οποίες ήταν πειραματική, αποτελούμενη από 80 γυναίκες που κάπνιζαν στο πρώτο τρίμηνο της εγκυμοσύνης και η δεύτερη ήταν μια ομάδα σύγκρισης, συμπεριλαμβανομένων 90 γυναικών που ακολουθούσαν έναν υγιεινό τρόπο ζωής κατά τη διάρκεια της εγκυμοσύνης. Ο αριθμός των περιπτώσεων εμβρυϊκού CM στην πειραματική ομάδα ήταν 10, στην ομάδα σύγκρισης - 2.

Αρχικά, συντάσσουμε έναν πίνακα έκτακτης ανάγκης τεσσάρων πεδίων:

Η ακριβής δοκιμή Fisher υπολογίζεται χρησιμοποιώντας τον ακόλουθο τύπο:

όπου N είναι ο συνολικός αριθμός των θεμάτων στις δύο ομάδες. ! - παραγοντικό, που είναι το γινόμενο ενός αριθμού και μιας ακολουθίας αριθμών, καθένας από τους οποίους είναι μικρότερος από τον προηγούμενο κατά 1 (για παράδειγμα, 4! = 4 3 2 1)

Ως αποτέλεσμα των υπολογισμών, βρίσκουμε ότι P = 0,0137.

5. Πώς να ερμηνεύσετε την τιμή της ακριβούς δοκιμής του Fisher;

Το πλεονέκτημα της μεθόδου είναι η αντιστοιχία του κριτηρίου που προκύπτει με την ακριβή τιμή του επιπέδου σημαντικότητας p. Δηλαδή, η τιμή 0,0137 που λήφθηκε στο παράδειγμά μας είναι το επίπεδο σημαντικότητας των διαφορών μεταξύ των συγκρινόμενων ομάδων όσον αφορά τη συχνότητα εμφάνισης εμβρυϊκού CM. Είναι απαραίτητο μόνο να συγκριθεί αυτός ο αριθμός με το κρίσιμο επίπεδο σημαντικότητας, που συνήθως λαμβάνεται στην ιατρική έρευνα ως 0,05.

  • Εάν η τιμή της ακριβούς δοκιμής Fisher είναι μεγαλύτερη από την κρίσιμη, η μηδενική υπόθεση γίνεται αποδεκτή και συμπεραίνεται ότι δεν υπάρχουν στατιστικά σημαντικές διαφορές στη συχνότητα του αποτελέσματος ανάλογα με την παρουσία ενός παράγοντα κινδύνου.
  • Εάν η τιμή της ακριβούς δοκιμής Fisher είναι μικρότερη από την κρίσιμη, γίνεται αποδεκτή μια εναλλακτική υπόθεση και συνάγεται συμπέρασμα σχετικά με την παρουσία στατιστικά σημαντικών διαφορών στη συχνότητα του αποτελέσματος ανάλογα με την επίδραση του παράγοντα κινδύνου.

Στο παράδειγμά μας ο Π< 0,05, в связи с чем делаем вывод о наличии прямой взаимосвязи курения и вероятности развития ВПР плода. Частота возникновения врожденной патологии у детей курящих женщин статистически значимо выше, чем у некурящих.


Αναλογία πιθανοτήτων

Ο λόγος πιθανοτήτων είναι ένας στατιστικός δείκτης (στα ρωσικά το όνομά του συνήθως συντομεύεται ως OSH και στα αγγλικά - OR από "αναλογία πιθανοτήτων"), ένας από τους κύριους τρόπους για να περιγράψουμε με αριθμητικούς όρους πόσο η απουσία ή η παρουσία ενός συγκεκριμένου αποτελέσματος σχετίζεται με την παρουσία ή την απουσία ενός συγκεκριμένου παράγοντα σε μια συγκεκριμένη στατιστική ομάδα.

1. Ιστορικό ανάπτυξης του δείκτη λόγου πιθανοτήτων

Ο όρος «τυχαίο» προήλθε από τη θεωρία του τζόγου, όπου με τη βοήθεια αυτής της έννοιας δήλωναν την αναλογία των κερδών προς τις χαμένες. Στην επιστημονική ιατρική βιβλιογραφία, ο δείκτης αναλογίας πιθανοτήτων αναφέρθηκε για πρώτη φορά το 1951 στο έργο του J. Kornfield. Στη συνέχεια, αυτός ο ερευνητής δημοσίευσε εργασίες που σημείωσαν την ανάγκη υπολογισμού ενός διαστήματος εμπιστοσύνης 95% για τον λόγο πιθανοτήτων. (Cornfield, J. A Method for Estimating Comparative Rates from Clinical Data. Applications to Cancer of the Lung, Breast, and Cervix // Journal of the National Cancer Institute, 1951. - N.11. - P.1269–1275.)

2. Σε τι χρησιμεύει ο λόγος πιθανοτήτων;

Ο λόγος πιθανοτήτων σάς επιτρέπει να αξιολογήσετε τη σχέση μεταξύ ενός συγκεκριμένου αποτελέσματος και ενός παράγοντα κινδύνου.

Ο λόγος πιθανοτήτων σάς επιτρέπει να συγκρίνετε ομάδες ατόμων ως προς τη συχνότητα εντοπισμού ενός συγκεκριμένου παράγοντα κινδύνου. Είναι σημαντικό ότι το αποτέλεσμα της εφαρμογής του λόγου πιθανοτήτων δεν είναι μόνο ο προσδιορισμός της στατιστικής σημασίας της σχέσης μεταξύ του παράγοντα και του αποτελέσματος, αλλά και η ποσοτική του αξιολόγηση.

3. Προϋποθέσεις και περιορισμοί στην εφαρμογή του odds ratio

  1. Οι δείκτες απόδοσης και συντελεστών πρέπει να μετρώνται σε ονομαστική κλίμακα. Για παράδειγμα, το σημάδι που προκύπτει είναι η παρουσία ή η απουσία μιας συγγενούς δυσπλασίας στο έμβρυο, ο παράγοντας που μελετήθηκε είναι το κάπνισμα της μητέρας (κάπνισμα ή μη).
  2. Αυτή η μέθοδος επιτρέπει την ανάλυση μόνο πινάκων τεσσάρων πεδίων, όταν τόσο ο παράγοντας όσο και το αποτέλεσμα είναι δυαδικές μεταβλητές, δηλαδή έχουν μόνο δύο πιθανές τιμές (για παράδειγμα, φύλο - άνδρας ή γυναίκα, αρτηριακή υπέρταση - παρουσία ή απουσία , έκβαση της νόσου - με ή χωρίς βελτίωση ...).
  3. Οι αντιστοιχισμένες ομάδες θα πρέπει να είναι ανεξάρτητες, δηλαδή, ο λόγος πιθανοτήτων δεν είναι κατάλληλος για σύγκριση παρατηρήσεων πριν και μετά.
  4. Ο δείκτης αναλογίας πιθανοτήτων χρησιμοποιείται σε μελέτες περιπτώσεων ελέγχου (για παράδειγμα, η πρώτη ομάδα είναι ασθενείς με υπέρταση, η δεύτερη είναι σχετικά υγιείς άνθρωποι). Για προοπτικές μελέτες, όταν οι ομάδες σχηματίζονται με βάση την παρουσία ή την απουσία ενός παράγοντα κινδύνου (για παράδειγμα, η πρώτη ομάδα - καπνιστές, η δεύτερη ομάδα - μη καπνιστές), μπορούν επίσης να υπολογιστούν σχετικό ρίσκο.

4. Πώς υπολογίζεται ο λόγος πιθανοτήτων;

Ο λόγος πιθανοτήτων είναι η τιμή του κλάσματος, στον αριθμητή του οποίου είναι οι πιθανότητες ενός συγκεκριμένου γεγονότος για την πρώτη ομάδα και στον παρονομαστή οι πιθανότητες του ίδιου γεγονότος για τη δεύτερη ομάδα.

ευκαιρίαείναι η αναλογία του αριθμού των θεμάτων που έχουν ένα συγκεκριμένο χαρακτηριστικό (αποτέλεσμα ή παράγοντα) προς τον αριθμό των υποκειμένων που δεν έχουν αυτό το χαρακτηριστικό.

Για παράδειγμα, επιλέχθηκε μια ομάδα ασθενών που χειρουργήθηκαν για νέκρωση του παγκρέατος, ο αριθμός των οποίων ήταν 100 άτομα. Μετά από 5 χρόνια, 80 από αυτούς επέζησαν. Αντίστοιχα, η πιθανότητα επιβίωσης ήταν 80 προς 20, ή 4.

Ένας βολικός τρόπος είναι να υπολογίσετε την αναλογία πιθανοτήτων με δεδομένα που συνοψίζονται σε έναν πίνακα 2x2:

Η Έξοδος είναι (1) Χωρίς έξοδο (0) Σύνολο
Υπάρχει ένας παράγοντας κινδύνου (1) ΕΝΑ σι Α+Β
Χωρίς παράγοντα κινδύνου (0) ντο ρε C+D
Σύνολο A+C Β+Δ Α+Β+Γ+Δ

Για αυτόν τον πίνακα, ο λόγος πιθανοτήτων υπολογίζεται χρησιμοποιώντας τον ακόλουθο τύπο:

Είναι πολύ σημαντικό να αξιολογηθεί η στατιστική σημασία της προσδιορισμένης σχέσης μεταξύ του αποτελέσματος και του παράγοντα κινδύνου. Αυτό οφείλεται στο γεγονός ότι ακόμη και με χαμηλές τιμές του λόγου πιθανοτήτων κοντά στο ένα, η σχέση, ωστόσο, μπορεί να είναι σημαντική και θα πρέπει να λαμβάνεται υπόψη στα στατιστικά συμπεράσματα. Αντίθετα, σε μεγάλες τιμές OR, ο δείκτης αποδεικνύεται στατιστικά ασήμαντος και, επομένως, η αποκαλυπτόμενη σχέση μπορεί να παραμεληθεί.

Για να εκτιμηθεί η σημασία του λόγου πιθανοτήτων, υπολογίζονται τα όρια του διαστήματος εμπιστοσύνης 95% (χρησιμοποιείται η συντομογραφία 95% CI ή 95% CI από το αγγλικό "διάστημα εμπιστοσύνης"). Ο τύπος για την εύρεση της τιμής του ανώτατου ορίου του 95% CI:

Ο τύπος για την εύρεση της τιμής του κατώτερου ορίου του 95% CI:

5. Πώς να ερμηνεύσετε την τιμή του λόγου πιθανοτήτων;

  • Εάν η αναλογία πιθανοτήτων είναι μεγαλύτερη από 1, τότε αυτό σημαίνει ότι οι πιθανότητες εύρεσης παράγοντα κινδύνου είναι μεγαλύτερες στην ομάδα με αποτέλεσμα. Εκείνοι. παράγοντας έχει άμεση σχέση με την πιθανότητα ενός αποτελέσματος.
  • Μια αναλογία πιθανοτήτων μικρότερη από 1 δείχνει ότι οι πιθανότητες να βρεθεί ένας παράγοντας κινδύνου είναι μεγαλύτερες στη δεύτερη ομάδα. Εκείνοι. παράγοντας έχει αντίστροφη σχέση με την πιθανότητα του αποτελέσματος.
  • Με αναλογία πιθανοτήτων ίση με ένα, οι πιθανότητες εύρεσης παράγοντα κινδύνου στις συγκρινόμενες ομάδες είναι οι ίδιες. Κατά συνέπεια, ο παράγοντας δεν επηρεάζει την πιθανότητα του αποτελέσματος.

Επιπρόσθετα, σε κάθε περίπτωση, η στατιστική σημασία του λόγου πιθανοτήτων αξιολογείται απαραίτητα με βάση τις τιμές του διαστήματος εμπιστοσύνης 95%.

  • Εάν το διάστημα εμπιστοσύνης δεν περιλαμβάνει 1, δηλ. και οι δύο τιμές των ορίων είναι είτε πάνω είτε κάτω από 1, συνάγεται ένα συμπέρασμα σχετικά με τη στατιστική σημασία της προσδιορισμένης σχέσης μεταξύ του παράγοντα και του αποτελέσματος σε επίπεδο σημαντικότητας p<0,05.
  • Εάν το διάστημα εμπιστοσύνης περιλαμβάνει 1, δηλ. Το ανώτερο όριο του είναι μεγαλύτερο από 1 και το κατώτερο όριο είναι μικρότερο από 1, συμπεραίνεται ότι δεν υπάρχει στατιστική σημασία της σχέσης μεταξύ του παράγοντα και του αποτελέσματος σε επίπεδο σημαντικότητας p>0,05.
  • Η τιμή του διαστήματος εμπιστοσύνης είναι αντιστρόφως ανάλογη με το επίπεδο σημασίας της σχέσης μεταξύ του παράγοντα και του αποτελέσματος, δηλ. Όσο μικρότερο είναι το 95% CI, τόσο πιο σημαντική είναι η προσδιορισμένη σχέση.

6. Ένα παράδειγμα υπολογισμού του δείκτη λόγου πιθανοτήτων

Φανταστείτε δύο ομάδες: η πρώτη αποτελούνταν από 200 γυναίκες που είχαν διαγνωστεί με συγγενή δυσπλασία του εμβρύου (Έκβαση+). Από αυτούς, κάπνισαν κατά τη διάρκεια της εγκυμοσύνης (Factor+) - 50 άτομα (ΑΛΛΑ), ήταν μη καπνιστές (Factor-) - 150 άτομα (ΑΠΟ).

Η δεύτερη ομάδα αποτελούνταν από 100 γυναίκες χωρίς σημάδια εμβρυϊκών δυσπλασιών (Έκβαση -), μεταξύ των οποίων 10 άτομα κάπνιζαν κατά τη διάρκεια της εγκυμοσύνης (Factor +) (ΣΙ), δεν κάπνιζε (Factor-) - 90 άτομα (ΡΕ).

1. Συντάξτε έναν πίνακα έκτακτης ανάγκης τεσσάρων πεδίων:

2. Υπολογίστε την τιμή του λόγου πιθανοτήτων:

Ή = (A * D) / (B * C) = (50 * 90) / (150 * 10) = 3.

3. Βρείτε τα όρια του 95% CI. Η τιμή του κατώτερου ορίου που υπολογίστηκε σύμφωνα με τον παραπάνω τύπο ήταν 1,45 και το ανώτατο όριο ήταν 6,21.

Έτσι, η μελέτη έδειξε ότι οι πιθανότητες συνάντησης μιας καπνίστριας μεταξύ των ασθενών που έχουν διαγνωστεί με εμβρυϊκό ΚΜ είναι 3 φορές υψηλότερες από ό,τι στις γυναίκες χωρίς σημάδια εμβρυϊκού ΚΜ. Η παρατηρούμενη εξάρτηση είναι στατιστικά σημαντική, καθώς το 95% του CI δεν περιλαμβάνει 1, οι τιμές των κατώτερων και ανώτερων ορίων του είναι μεγαλύτερες από 1.


ΣΧΕΤΙΚΟ ΡΙΣΚΟ

Ο κίνδυνος είναι η πιθανότητα ενός συγκεκριμένου αποτελέσματος, όπως ασθένεια ή τραυματισμός. Ο κίνδυνος μπορεί να πάρει τιμές από 0 (δεν υπάρχει πιθανότητα έκβασης) έως 1 (αναμένεται δυσμενές αποτέλεσμα σε όλες τις περιπτώσεις). Στις ιατρικές στατιστικές, κατά κανόνα, μελετώνται αλλαγές στον κίνδυνο ενός αποτελέσματος ανάλογα με κάποιον παράγοντα. Οι ασθενείς χωρίζονται υπό όρους σε 2 ομάδες, η μία από τις οποίες επηρεάζεται από τον παράγοντα, η άλλη όχι.

Ο σχετικός κίνδυνος είναι ο λόγος της συχνότητας των αποτελεσμάτων μεταξύ των ατόμων που επηρεάζονται από τον υπό μελέτη παράγοντα προς τη συχνότητα των αποτελεσμάτων μεταξύ των ατόμων που δεν επηρεάζονται από αυτόν τον παράγοντα. Στην επιστημονική βιβλιογραφία, χρησιμοποιείται συχνά το συντομευμένο όνομα του δείκτη - RR ή RR (από το αγγλικό "σχετικός κίνδυνος").

1. Ιστορικό ανάπτυξης του δείκτη σχετικού κινδύνου

Ο υπολογισμός του σχετικού κινδύνου δανείζεται από ιατρικές στατιστικές από την οικονομία. Μια σωστή εκτίμηση της επιρροής πολιτικών, οικονομικών και κοινωνικών παραγόντων στη ζήτηση για ένα προϊόν ή μια υπηρεσία μπορεί να οδηγήσει σε επιτυχία και η υποτίμηση αυτών των παραγόντων μπορεί να οδηγήσει σε οικονομικές αποτυχίες και χρεοκοπία της επιχείρησης.

2. Σε τι χρησιμεύει ο σχετικός κίνδυνος;

Ο σχετικός κίνδυνος χρησιμοποιείται για τη σύγκριση της πιθανότητας ενός αποτελέσματος ανάλογα με την παρουσία ενός παράγοντα κινδύνου. Για παράδειγμα, κατά την αξιολόγηση της επίδρασης του καπνίσματος στη συχνότητα εμφάνισης της υπέρτασης, κατά τη μελέτη της εξάρτησης της συχνότητας εμφάνισης καρκίνου του μαστού από από του στόματος αντισυλληπτικά κ.λπ. Ο σχετικός κίνδυνος είναι ο πιο σημαντικός δείκτης στη συνταγογράφηση ορισμένων θεραπειών ή στη διεξαγωγή μελετών με πιθανές παρενέργειες.

3. Προϋποθέσεις και περιορισμοί στη χρήση σχετικού κινδύνου

  1. Τα μέτρα των παραγόντων και των αποτελεσμάτων θα πρέπει να μετρώνται σε ονομαστική κλίμακα (π.χ. φύλο ασθενούς, αρσενικό ή θηλυκό, παρουσία υπέρτασης ή όχι).
  2. Αυτή η μέθοδος επιτρέπει την ανάλυση μόνο πινάκων τεσσάρων πεδίων όταν τόσο ο παράγοντας όσο και το αποτέλεσμα είναι μεμονωμένες μεταβλητές, δηλαδή έχουν μόνο δύο πιθανές τιμές (για παράδειγμα, ηλικία κάτω ή άνω των 50 ετών, παρουσία ή απουσία συγκεκριμένης ασθένεια στο ιστορικό).
  3. Ο σχετικός κίνδυνος χρησιμοποιείται σε προοπτικές μελέτες, όταν οι ομάδες μελέτης σχηματίζονται με βάση την παρουσία ή την απουσία ενός παράγοντα κινδύνου. Σε μελέτες περιπτώσεων ελέγχου, ο σχετικός κίνδυνος θα πρέπει να αντικατασταθεί από τον δείκτη αναλογία πιθανοτήτων.

4. Πώς υπολογίζεται ο σχετικός κίνδυνος;

Για τον υπολογισμό του σχετικού κινδύνου είναι απαραίτητο:

5. Πώς ερμηνεύεται η σχετική τιμή κινδύνου;

Η βαθμολογία σχετικού κινδύνου συγκρίνεται με 1 προκειμένου να προσδιοριστεί η φύση της σχέσης μεταξύ του παράγοντα και του αποτελέσματος:

  • Εάν το RR είναι 1, μπορεί να συναχθεί το συμπέρασμα ότι ο υπό μελέτη παράγοντας δεν επηρεάζει την πιθανότητα του αποτελέσματος (καμία σχέση μεταξύ του παράγοντα και του αποτελέσματος).
  • Σε τιμές μεγαλύτερες από 1, συνάγεται το συμπέρασμα ότι ο παράγοντας αυξάνει τη συχνότητα των αποτελεσμάτων (άμεση σχέση).
  • Σε τιμές μικρότερες από 1 - περίπου μείωση της πιθανότητας ενός αποτελέσματος υπό την επίδραση ενός παράγοντα (ανατροφοδότηση).

Οι τιμές των ορίων του διαστήματος εμπιστοσύνης 95% εκτιμώνται επίσης απαραίτητα. Εάν και οι δύο τιμές - τόσο το κατώτερο όσο και το ανώτερο όριο - βρίσκονται στην ίδια πλευρά του 1, ή, με άλλα λόγια, το διάστημα εμπιστοσύνης δεν περιλαμβάνει 1, τότε συνάγεται ένα συμπέρασμα σχετικά με τη στατιστική σημασία της προσδιορισμένης σχέσης μεταξύ του παράγοντας και το αποτέλεσμα με την πιθανότητα σφάλματος p<0,05.

Εάν το κατώτερο όριο του 95% CI είναι μικρότερο από 1 και το ανώτερο όριο είναι μεγαλύτερο, τότε συμπεραίνεται ότι δεν υπάρχει στατιστική σημασία της επίδρασης του παράγοντα στο ποσοστό έκβασης, ανεξάρτητα από την τιμή RR (p> 0,05).

6. Παράδειγμα υπολογισμού του δείκτη σχετικού κινδύνου

Το 1999, πραγματοποιήθηκαν μελέτες στην Οκλαχόμα σχετικά με τη συχνότητα εμφάνισης ανδρών με έλκος στομάχου. Ως παράγοντας επιρροής επιλέχθηκε η τακτική κατανάλωση γρήγορου φαγητού. Στην πρώτη ομάδα υπήρχαν 500 άνδρες που κατανάλωναν συνεχώς γρήγορο φαγητό, μεταξύ των οποίων έλκος στομάχου διαγνώστηκε σε 96 άτομα. Η δεύτερη ομάδα περιελάμβανε 500 υποστηρικτές μιας υγιεινής διατροφής, μεταξύ των οποίων διαγνώστηκε έλκος στομάχου σε 31 περιπτώσεις. Με βάση τα δεδομένα που ελήφθησαν, δημιουργήθηκε ο ακόλουθος πίνακας έκτακτης ανάγκης:


ΚΡΙΤΗΡΙΟ ΣΥΣΧΕΤΙΣΗΣ PEARSON

Η δοκιμή συσχέτισης Pearson είναι μια παραμετρική στατιστική μέθοδος που σας επιτρέπει να προσδιορίσετε την παρουσία ή την απουσία μιας γραμμικής σχέσης μεταξύ δύο ποσοτικών δεικτών, καθώς και να αξιολογήσετε την εγγύτητα και τη στατιστική της σημασία. Με άλλα λόγια, το τεστ συσχέτισης Pearson σάς επιτρέπει να προσδιορίσετε εάν ένας δείκτης αλλάζει (αυξάνεται ή μειώνεται) ως απόκριση σε αλλαγές σε έναν άλλο; Σε στατιστικούς υπολογισμούς και συμπεράσματα, ο συντελεστής συσχέτισης συνήθως συμβολίζεται ως r xy ή R xy .

1. Ιστορικό ανάπτυξης του κριτηρίου συσχέτισης

Το τεστ συσχέτισης Pearson αναπτύχθηκε από μια ομάδα Βρετανών επιστημόνων με επικεφαλής τον Καρλ Πίρσον(1857-1936) στη δεκαετία του '90 του 19ου αιώνα, για να απλοποιηθεί η ανάλυση της συνδιακύμανσης δύο τυχαίων μεταβλητών. Εκτός από τον Karl Pearson, εργάστηκε και το τεστ συσχέτισης του Pearson Φράνσις Έτζγουορθκαι Ραφαέλ Ουέλντον.

2. Σε τι χρησιμεύει το τεστ συσχέτισης Pearson;

Το κριτήριο συσχέτισης Pearson σάς επιτρέπει να προσδιορίσετε ποια είναι η εγγύτητα (ή η ισχύς) της συσχέτισης μεταξύ δύο δεικτών που μετρώνται σε ποσοτική κλίμακα. Με τη βοήθεια πρόσθετων υπολογισμών, μπορείτε επίσης να προσδιορίσετε πόσο στατιστικά σημαντική είναι η προσδιορισμένη σχέση.

Για παράδειγμα, χρησιμοποιώντας το κριτήριο συσχέτισης Pearson, μπορεί κανείς να απαντήσει στο ερώτημα εάν υπάρχει σχέση μεταξύ της θερμοκρασίας του σώματος και της περιεκτικότητας σε λευκοκύτταρα στο αίμα σε οξείες αναπνευστικές λοιμώξεις, μεταξύ του ύψους και του βάρους του ασθενούς, μεταξύ της περιεκτικότητας σε φθόριο. στο πόσιμο νερό και η συχνότητα εμφάνισης τερηδόνας στον πληθυσμό.

3. Προϋποθέσεις και περιορισμοί σχετικά με τη χρήση του πειράματος chi-square του Pearson

  1. Συγκρίσιμοι δείκτες θα πρέπει να μετρώνται σε ποσοτική κλίμακα (για παράδειγμα, καρδιακός ρυθμός, θερμοκρασία σώματος, αριθμός λευκοκυττάρων ανά 1 ml αίματος, συστολική αρτηριακή πίεση).
  2. Μέσω του κριτηρίου συσχέτισης Pearson, είναι δυνατός ο προσδιορισμός μόνο της παρουσίας και της ισχύος μιας γραμμικής σχέσης μεταξύ των μεγεθών. Άλλα χαρακτηριστικά της σχέσης, συμπεριλαμβανομένης της κατεύθυνσης (άμεση ή αντίστροφη), η φύση των αλλαγών (ευθείες ή καμπυλόγραμμες), καθώς και η εξάρτηση μιας μεταβλητής από μια άλλη, προσδιορίζονται χρησιμοποιώντας ανάλυση παλινδρόμησης.
  3. Ο αριθμός των τιμών που θα συγκριθούν πρέπει να είναι ίσος με δύο. Στην περίπτωση ανάλυσης της σχέσης τριών ή περισσότερων παραμέτρων, θα πρέπει να χρησιμοποιήσετε τη μέθοδο παραγοντική ανάλυση.
  4. Το τεστ συσχέτισης Pearson είναι παραμετρικό και ως εκ τούτου προϋπόθεση για την εφαρμογή του είναι η κανονική κατανομή καθεμιάς από τις συγκρίσιμες μεταβλητές. Εάν είναι απαραίτητο να πραγματοποιηθεί μια ανάλυση συσχέτισης δεικτών των οποίων η κατανομή διαφέρει από την κανονική, συμπεριλαμβανομένων εκείνων που μετρώνται σε τακτική κλίμακα, θα πρέπει να χρησιμοποιηθεί Συντελεστής συσχέτισης βαθμού Spearman.
  5. Είναι απαραίτητο να γίνει σαφής διάκριση μεταξύ των εννοιών της εξάρτησης και της συσχέτισης. Η εξάρτηση των τιμών καθορίζει την ύπαρξη συσχέτισης μεταξύ τους, αλλά όχι το αντίστροφο.

Για παράδειγμα, η ανάπτυξη ενός παιδιού εξαρτάται από την ηλικία του, δηλαδή όσο μεγαλύτερο είναι το παιδί τόσο πιο ψηλό είναι. Αν πάρουμε δύο παιδιά διαφορετικών ηλικιών, τότε με μεγάλο βαθμό πιθανότητας η ανάπτυξη του μεγαλύτερου παιδιού θα είναι μεγαλύτερη από αυτή του μικρότερου. Αυτό το φαινόμενο ονομάζεται εξάρτηση, υπονοώντας μια αιτιώδη σχέση μεταξύ των δεικτών. Φυσικά, υπάρχει και συσχέτιση μεταξύ τους, δηλαδή οι αλλαγές σε έναν δείκτη συνοδεύονται από αλλαγές σε έναν άλλο δείκτη.

Σε μια άλλη περίπτωση, εξετάστε τη σχέση μεταξύ της ανάπτυξης του παιδιού και του καρδιακού παλμού (HR). Όπως γνωρίζετε, και οι δύο αυτές τιμές εξαρτώνται άμεσα από την ηλικία, επομένως, στις περισσότερες περιπτώσεις, τα παιδιά μεγαλύτερου ύψους (και επομένως μεγαλύτερης ηλικίας) θα έχουν χαμηλότερες τιμές καρδιακών παλμών. Δηλαδή θα παρατηρηθεί συσχέτιση και μπορεί να έχει αρκετά υψηλή στεγανότητα. Ωστόσο, αν πάρουμε παιδιά της ίδιας ηλικίας αλλά διαφορετικού ύψους, τότε, πιθανότατα, ο καρδιακός ρυθμός τους θα διαφέρει ασήμαντα και επομένως μπορούμε να συμπεράνουμε ότι ο καρδιακός ρυθμός είναι ανεξάρτητος από την ανάπτυξη.

Αυτό το παράδειγμα δείχνει πόσο σημαντικό είναι να γίνει διάκριση μεταξύ των εννοιών της σύνδεσης και της εξάρτησης των δεικτών, που είναι θεμελιώδεις στις στατιστικές, προκειμένου να εξαχθούν σωστά συμπεράσματα.

4. Πώς υπολογίζεται ο συντελεστής συσχέτισης Pearson;

Ο συντελεστής συσχέτισης Pearson υπολογίζεται χρησιμοποιώντας τον ακόλουθο τύπο:

5. Πώς ερμηνεύεται η τιμή του συντελεστή συσχέτισης Pearson;

Οι τιμές του συντελεστή συσχέτισης Pearson ερμηνεύονται με βάση τις απόλυτες τιμές του. Οι πιθανές τιμές του συντελεστή συσχέτισης ποικίλλουν από 0 έως ±1. Όσο μεγαλύτερη είναι η απόλυτη τιμή του r xy, τόσο μεγαλύτερη είναι η εγγύτητα της σχέσης μεταξύ των δύο μεγεθών. r xy = 0 υποδηλώνει πλήρη έλλειψη σύνδεσης. r xy = 1 - υποδηλώνει την παρουσία απόλυτης (λειτουργικής) σύνδεσης. Εάν η τιμή του κριτηρίου συσχέτισης Pearson αποδεικνυόταν μεγαλύτερη από 1 ή μικρότερη από -1, έγινε λάθος στους υπολογισμούς.

Για να εκτιμηθεί η εγγύτητα ή η ισχύς της συσχέτισης, χρησιμοποιούνται γενικά αποδεκτά κριτήρια, σύμφωνα με τα οποία οι απόλυτες τιμές του r xy< 0.3 свидетельствуют о αδύναμοςσύνδεση, τιμές r xy από 0,3 έως 0,7 - σχετικά με τη σύνδεση Μέσηςστεγανότητα, τιμές r xy > 0,7 - o ισχυρόςσυνδέσεις.

Μια πιο ακριβής εκτίμηση της ισχύος της συσχέτισης μπορεί να ληφθεί χρησιμοποιώντας τον πίνακα Chaddock:

Η αξιολόγηση της στατιστικής σημασίας του συντελεστή συσχέτισης r xy πραγματοποιείται χρησιμοποιώντας ένα τεστ t που υπολογίζεται χρησιμοποιώντας τον ακόλουθο τύπο:

Η λαμβανόμενη τιμή t r συγκρίνεται με την κρίσιμη τιμή σε ένα ορισμένο επίπεδο σημαντικότητας και τον αριθμό των βαθμών ελευθερίας n-2. Εάν το t r υπερβαίνει το t crit, τότε βγαίνει ένα συμπέρασμα σχετικά με τη στατιστική σημασία της ταυτοποιημένης συσχέτισης.

6. Παράδειγμα υπολογισμού του συντελεστή συσχέτισης Pearson

Στόχος της μελέτης ήταν να εντοπιστεί, να προσδιοριστεί η στεγανότητα και η στατιστική σημασία της συσχέτισης μεταξύ δύο ποσοτικών δεικτών: του επιπέδου τεστοστερόνης στο αίμα (Χ) και του ποσοστού μυϊκής μάζας στο σώμα (Υ). Τα αρχικά δεδομένα για ένα δείγμα που αποτελείται από 5 άτομα (n = 5) συνοψίζονται στον πίνακα:


ΚΡΙΤΗΡΙΟ SPEERMAN

Ο συντελεστής συσχέτισης κατάταξης του Spearman είναι μια μη παραμετρική μέθοδος που χρησιμοποιείται στατιστική μελέτησυνδέσεις μεταξύ φαινομένων. Σε αυτή την περίπτωση, προσδιορίζεται ο πραγματικός βαθμός παραλληλισμού μεταξύ των δύο ποσοτικών σειρών των μελετηθέντων χαρακτηριστικών και δίνεται μια εκτίμηση της στεγανότητας της καθιερωμένης σχέσης χρησιμοποιώντας έναν ποσοτικά εκφρασμένο συντελεστή.

1. Ιστορικό ανάπτυξης του συντελεστή συσχέτισης βαθμών

Αυτό το κριτήριο αναπτύχθηκε και προτάθηκε για ανάλυση συσχέτισης το 1904 Τσαρλς Έντουαρντ Σπίρμαν, Άγγλος ψυχολόγος, καθηγητής στα Πανεπιστήμια του Λονδίνου και του Τσέστερφιλντ.

2. Σε τι χρησιμεύει η αναλογία Spearman;

Ο συντελεστής συσχέτισης κατάταξης Spearman χρησιμοποιείται για τον προσδιορισμό και την αξιολόγηση της εγγύτητας της σχέσης μεταξύ δύο σειρών συγκριτικών ποσοτικών δεικτών. Σε περίπτωση που οι τάξεις των δεικτών, ταξινομημένες κατά βαθμό αύξησης ή μείωσης, στις περισσότερες περιπτώσεις συμπίπτουν (μια υψηλότερη τιμή ενός δείκτη αντιστοιχεί σε υψηλότερη τιμή ενός άλλου δείκτη - για παράδειγμα, όταν συγκρίνετε το ύψος ενός ασθενούς και το σωματικό του βάρος) , βγαίνει συμπέρασμα για την παρουσία ευθείασυσχέτιση. Εάν οι τάξεις των δεικτών έχουν την αντίθετη κατεύθυνση (μια υψηλότερη τιμή του ενός δείκτη αντιστοιχεί σε μια χαμηλότερη τιμή του άλλου - για παράδειγμα, όταν συγκρίνουμε την ηλικία και τον καρδιακό ρυθμό), τότε λένε για ΑΝΤΙΣΤΡΟΦΗδεσμούς μεταξύ δεικτών.

    Ο συντελεστής συσχέτισης Spearman έχει τις ακόλουθες ιδιότητες:
  1. Ο συντελεστής συσχέτισης μπορεί να πάρει τιμές από μείον ένα έως ένα, και στο rs=1 υπάρχει μια αυστηρά άμεση σχέση και στο rs= -1 - μια αυστηρά αντίστροφη σχέση.
  2. Εάν ο συντελεστής συσχέτισης είναι αρνητικός, τότε υπάρχει αντίστροφη σχέση, εάν είναι θετικός, τότε υπάρχει άμεση σχέση.
  3. Εάν ο συντελεστής συσχέτισης είναι ίσος με μηδέν, τότε η σχέση μεταξύ των ποσοτήτων πρακτικά απουσιάζει.
  4. Όσο πιο κοντά είναι το μέτρο του συντελεστή συσχέτισης στη μονάδα, τόσο ισχυρότερη είναι η σχέση μεταξύ των μετρούμενων τιμών.

3. Σε ποιες περιπτώσεις μπορεί να χρησιμοποιηθεί ο συντελεστής Spearman;

Λόγω του ότι ο συντελεστής είναι μέθοδος μη παραμετρικής ανάλυσης, δεν απαιτείται έλεγχος για την κανονικότητα της κατανομής.

Συγκρίσιμοι δείκτες μπορούν να μετρηθούν τόσο σε συνεχή κλίμακα (για παράδειγμα, αριθμός ερυθροκυττάρων σε 1 μl αίματος) όσο και σε τακτική κλίμακα (για παράδειγμα, σημεία αξιολόγηση από ομοτίμουςαπό 1 έως 5).

Η αποτελεσματικότητα και η ποιότητα της εκτίμησης του Spearman μειώνεται εάν η διαφορά μεταξύ των διαφορετικών τιμών οποιασδήποτε από τις μετρούμενες ποσότητες είναι αρκετά μεγάλη. Δεν συνιστάται η χρήση του συντελεστή Spearman εάν υπάρχει άνιση κατανομή των τιμών της μετρούμενης ποσότητας.

4. Πώς να υπολογίσετε την αναλογία Spearman;

Ο υπολογισμός του συντελεστή συσχέτισης κατάταξης Spearman περιλαμβάνει τα ακόλουθα βήματα:

5. Πώς ερμηνεύεται η τιμή του συντελεστή Spearman;

Όταν χρησιμοποιείται ο συντελεστής συσχέτισης κατάταξης, η εγγύτητα της σύνδεσης μεταξύ των σημάτων εκτιμάται υπό όρους, λαμβάνοντας υπόψη τις τιμές του συντελεστή μικρότερες από 0,3 - ένα σημάδι ασθενούς εγγύτητας της σύνδεσης. τιμές μεγαλύτερες από 0,3 αλλά μικρότερες από 0,7 είναι σημάδι μέτριας εγγύτητας συσχέτισης και τιμές 0,7 ή περισσότερες είναι σημάδι υψηλής εγγύτητας συσχέτισης.

Επίσης, για να εκτιμηθεί η εγγύτητα της σύνδεσης, μπορεί κανείς να χρησιμοποιήσει Ζυγαριά Chaddock.

Η στατιστική σημασία του ληφθέντος συντελεστή αξιολογείται χρησιμοποιώντας το Student's t-test. Εάν η υπολογισμένη τιμή του κριτηρίου t είναι μικρότερη από την τιμή του πίνακα για έναν δεδομένο αριθμό βαθμών ελευθερίας, η στατιστική σημασία της παρατηρούμενης σχέσης απουσιάζει. Αν περισσότερο, τότε η συσχέτιση θεωρείται στατιστικά σημαντική.


Η ΜΕΘΟΔΟΣ KOLMOGOROV-SMIRNOV

Το τεστ Kolmogorov-Smirnov είναι ένα μη παραμετρικό τεστ καλής προσαρμογής, με την κλασική έννοια, σχεδιασμένο να ελέγχει απλές υποθέσεις σχετικά με το αναλυόμενο δείγμα που ανήκει σε κάποιον γνωστό νόμο κατανομής. Η πιο γνωστή εφαρμογή αυτού του κριτηρίου είναι η δοκιμή των πληθυσμών που μελετήθηκαν για την κανονικότητα της κατανομής.

1. Ιστορία της ανάπτυξης του κριτηρίου Kolmogorov-Smirnov

Το κριτήριο Kolmogorov-Smirnov αναπτύχθηκε από Σοβιετικούς μαθηματικούς Αντρέι Νικολάεβιτς Κολμογκόροφκαι Νικολάι Βασίλιεβιτς Σμιρνόφ.
Kolmogorov A.N. (1903-1987) - Ήρωας της Σοσιαλιστικής Εργασίας, Καθηγητής της Μόσχας κρατικό Πανεπιστήμιο, Ακαδημαϊκός της Ακαδημίας Επιστημών της ΕΣΣΔ - ο μεγαλύτερος μαθηματικός του 20ου αιώνα, είναι ένας από τους ιδρυτές σύγχρονη θεωρίαπιθανότητες.
Smirnov N.V. (1900-1966) Αντεπιστέλλον Μέλος της Ακαδημίας Επιστημών της ΕΣΣΔ, ένας από τους δημιουργούς των μη παραμετρικών μεθόδων μαθηματικής στατιστικής και της θεωρίας των οριακών κατανομών στατιστικών τάξεων.

Στη συνέχεια, το τεστ καλής προσαρμογής Kolmogorov-Smirnov τροποποιήθηκε για να χρησιμοποιηθεί για τη δοκιμή πληθυσμών για κανονική κατανομή από έναν Αμερικανό στατιστικολόγο, καθηγητή στο Πανεπιστήμιο George Washington Hubert Lilliefors(Hubert Whitman Lilliefors, 1928-2008). Ο καθηγητής Lilliefors ήταν ένας από τους πρωτοπόρους στη χρήση της τεχνολογίας των υπολογιστών στους στατιστικούς υπολογισμούς.

Hubert Lilliefors

2. Σε τι χρησιμεύει το κριτήριο Kolmogorov-Smirnov;

Αυτό το κριτήριο καθιστά δυνατή την αξιολόγηση της σημασίας των διαφορών μεταξύ των κατανομών δύο δειγμάτων, συμπεριλαμβανομένης της πιθανής χρήσης του για να αξιολογηθεί εάν η κατανομή του υπό μελέτη δείγματος αντιστοιχεί στον νόμο κανονικής κατανομής.

3. Σε ποιες περιπτώσεις μπορεί να χρησιμοποιηθεί το κριτήριο Kolmogorov-Smirnov;

Το τεστ Kolmogorov-Smirnov έχει σχεδιαστεί για να ελέγχει την κανονικότητα της κατανομής των συνόλων ποσοτικών δεδομένων.

Για μεγαλύτερη αξιοπιστία των δεδομένων που λαμβάνονται, οι όγκοι των υπό εξέταση δειγμάτων θα πρέπει να είναι αρκετά μεγάλοι: n ≥ 50. Με το μέγεθος του εκτιμώμενου πληθυσμού από 25 έως 50 στοιχεία, συνιστάται η χρήση της διόρθωσης Bolshev.

4. Πώς να υπολογίσετε το κριτήριο Kolmogorov-Smirnov;

Το κριτήριο Kolmogorov-Smirnov υπολογίζεται χρησιμοποιώντας ειδικά στατιστικά προγράμματα. Βασίζεται σε στατιστικά στοιχεία της μορφής:

όπου sup S- ακριβής επάνω πρόσωποσετ S, F n- συνάρτηση κατανομής του πληθυσμού που μελετήθηκε, F(x)- συνάρτηση κανονικής κατανομής

Οι συναγόμενες τιμές πιθανότητας βασίζονται στην υπόθεση ότι ο μέσος όρος και η τυπική απόκλιση της κανονικής κατανομής είναι γνωστές εκ των προτέρων και δεν εκτιμώνται από τα δεδομένα.

Ωστόσο, στην πράξη, οι παράμετροι συνήθως υπολογίζονται απευθείας από τα δεδομένα. Σε αυτή την περίπτωση, το κριτήριο της κανονικότητας περιλαμβάνει μια σύνθετη υπόθεση («πόσο πιθανό είναι να ληφθεί μια στατιστική D δεδομένης ή μεγαλύτερης σημασίας, ανάλογα με τον μέσο όρο και τυπική απόκλισηυπολογίζεται από τα δεδομένα") και δίνονται οι πιθανότητες Lilliefors (Lilliefors, 1967).

5. Πώς ερμηνεύεται η αξία του κριτηρίου Kolmogorov-Smirnov;

Εάν D, η στατιστική Kolmogorov-Smirnov είναι σημαντική (σελ<0,05), то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.


Οι σειρές χτισμένες κατά ποσότητα, λέγονται μεταβλητή.

Η σειρά διανομής αποτελείται από επιλογές(χαρακτηριστικές αξίες) και συχνότητες(αριθμός ομάδων). Οι συχνότητες που εκφράζονται ως σχετικές τιμές (μερίδια, ποσοστά) ονομάζονται συχνότητες. Το άθροισμα όλων των συχνοτήτων ονομάζεται όγκος της σειράς διανομής.

Ανά τύπο, οι σειρές διανομής χωρίζονται σε διακεκριμένος(χτισμένο σε ασυνεχείς τιμές του χαρακτηριστικού) και διάστημα(χτισμένο σε συνεχείς τιμές χαρακτηριστικών).

Σειρά παραλλαγήςαντιπροσωπεύει δύο στήλες (ή γραμμές). ένα από τα οποία παρέχει μεμονωμένες τιμές του χαρακτηριστικού της μεταβλητής, που ονομάζονται παραλλαγές και συμβολίζονται με X. και στην άλλη - απόλυτοι αριθμοί που δείχνουν πόσες φορές (πόσο συχνά) εμφανίζεται κάθε επιλογή. Οι δείκτες της δεύτερης στήλης ονομάζονται συχνότητες και συμβολίζονται συμβατικά με f. Για άλλη μια φορά, σημειώνουμε ότι στη δεύτερη στήλη, μπορούν επίσης να χρησιμοποιηθούν σχετικοί δείκτες που χαρακτηρίζουν το μερίδιο της συχνότητας μεμονωμένων παραλλαγών στο συνολικό ποσό των συχνοτήτων. Αυτοί οι σχετικοί δείκτες ονομάζονται συχνότητες και συμβολίζονται συμβατικά με ω Το άθροισμα όλων των συχνοτήτων σε αυτή την περίπτωση είναι ίσο με ένα. Ωστόσο, οι συχνότητες μπορούν επίσης να εκφραστούν ως ποσοστό, και στη συνέχεια το άθροισμα όλων των συχνοτήτων δίνει 100%.

Εάν οι παραλλαγές της μεταβλητής σειράς εκφράζονται ως διακριτές τιμές, τότε τέτοιες σειρά παραλλαγήςλέγονται διακεκριμένος.

Για συνεχή χαρακτηριστικά, οι σειρές παραλλαγών κατασκευάζονται ως διάστημα, δηλαδή, οι τιμές του χαρακτηριστικού σε αυτά εκφράζονται "από ... έως ...". Σε αυτή την περίπτωση, οι ελάχιστες τιμές του χαρακτηριστικού σε ένα τέτοιο διάστημα ονομάζονται το κατώτερο όριο του διαστήματος και το μέγιστο - το ανώτερο όριο.

Οι σειρές μεταβλητών διαστημάτων έχουν επίσης κατασκευαστεί για διακριτά χαρακτηριστικά που ποικίλλουν σε μεγάλο εύρος. Η σειρά διαστημάτων μπορεί να είναι ίσοςκαι άνισοςδιαστήματα.

Εξετάστε πώς προσδιορίζεται η τιμή των ίσων διαστημάτων. Ας εισάγουμε τον ακόλουθο συμβολισμό:

Εγώ– τιμή διαστήματος.

- τη μέγιστη τιμή του χαρακτηριστικού για μονάδες πληθυσμού.

- την ελάχιστη τιμή του χαρακτηριστικού για μονάδες πληθυσμού.

n-τον αριθμό των κατανεμημένων ομάδων.

αν το ν είναι γνωστό.

Εάν ο αριθμός των κατανεμημένων ομάδων είναι δύσκολο να προσδιοριστεί εκ των προτέρων, τότε ο τύπος που προτάθηκε από τον Sturgess το 1926 μπορεί να προταθεί για τον υπολογισμό του βέλτιστου μεγέθους του διαστήματος με επαρκές μέγεθος πληθυσμού:

n = 1+ 3,322 log N, όπου N είναι ο αριθμός των μονάδων στον πληθυσμό.

Η τιμή των άνισων διαστημάτων καθορίζεται σε κάθε μεμονωμένη περίπτωση, λαμβάνοντας υπόψη τα χαρακτηριστικά του αντικειμένου μελέτης.

Η στατιστική κατανομή του δείγματοςκαλέστε τη λίστα των επιλογών και τις αντίστοιχες συχνότητες (ή τις σχετικές συχνότητες).

Η στατιστική κατανομή του δείγματος μπορεί να καθοριστεί με τη μορφή πίνακα, στην πρώτη στήλη του οποίου υπάρχουν επιλογές και στη δεύτερη - οι συχνότητες που αντιστοιχούν σε αυτές τις επιλογές. ni, ή σχετικές συχνότητες Πι .

Στατιστική κατανομή του δείγματος

Οι σειρές διαστήματος ονομάζονται σειρές παραλλαγών στις οποίες οι τιμές των χαρακτηριστικών που αποτελούν τη βάση του σχηματισμού τους εκφράζονται εντός ορισμένων ορίων (διαστημάτων). Οι συχνότητες σε αυτή την περίπτωση δεν αναφέρονται σε μεμονωμένες τιμές του χαρακτηριστικού, αλλά σε ολόκληρο το διάστημα.

Οι σειρές διαλειμματικής κατανομής κατασκευάζονται σύμφωνα με συνεχή ποσοτικά χαρακτηριστικά, καθώς και σύμφωνα με διακριτά χαρακτηριστικά, που ποικίλλουν σε σημαντικό εύρος.

Η σειρά διαστημάτων μπορεί να αναπαρασταθεί από τη στατιστική κατανομή του δείγματος, υποδεικνύοντας τα διαστήματα και τις αντίστοιχες συχνότητές τους. Σε αυτήν την περίπτωση, το άθροισμα των συχνοτήτων της παραλλαγής που έπεσε σε αυτό το διάστημα λαμβάνεται ως η συχνότητα του διαστήματος.

Κατά την ομαδοποίηση κατά ποσοτικά συνεχή χαρακτηριστικά, είναι σημαντικό να προσδιοριστεί το μέγεθος του διαστήματος.

Εκτός από τον μέσο όρο του δείγματος και τη διακύμανση του δείγματος, χρησιμοποιούνται επίσης και άλλα χαρακτηριστικά της σειράς διακύμανσης.

Μόδαονομάστε την παραλλαγή που έχει την υψηλότερη συχνότητα.

Ένα σύνολο αντικειμένων ή φαινομένων που ενώνονται με κάποιο κοινό χαρακτηριστικό ή ιδιότητα ποιοτικής ή ποσοτικής φύσης ονομάζεται αντικείμενο παρατήρησης .

Κάθε αντικείμενο στατιστικής παρατήρησης αποτελείται από ξεχωριστά στοιχεία - μονάδες παρατήρησης .

Τα αποτελέσματα της στατιστικής παρατήρησης είναι αριθμητικές πληροφορίες - δεδομένα . ΣΤΑΤΙΣΤΙΚΑ ΔΕΔΟΜΕΝΑ - πρόκειται για πληροφορίες σχετικά με το ποιες αξίες έχει λάβει το χαρακτηριστικό που ενδιαφέρει τον ερευνητή στον στατιστικό πληθυσμό.

Εάν οι τιμές ενός χαρακτηριστικού εκφράζονται ως αριθμοί, τότε το χαρακτηριστικό καλείται ποσοτικός .

Εάν ένα χαρακτηριστικό χαρακτηρίζει κάποια ιδιότητα ή κατάσταση των στοιχείων του πληθυσμού, τότε το χαρακτηριστικό καλείται ποιότητα .

Εάν όλα τα στοιχεία του πληθυσμού υπόκεινται σε μελέτη (συνεχής παρατήρηση), τότε ο στατιστικός πληθυσμός ονομάζεται γενικός.

Εάν ένα μέρος των στοιχείων του γενικού πληθυσμού υπόκειται σε έρευνα, τότε ονομάζεται στατιστικός πληθυσμός επιλεκτικός (επιλεκτικός) . Ένα δείγμα από τον πληθυσμό λαμβάνεται τυχαία, έτσι ώστε καθένα από τα n μέλη του δείγματος να έχει ίσες πιθανότητες να επιλεγεί.

Οι τιμές του χαρακτηριστικού αλλάζουν (μεταβλητές) όταν μετακινούνται από ένα στοιχείο του πληθυσμού σε άλλο, επομένως, στις στατιστικές, ονομάζονται επίσης διαφορετικές τιμές του χαρακτηριστικού επιλογές . Οι επιλογές συνήθως υποδηλώνονται με μικρά λατινικά γράμματα x, y, z.

Ο τακτικός αριθμός της παραλλαγής (χαρακτηριστική τιμή) ονομάζεται τάξη . x 1 - 1η επιλογή (1η τιμή του χαρακτηριστικού), x 2 - 2η επιλογή (2η τιμή του χαρακτηριστικού), x i - i-η επιλογή (i-η τιμή του χαρακτηριστικού).

Μια σειρά από τιμές χαρακτηριστικών (επιλογές) ταξινομημένες σε αύξουσα ή φθίνουσα σειρά με τα αντίστοιχα βάρη τους ονομάζεται σειρά παραλλαγής (σειρά διανομής).

Οπως και Ζυγός εμφανίζονται συχνότητες ή συχνότητες.

Συχνότητα(m i) δείχνει πόσες φορές εμφανίζεται αυτή ή εκείνη η παραλλαγή (τιμή χαρακτηριστικού) στον στατιστικό πληθυσμό.

Συχνότητα ή σχετική συχνότητα(w i) δείχνει ποια αναλογία των μονάδων πληθυσμού έχει τη μία ή την άλλη παραλλαγή. Η συχνότητα υπολογίζεται ως ο λόγος της συχνότητας μιας ή άλλης παραλλαγής προς το άθροισμα όλων των συχνοτήτων της σειράς.

. (6.1)

Το άθροισμα όλων των συχνοτήτων είναι 1.

. (6.2)

Οι μεταβλητές σειρές είναι διακριτές και διαλειμματικές.

Σειρά διακριτών παραλλαγώνσυνήθως κατασκευάζονται στην περίπτωση που οι τιμές του υπό μελέτη χαρακτηριστικού μπορεί να διαφέρουν μεταξύ τους κατά τουλάχιστον κάποια πεπερασμένη τιμή.

Σε διακριτές μεταβλητές σειρές, καθορίζονται οι σημειακές τιμές ενός χαρακτηριστικού.

Η γενική άποψη της σειράς διακριτών παραλλαγών φαίνεται στον Πίνακα 6.1.

Πίνακας 6.1

όπου i = 1, 2, …, μεγάλο.

Σε σειρές μεταβολών διαστήματος σε κάθε διάστημα, διακρίνονται τα άνω και κάτω όρια του διαστήματος.

Η διαφορά μεταξύ των άνω και κάτω ορίων του διαστήματος ονομάζεται διαφορά διαστήματος ή το μήκος (μέγεθος) του διαστήματος .

Η τιμή του πρώτου διαστήματος k 1 καθορίζεται από τον τύπο:

k 1 = α 2 - α 1;

δεύτερο: k 2 = α 3 - α 2; …

τελευταία: k l = α λ - α λ -1 .

Γενικά διαφορά διαστήματοςΤο k i υπολογίζεται με τον τύπο:

k i \u003d x i (μέγ.) - x i (ελάχ.) . (6.3)

Αν ένα διάστημα έχει και τα δύο όρια, τότε καλείται κλειστό .

Το πρώτο και το τελευταίο διαστήματα μπορεί να είναι Άνοιξε , δηλ. έχουν μόνο ένα σύνορο.

Για παράδειγμα, το πρώτο διάστημα μπορεί να οριστεί ως "έως 100", το δεύτερο - "100-110", ... , το προτελευταίο - "190-200", το τελευταίο - "200 και περισσότερα". Είναι προφανές ότι το πρώτο διάστημα δεν έχει κάτω όριο και το τελευταίο δεν έχει άνω όριο, και τα δύο είναι ανοιχτά.

Συχνά τα ανοιχτά διαστήματα πρέπει να κλείνουν υπό όρους. Για να γίνει αυτό, συνήθως η τιμή του πρώτου διαστήματος λαμβάνεται ίση με την τιμή του δεύτερου και η τιμή του τελευταίου - η τιμή του προτελευταίου. Στο παράδειγμά μας, η τιμή του δεύτερου διαστήματος είναι 110-100=10, επομένως, το κατώτερο όριο του πρώτου διαστήματος υπό όρους θα είναι 100-10=90. η τιμή του προτελευταίου διαστήματος είναι 200-190=10, επομένως, το ανώτερο όριο του τελευταίου διαστήματος θα είναι συμβατικά 200+10=210.

Επιπλέον, μπορεί να προκύψουν διαστήματα διαφορετικών μηκών στη σειρά διακυμάνσεων διαστήματος. Εάν τα διαστήματα στη σειρά παραλλαγών έχουν το ίδιο μήκος (διαφορά διαστήματος), καλούνται ίσο σε μέγεθος , σε διαφορετική περίπτωση - άνισος.

Κατά την κατασκευή μιας σειράς παραλλαγής διαστήματος, συχνά προκύπτει το πρόβλημα της επιλογής του μεγέθους των διαστημάτων (διαφορά διαστήματος).

Για να προσδιορίσετε το βέλτιστο μέγεθος των διαστημάτων (σε περίπτωση που μια σειρά κατασκευάζεται με ίσα διαστήματα), εφαρμόστε Φόρμουλα Sturges:

, (6.4)

όπου n είναι ο αριθμός των πληθυσμιακών μονάδων,

x (max) και x (min) - οι μεγαλύτερες και μικρότερες τιμές των παραλλαγών της σειράς.

Για τον χαρακτηρισμό των μεταβλητών σειρών, μαζί με τις συχνότητες και τις συχνότητες, χρησιμοποιούνται οι συσσωρευμένες συχνότητες και συχνότητες.

Αθροιστικές συχνότητες (Συχνότητες)Δείξτε πόσες μονάδες του πληθυσμού (ποιο μέρος τους) δεν υπερβαίνουν μια δεδομένη τιμή (επιλογή) x.

Συσσωρευμένες συχνότητες ( v i) σύμφωνα με τα δεδομένα διακριτής σειράς μπορούν να υπολογιστούν χρησιμοποιώντας τον ακόλουθο τύπο:

. (6.5)

Για μια σειρά μεταβολών διαστήματος, αυτό είναι το άθροισμα των συχνοτήτων (συχνοτήτων) όλων των διαστημάτων που δεν υπερβαίνουν αυτό.

Μια διακριτή μεταβλητή σειρά μπορεί να αναπαρασταθεί γραφικά χρησιμοποιώντας πολυγωνική κατανομή συχνοτήτων ή συχνοτήτων.

Κατά την κατασκευή ενός πολυγώνου διανομής, οι τιμές του χαρακτηριστικού (επιλογές) σχεδιάζονται κατά μήκος του άξονα της τετμημένης και οι συχνότητες ή οι συχνότητες σχεδιάζονται κατά μήκος του άξονα τεταγμένων. Στη διασταύρωση των χαρακτηριστικών τιμών και των αντίστοιχων συχνοτήτων τους (συχνότητες), σχεδιάζονται σημεία, τα οποία, με τη σειρά τους, συνδέονται με τμήματα. Η διακεκομμένη γραμμή που προκύπτει έτσι ονομάζεται πολύγωνο της κατανομής των συχνοτήτων (συχνότητες).

x k
x2
x 1 x i


Ρύζι. 6.1.

Οι σειρές μεταβλητών διαστήματος μπορούν να αναπαρασταθούν γραφικά χρησιμοποιώντας ιστογράμματα, δηλ. ραβδόγραμμα.

Κατά την κατασκευή ενός ιστογράμματος κατά μήκος της τετμημένης, απεικονίζονται οι τιμές του υπό μελέτη χαρακτηριστικού (όρια διαστημάτων).

Σε περίπτωση που τα διαστήματα είναι του ίδιου μεγέθους, οι συχνότητες ή οι συχνότητες μπορούν να απεικονιστούν κατά μήκος του άξονα y.

Εάν τα διαστήματα έχουν διαφορετικές τιμές, είναι απαραίτητο να σχεδιάσετε τις τιμές της απόλυτης ή σχετικής πυκνότητας κατανομής κατά μήκος του άξονα y.

Απόλυτη πυκνότητα- ο λόγος της συχνότητας του διαστήματος προς το μέγεθος του διαστήματος:

; (6.6)

όπου: f(a) i - απόλυτη πυκνότητα του διαστήματος i-ου.

m i - συχνότητα του διαστήματος i-ου.

k i - η τιμή του διαστήματος i-ου (διαφορά διαστήματος).

Η απόλυτη πυκνότητα δείχνει πόσες μονάδες πληθυσμού είναι ανά μοναδιαίο διάστημα.

Σχετική πυκνότητα- ο λόγος της συχνότητας του διαστήματος προς το μέγεθος του διαστήματος:

; (6.7)

όπου: f(o) i - σχετική πυκνότητα του διαστήματος i-ου.

w i - συχνότητα του διαστήματος i-ου.

Η σχετική πυκνότητα δείχνει ποιο μέρος των μονάδων πληθυσμού εμπίπτει στη μονάδα διαστήματος.

α λ
ένα 1 x i
Α2

Τόσο οι διακριτές όσο και οι σειρές διαλειμματικής παραλλαγής μπορούν να αναπαρασταθούν γραφικά ως αθροιστικά και λογικά.

Κατά την κατασκευή σωρεύεταιΣύμφωνα με τα δεδομένα διακριτής σειράς, η τετμημένη δείχνει τις τιμές του χαρακτηριστικού (επιλογές) και η τεταγμένη δείχνει τις συσσωρευμένες συχνότητες ή συχνότητες. Στη διασταύρωση των τιμών του χαρακτηριστικού (επιλογές) και των συσσωρευμένων συχνοτήτων (συχνοτήτων) που αντιστοιχούν σε αυτά, κατασκευάζονται σημεία, τα οποία, με τη σειρά τους, συνδέονται με τμήματα ή μια καμπύλη. Η διακεκομμένη γραμμή (καμπύλη) που προκύπτει έτσι ονομάζεται αθροιστική (αθροιστική καμπύλη).

Κατά την κατασκευή του αθροίσματος σύμφωνα με τα δεδομένα της σειράς διαστημάτων, τα όρια των διαστημάτων σχεδιάζονται κατά μήκος της τετμημένης. Τα τετμημένα των σημείων είναι τα ανώτερα όρια των διαστημάτων. Οι τεταγμένες σχηματίζουν τις συσσωρευμένες συχνότητες (συχνότητες) των αντίστοιχων διαστημάτων. Συχνά προστίθεται ένα ακόμη σημείο, η τετμημένη του οποίου είναι το κατώτερο όριο του πρώτου διαστήματος και η τεταγμένη είναι μηδέν. Συνδέοντας τα σημεία με τμήματα ή μια καμπύλη, παίρνουμε τη σώρευση.

Ογκίβακατασκευάζεται παρόμοια με τη συσσώρευση με τη μόνη διαφορά ότι τα σημεία που αντιστοιχούν στις συσσωρευμένες συχνότητες (συχνότητες) σχεδιάζονται στον άξονα της τετμημένης και οι χαρακτηριστικές τιμές (επιλογές) σχεδιάζονται κατά μήκος του άξονα τεταγμένων.

Ως αποτέλεσμα της κατάκτησης αυτού του κεφαλαίου, ο μαθητής πρέπει: ξέρω

  • δείκτες διακύμανσης και η σχέση τους·
  • βασικοί νόμοι κατανομής χαρακτηριστικών.
  • την ουσία των κριτηρίων συναίνεσης· έχω την δυνατότητα να
  • Υπολογίστε τα ποσοστά διακύμανσης και καλής προσαρμογής.
  • προσδιορίζει τα χαρακτηριστικά των διανομών·
  • να αξιολογήσει τα κύρια αριθμητικά χαρακτηριστικά των σειρών στατιστικής κατανομής.

το δικό

  • μέθοδοι στατιστικής ανάλυσης σειρών διανομής.
  • βασικά της ανάλυσης διασποράς?
  • μέθοδοι ελέγχου των σειρών στατιστικής διανομής ως προς τη συμμόρφωση με τους βασικούς νόμους της διανομής.

Δείκτες διακύμανσης

Στη στατιστική μελέτη των χαρακτηριστικών διαφόρων στατιστικών πληθυσμών, έχει μεγάλο ενδιαφέρον να μελετηθεί η παραλλαγή του χαρακτηριστικού των επιμέρους στατιστικών μονάδων του πληθυσμού, καθώς και η φύση της κατανομής των μονάδων σύμφωνα με αυτό το χαρακτηριστικό. Παραλλαγή -Αυτές είναι οι διαφορές στις επιμέρους τιμές του χαρακτηριστικού μεταξύ των μονάδων του πληθυσμού που μελετήθηκε. Η μελέτη της παραλλαγής έχει μεγάλη πρακτική σημασία. Με τον βαθμό διακύμανσης, μπορεί κανείς να κρίνει τα όρια της παραλλαγής του χαρακτηριστικού, την ομοιογένεια του πληθυσμού για αυτό το χαρακτηριστικό, την τυπικότητα του μέσου όρου, τη σχέση των παραγόντων που καθορίζουν την παραλλαγή. Οι δείκτες διακύμανσης χρησιμοποιούνται για τον χαρακτηρισμό και την ταξινόμηση των στατιστικών πληθυσμών.

Τα αποτελέσματα της σύνοψης και της ομαδοποίησης των υλικών στατιστικής παρατήρησης, που καταρτίζονται με τη μορφή στατιστικών σειρών κατανομής, αντιπροσωπεύουν μια διατεταγμένη κατανομή των μονάδων του υπό μελέτη πληθυσμού σε ομάδες σύμφωνα με ένα χαρακτηριστικό ομαδοποίησης (μεταβλητή). Εάν ένα ποιοτικό χαρακτηριστικό λαμβάνεται ως βάση για την ομαδοποίηση, τότε ονομάζεται μια τέτοια σειρά διανομής προσδιοριστικό(κατανομή ανά επάγγελμα, φύλο, χρώμα κ.λπ.). Εάν η σειρά διανομής είναι χτισμένη σε ποσοτική βάση, τότε μια τέτοια σειρά ονομάζεται μεταβλητή(κατανομή ανά ύψος, βάρος, μισθούς κ.λπ.). Για να δημιουργήσετε μια σειρά παραλλαγών σημαίνει να διατάξετε την ποσοτική κατανομή των μονάδων πληθυσμού σύμφωνα με τις χαρακτηριστικές τιμές, να μετρήσετε τον αριθμό των πληθυσμιακών μονάδων με αυτές τις τιμές (συχνότητα), να τακτοποιήσετε τα αποτελέσματα σε έναν πίνακα.

Αντί για τη συχνότητα μιας παραλλαγής, είναι δυνατό να χρησιμοποιηθεί η αναλογία της προς τον συνολικό όγκο των παρατηρήσεων, η οποία ονομάζεται συχνότητα (σχετική συχνότητα).

Υπάρχουν δύο τύποι σειρών παραλλαγών: η διακριτή και η διαλειμματική. Διακριτές σειρές- Πρόκειται για μια τέτοια μεταβλητή σειρά, η κατασκευή της οποίας βασίζεται σε σήματα με ασυνεχή αλλαγή (διακριτά σημάδια). Οι τελευταίες περιλαμβάνουν τον αριθμό των εργαζομένων στην επιχείρηση, την κατηγορία μισθού, τον αριθμό των παιδιών στην οικογένεια κ.λπ. Μια διακριτή μεταβλητή σειρά είναι ένας πίνακας που αποτελείται από δύο στήλες. Η πρώτη στήλη υποδεικνύει τη συγκεκριμένη τιμή του χαρακτηριστικού και η δεύτερη - τον αριθμό των μονάδων πληθυσμού με μια συγκεκριμένη τιμή του χαρακτηριστικού. Εάν ένα σημάδι έχει μια συνεχή αλλαγή (το ποσό του εισοδήματος, η εργασιακή εμπειρία, το κόστος των πάγιων περιουσιακών στοιχείων μιας επιχείρησης κ.λπ., το οποίο, εντός ορισμένων ορίων, μπορεί να λάβει οποιεσδήποτε τιμές), τότε για αυτό το ζώδιο είναι δυνατό να κατασκευαστεί σειρές παραλλαγής διαστήματος.Ο πίνακας κατά την κατασκευή μιας σειράς παραλλαγής διαστήματος έχει επίσης δύο στήλες. Το πρώτο δείχνει την τιμή του χαρακτηριστικού στο διάστημα "από - έως" (επιλογές), το δεύτερο - τον αριθμό των μονάδων που περιλαμβάνονται στο διάστημα (συχνότητα). Συχνότητα (συχνότητα επανάληψης) - ο αριθμός των επαναλήψεων μιας συγκεκριμένης παραλλαγής των τιμών των χαρακτηριστικών. Τα διαστήματα μπορούν να είναι κλειστά και ανοιχτά. Τα κλειστά διαστήματα είναι περιορισμένα και από τις δύο πλευρές, δηλ. έχουν ένα περίγραμμα και κάτω ("από") και πάνω ("προς"). Τα ανοιχτά διαστήματα έχουν οποιοδήποτε περίγραμμα: είτε πάνω είτε κάτω. Εάν οι επιλογές είναι διατεταγμένες σε αύξουσα ή φθίνουσα σειρά, τότε οι σειρές καλούνται κατατάσσονται.

Για μεταβλητές σειρές, υπάρχουν δύο τύποι επιλογών απόκρισης συχνότητας: αθροιστική συχνότητα και αθροιστική συχνότητα. Η αθροιστική συχνότητα δείχνει πόσες παρατηρήσεις πήρε η τιμή του χαρακτηριστικού σε τιμές μικρότερες από την καθορισμένη τιμή. Η αθροιστική συχνότητα καθορίζεται αθροίζοντας τις τιμές της χαρακτηριστικής συχνότητας για μια δεδομένη ομάδα με όλες τις συχνότητες των προηγούμενων ομάδων. Η συσσωρευμένη συχνότητα χαρακτηρίζει το ποσοστό των μονάδων παρατήρησης στις οποίες οι τιμές του χαρακτηριστικού δεν υπερβαίνουν το ανώτερο όριο της ομάδας ημερών. Έτσι, η συσσωρευμένη συχνότητα δείχνει το ειδικό βάρος της παραλλαγής στο σύνολο, το οποίο έχει τιμή όχι μεγαλύτερη από τη δεδομένη. Η συχνότητα, η συχνότητα, οι απόλυτες και οι σχετικές πυκνότητες, η αθροιστική συχνότητα και η συχνότητα είναι χαρακτηριστικά του μεγέθους της παραλλαγής.

Οι παραλλαγές στο πρόσημο των στατιστικών μονάδων του πληθυσμού, καθώς και η φύση της κατανομής, μελετώνται χρησιμοποιώντας δείκτες και χαρακτηριστικά της σειράς διακύμανσης, που περιλαμβάνουν το μέσο επίπεδο της σειράς, τη μέση γραμμική απόκλιση, την τυπική απόκλιση, τη διασπορά , συντελεστές ταλάντωσης, διακύμανση, ασυμμετρία, κύρτωση κ.λπ.

Οι μέσες τιμές χρησιμοποιούνται για τον χαρακτηρισμό του κέντρου διανομής. Ο μέσος όρος είναι ένα γενικευμένο στατιστικό χαρακτηριστικό, στο οποίο ποσοτικοποιείται το τυπικό επίπεδο ενός χαρακτηριστικού που κατέχουν μέλη του υπό μελέτη πληθυσμού. Ωστόσο, μπορεί να υπάρχουν περιπτώσεις όπου τα αριθμητικά μέσα συμπίπτουν με διαφορετική φύση της κατανομής, επομένως, ως στατιστικά χαρακτηριστικά της σειράς διακύμανσης, υπολογίζονται οι λεγόμενοι δομικοί μέσοι όροι - τρόπος, διάμεσος, καθώς και ποσοστά που διαιρούν την κατανομή σειρές σε ίσα μέρη (τεταρτημόριο, δεκατιανό, εκατοστημόριο, κ.λπ.). ).

Μόδα -αυτή είναι η τιμή του χαρακτηριστικού που εμφανίζεται πιο συχνά στη σειρά διανομής από τις άλλες τιμές του. Για διακριτές σειρές, αυτή είναι η παραλλαγή με την υψηλότερη συχνότητα. Στις σειρές μεταβλητών διαστημάτων, για να προσδιοριστεί ο τρόπος λειτουργίας, είναι απαραίτητο πρώτα από όλα να προσδιοριστεί το διάστημα στο οποίο βρίσκεται, το λεγόμενο τροπικό διάστημα. Σε μια μεταβλητή σειρά με ίσα διαστήματα, το τροπικό διάστημα καθορίζεται από την υψηλότερη συχνότητα, σε σειρές με άνισα διαστήματα - αλλά από την υψηλότερη πυκνότητα κατανομής. Στη συνέχεια, για να προσδιορίσετε τη λειτουργία σε σειρές με ίσα διαστήματα, εφαρμόστε τον τύπο

όπου το Mo είναι η αξία της μόδας. x Mo - το κατώτερο όριο του διαστήματος των τρόπων μεταφοράς. h-πλάτος τροπικού διαστήματος. / Mo - τροπική συχνότητα διαστήματος. / Mo j - συχνότητα του προ-τροπικού διαστήματος. / Mo+1 είναι η συχνότητα του μετατροπικού διαστήματος και για μια σειρά με άνισα διαστήματα σε αυτόν τον τύπο υπολογισμού, αντί για τις συχνότητες / Mo, / Mo, / Mo, θα πρέπει να χρησιμοποιούνται πυκνότητες κατανομής Μυαλό 0 _| , Μυαλό 0> UMO+"

Εάν υπάρχει μόνο ένας τρόπος, τότε η κατανομή πιθανότητας τυχαία μεταβλητήονομάζεται μονοτροπικό. εάν υπάρχουν περισσότεροι από ένας τρόποι, ονομάζεται πολυτροπικός (πολυτροπικός, πολυτροπικός), στην περίπτωση δύο τρόπων - διτροπικός. Κατά κανόνα, η πολυτροπικότητα υποδηλώνει ότι η υπό μελέτη κατανομή δεν ακολουθεί τον κανονικό νόμο διανομής. Οι ομοιογενείς πληθυσμοί, κατά κανόνα, χαρακτηρίζονται από μονοτροπικές κατανομές. Το Multivertex υποδεικνύει επίσης την ετερογένεια του πληθυσμού που μελετήθηκε. Η εμφάνιση δύο ή περισσότερων κορυφών καθιστά απαραίτητη την ανασυγκρότηση των δεδομένων προκειμένου να απομονωθούν πιο ομοιογενείς ομάδες.

Σε μια σειρά παραλλαγής διαστήματος, η λειτουργία μπορεί να προσδιοριστεί γραφικά χρησιμοποιώντας ένα ιστόγραμμα. Για να γίνει αυτό, σχεδιάζονται δύο τεμνόμενες γραμμές από τα πάνω σημεία της υψηλότερης στήλης του ιστογράμματος έως τα επάνω σημεία δύο γειτονικών στηλών. Στη συνέχεια, από το σημείο της τομής τους, κατεβαίνει μια κάθετη προς τον άξονα της τετμημένης. Η τιμή χαρακτηριστικού στην τετμημένη που αντιστοιχεί στην κάθετο είναι ο τρόπος λειτουργίας. Σε πολλές περιπτώσεις, όταν ο πληθυσμός χαρακτηρίζεται ως γενικευμένος δείκτης, προτιμάται ο τρόπος λειτουργίας και όχι ο αριθμητικός μέσος όρος.

διάμεσος -Αυτή είναι η κεντρική τιμή του χαρακτηριστικού· κατέχεται από το κεντρικό μέλος της σειράς κατάταξης διανομής. Σε διακριτές σειρές, για να βρεθεί η τιμή της διάμεσης τιμής, προσδιορίζεται πρώτα ο αύξων αριθμός της. Για να γίνει αυτό, με έναν περιττό αριθμό μονάδων, προστίθεται μία στο άθροισμα όλων των συχνοτήτων, ο αριθμός διαιρείται με δύο. Εάν υπάρχει ένας ζυγός αριθμός στη σειρά, θα υπάρχουν δύο διάμεσοι, οπότε στην περίπτωση αυτή η διάμεσος ορίζεται ως ο μέσος όρος των τιμών των δύο διάμεσων μονάδων. Έτσι, η διάμεσος σε μια διακριτή μεταβλητή σειρά είναι η τιμή που χωρίζει τη σειρά σε δύο μέρη που περιέχουν τον ίδιο αριθμό επιλογών.

Στη σειρά διαστημάτων, μετά τον προσδιορισμό του τακτικού αριθμού της διάμεσης τιμής, το διάμεσο διάστημα βρίσκεται από τις συσσωρευμένες συχνότητες (συχνότητες) και στη συνέχεια, χρησιμοποιώντας τον τύπο για τον υπολογισμό της διάμεσης τιμής, προσδιορίζεται η τιμή της ίδιας της διάμεσης:

όπου το Me είναι η τιμή της διάμεσης τιμής. x Εγώ -το κατώτερο όριο του μέσου διαστήματος· h-διάμεσο πλάτος διαστήματος. - το άθροισμα των συχνοτήτων της σειράς διανομής. /D - η συσσωρευμένη συχνότητα του προ-μέσου διαστήματος. / Me - η συχνότητα του διάμεσου διαστήματος.

Η διάμεσος μπορεί να βρεθεί γραφικά χρησιμοποιώντας τη συσσώρευση. Για να γίνει αυτό, στην κλίμακα των συσσωρευμένων συχνοτήτων (συχνοτήτων) του αθροίσματος, από το σημείο που αντιστοιχεί στον τακτικό αριθμό της διάμεσης, σχεδιάζεται μια ευθεία γραμμή παράλληλη προς τον άξονα της τετμημένης έως ότου τέμνεται με τη συσσώρευση. Περαιτέρω, από το σημείο τομής της υποδεικνυόμενης ευθείας με τη σώρευση, μια κάθετη χαμηλώνεται στον άξονα της τετμημένης. Η τιμή του χαρακτηριστικού στον άξονα x που αντιστοιχεί στην σχεδιασμένη τεταγμένη (κάθετη) είναι η διάμεσος.

Η διάμεσος χαρακτηρίζεται από τις ακόλουθες ιδιότητες.

  • 1. Δεν εξαρτάται από αυτές τις τιμές χαρακτηριστικών που βρίσκονται και στις δύο πλευρές του.
  • 2. Έχει την ιδιότητα της ελάχιστης, που σημαίνει ότι το άθροισμα των απόλυτων αποκλίσεων των τιμών των χαρακτηριστικών από τη διάμεσο είναι η ελάχιστη τιμή σε σύγκριση με την απόκλιση των τιμών των χαρακτηριστικών από οποιαδήποτε άλλη τιμή.
  • 3. Όταν συνδυάζονται δύο κατανομές με γνωστές διαμέσους, είναι αδύνατο να προβλεφθεί εκ των προτέρων η διάμεση τιμή της νέας κατανομής.

Αυτές οι ιδιότητες της διάμεσης τιμής χρησιμοποιούνται ευρέως στον σχεδιασμό της θέσης σημείων μαζικής εξυπηρέτησης - σχολεία, κλινικές, βενζινάδικα, αντλίες νερού κ.λπ. Για παράδειγμα, εάν σχεδιάζεται να χτιστεί μια πολυκλινική σε μια συγκεκριμένη συνοικία της πόλης, τότε είναι πιο σκόπιμο να τοποθετηθεί σε ένα σημείο της συνοικίας που διχοτομεί όχι το μήκος της συνοικίας, αλλά τον αριθμό των κατοίκων.

Ο λόγος του τρόπου λειτουργίας, του μέσου όρου και του αριθμητικού μέσου όρου υποδεικνύει τη φύση της κατανομής του χαρακτηριστικού στο σύνολο, σας επιτρέπει να αξιολογήσετε τη συμμετρία της κατανομής. Αν ένα x Me τότε υπάρχει μια δεξιόστροφη ασυμμετρία της σειράς. Με κανονική κατανομή Χ -Εγώ - Μο.

Ο K. Pearson, με βάση την ευθυγράμμιση διαφόρων τύπων καμπυλών, προσδιόρισε ότι για μέτρια ασύμμετρες κατανομές, ισχύουν οι ακόλουθες κατά προσέγγιση σχέσεις μεταξύ του αριθμητικού μέσου όρου, του μέσου όρου και του τρόπου λειτουργίας:

όπου το Me είναι η τιμή της διάμεσης τιμής. Mo - αξία μόδας; x arithm - η τιμή του αριθμητικού μέσου όρου.

Εάν υπάρχει ανάγκη να μελετηθεί λεπτομερέστερα η δομή της σειράς παραλλαγών, τότε υπολογίζονται οι χαρακτηριστικές τιμές, παρόμοιες με τη διάμεσο. Τέτοιες τιμές χαρακτηριστικών διαιρούν όλες τις μονάδες διανομής σε ίσους αριθμούς, ονομάζονται τεταρτημόρια ή διαβαθμίσεις. Τα ποσοστά υποδιαιρούνται σε τεταρτημόρια, δεκαδικά, εκατοστημόρια κ.λπ.

Τα τεταρτημόρια χωρίζουν τον πληθυσμό σε τέσσερα ίσα μέρη. Το πρώτο τεταρτημόριο υπολογίζεται παρόμοια με τη διάμεσο χρησιμοποιώντας τον τύπο για τον υπολογισμό του πρώτου τεταρτημορίου, έχοντας προηγουμένως προσδιοριστεί το πρώτο τριμηνιαίο διάστημα:

όπου Qi είναι η τιμή του πρώτου τεταρτημορίου. xQ^-το κατώτερο όριο του πρώτου τεταρτημορίου. η- πλάτος του πρώτου τριμηνιαίου διαστήματος. /, - συχνότητες της σειράς διαστημάτων.

Συσσωρευμένη συχνότητα στο διάστημα που προηγείται του πρώτου τεταρτημορίου. Jq ( - συχνότητα του πρώτου τεταρτημορίου.

Το πρώτο τεταρτημόριο δείχνει ότι το 25% των μονάδων πληθυσμού είναι μικρότερες από την αξία του και το 75% είναι περισσότερες. Το δεύτερο τεταρτημόριο είναι ίσο με το διάμεσο, δηλ. Q2 =μου.

Κατ' αναλογία, υπολογίζεται το τρίτο τεταρτημόριο, έχοντας προηγουμένως βρεθεί το τρίτο τρίμηνο:

πού είναι το κατώτερο όριο του διαστήματος τρίτου τεταρτημορίου; η- πλάτος του διαστήματος τρίτου τεταρτημορίου. /, - συχνότητες της σειράς διαστημάτων. /Χ"-συσσωρευμένη συχνότητα στο προηγούμενο διάστημα

σολ

τρίτο τεταρτημόριο διάστημα? Jq - συχνότητα του τρίτου τεταρτημορίου.

Το τρίτο τεταρτημόριο δείχνει ότι το 75% των μονάδων πληθυσμού είναι μικρότερες από την αξία του και το 25% είναι περισσότερες.

Η διαφορά μεταξύ του τρίτου και του πρώτου τεταρτημορίου είναι το μεσοτεταρτημόριο:

όπου Aq είναι η τιμή του διατεταρτημορίου διαστήματος. Ε 3 -την τιμή του τρίτου τεταρτημορίου· Q, - η τιμή του πρώτου τεταρτημορίου.

Τα δεκατιανά χωρίζουν τον πληθυσμό σε 10 ίσα μέρη. Ένα δεκαδικό είναι μια τιμή ενός χαρακτηριστικού σε μια σειρά διανομής που αντιστοιχεί στα δέκατα του πληθυσμού. Κατ' αναλογία με τα τεταρτημόρια, το πρώτο δεκαημέριο δείχνει ότι το 10% των μονάδων πληθυσμού είναι μικρότερες από την τιμή του και το 90% είναι περισσότερο, και το ένατο δεκαημέριο αποκαλύπτει ότι το 90% των μονάδων πληθυσμού είναι μικρότερες από την αξία του και το 10% είναι περισσότερο. Η αναλογία του ένατου και του πρώτου δεκατιανού, δηλ. συντελεστής δεκατημίου, που χρησιμοποιείται ευρέως στη μελέτη της διαφοροποίησης του εισοδήματος για τη μέτρηση της αναλογίας των επιπέδων εισοδήματος του 10% του πλουσιότερου πληθυσμού και του 10% του λιγότερο πλούσιου πληθυσμού. Οι εκατοστιαίες μονάδες διαιρούν τον ταξινομημένο πληθυσμό σε 100 ίσα μέρη. Ο υπολογισμός, η έννοια και η χρήση των εκατοστημόνων είναι παρόμοια με τα δεκατιανά.

Τα τεταρτημόρια, τα δεκατιανά και άλλα δομικά χαρακτηριστικά μπορούν να προσδιοριστούν γραφικά κατ' αναλογία με τη διάμεσο χρησιμοποιώντας τη σώρευση.

Για τη μέτρηση του μεγέθους της παραλλαγής, χρησιμοποιούνται οι ακόλουθοι δείκτες: το εύρος διακύμανσης, η μέση γραμμική απόκλιση, η τυπική απόκλιση και η διακύμανση. Το μέγεθος του εύρους διακύμανσης εξαρτάται εξ ολοκλήρου από την τυχαιότητα της κατανομής των ακραίων μελών της σειράς. Αυτός ο δείκτης παρουσιάζει ενδιαφέρον σε περιπτώσεις όπου είναι σημαντικό να γνωρίζουμε ποιο είναι το εύρος των διακυμάνσεων στις τιμές του χαρακτηριστικού:

όπου R-την τιμή του εύρους διακύμανσης· x max - η μέγιστη τιμή του χαρακτηριστικού. x tt -την ελάχιστη τιμή του χαρακτηριστικού.

Κατά τον υπολογισμό του εύρους διακύμανσης, δεν λαμβάνεται υπόψη η τιμή της συντριπτικής πλειοψηφίας των μελών της σειράς, ενώ η διακύμανση σχετίζεται με κάθε τιμή του μέλους σειράς. Αυτή η έλλειψη στερείται δεικτών που είναι μέσοι όροι που λαμβάνονται από τις αποκλίσεις των τιμών μεμονωμένων χαρακτηριστικών από τη μέση τιμή τους: τη μέση γραμμική απόκλιση και την τυπική απόκλιση. Υπάρχει άμεση σχέση μεταξύ των επιμέρους αποκλίσεων από τον μέσο όρο και της διακύμανσης ενός συγκεκριμένου χαρακτηριστικού. Όσο ισχυρότερη είναι η μεταβλητότητα, τόσο μεγαλύτερο είναι το απόλυτο μέγεθος των αποκλίσεων από τον μέσο όρο.

Η μέση γραμμική απόκλιση είναι ο αριθμητικός μέσος όρος των απόλυτων τιμών των αποκλίσεων μεμονωμένων επιλογών από τη μέση τιμή τους.

Μέση γραμμική απόκλιση για μη ομαδοποιημένα δεδομένα

όπου / pr - η τιμή της μέσης γραμμικής απόκλισης. x, - - την τιμή του χαρακτηριστικού. Χ - Π -αριθμός πληθυσμιακών μονάδων.

Ομαδοποιημένη σειρά Μέση Γραμμική Απόκλιση

όπου / vz - η τιμή της μέσης γραμμικής απόκλισης. x, - η τιμή του χαρακτηριστικού. Χ -τη μέση τιμή του χαρακτηριστικού για τον πληθυσμό που μελετήθηκε· / - ο αριθμός των πληθυσμιακών μονάδων σε μια ξεχωριστή ομάδα.

Τα σημάδια απόκλισης αγνοούνται σε αυτήν την περίπτωση, διαφορετικά το άθροισμα όλων των αποκλίσεων θα είναι ίσο με μηδέν. Η μέση γραμμική απόκλιση ανάλογα με την ομαδοποίηση των αναλυόμενων δεδομένων υπολογίζεται χρησιμοποιώντας διαφορετικούς τύπους: για ομαδοποιημένα και μη ομαδοποιημένα δεδομένα. Η μέση γραμμική απόκλιση, λόγω των όρων της, χωριστά από άλλους δείκτες διακύμανσης, χρησιμοποιείται σχετικά σπάνια στην πράξη (ιδίως για να χαρακτηριστεί η εκπλήρωση των συμβατικών υποχρεώσεων ως προς την ομοιομορφία της προσφοράς· στην ανάλυση του κύκλου εργασιών εξωτερικό εμπόριο, η σύνθεση των εργαζομένων, ο ρυθμός παραγωγής, η ποιότητα των προϊόντων, λαμβάνοντας υπόψη τα τεχνολογικά χαρακτηριστικά της παραγωγής κ.λπ.).

Η τυπική απόκλιση χαρακτηρίζει πόσο αποκλίνουν κατά μέσο όρο οι μεμονωμένες τιμές του υπό μελέτη χαρακτηριστικού από τη μέση τιμή για τον πληθυσμό και εκφράζεται σε μονάδες του υπό μελέτη χαρακτηριστικού. Η τυπική απόκλιση, ως ένα από τα κύρια μέτρα διακύμανσης, χρησιμοποιείται ευρέως για την αξιολόγηση των ορίων της παραλλαγής ενός χαρακτηριστικού σε έναν ομοιογενή πληθυσμό, για τον προσδιορισμό των τιμών των τεταγμένων της καμπύλης κανονικής κατανομής, καθώς και υπολογισμούς που σχετίζονται με την οργάνωση της παρατήρησης του δείγματος και τον καθορισμό της ακρίβειας των χαρακτηριστικών του δείγματος. Η τυπική απόκλιση για μη ομαδοποιημένα δεδομένα υπολογίζεται σύμφωνα με τον ακόλουθο αλγόριθμο: κάθε απόκλιση από τον μέσο όρο τετράγωνεται, όλα τα τετράγωνα αθροίζονται και μετά το άθροισμα των τετραγώνων διαιρείται με τον αριθμό των όρων της σειράς και η τετραγωνική ρίζα λαμβάνεται από το πηλίκο:

όπου ένα Iip - η τιμή της τυπικής απόκλισης. Xj-τιμή χαρακτηριστικού? Χ- τη μέση τιμή του χαρακτηριστικού για τον πληθυσμό που μελετήθηκε. Π -αριθμός πληθυσμιακών μονάδων.

Για ομαδοποιημένα αναλυμένα δεδομένα, η τυπική απόκλιση των δεδομένων υπολογίζεται χρησιμοποιώντας τον σταθμισμένο τύπο

όπου - την τιμή της τυπικής απόκλισης· Xj-τιμή χαρακτηριστικού? Χ -τη μέση τιμή του χαρακτηριστικού για τον πληθυσμό που μελετήθηκε· fx-τον αριθμό των πληθυσμιακών μονάδων σε μια συγκεκριμένη ομάδα.

Η έκφραση κάτω από τη ρίζα και στις δύο περιπτώσεις ονομάζεται διακύμανση. Έτσι, η διακύμανση υπολογίζεται ως το μέσο τετράγωνο των αποκλίσεων των τιμών των χαρακτηριστικών από τη μέση τιμή τους. Για μη σταθμισμένες (απλές) τιμές χαρακτηριστικών, η διακύμανση ορίζεται ως εξής:

Για σταθμισμένες χαρακτηριστικές τιμές

Υπάρχει επίσης ένας ειδικός απλοποιημένος τρόπος υπολογισμού της διακύμανσης: σε γενικούς όρους

για μη σταθμισμένες (απλές) τιμές χαρακτηριστικών για σταθμισμένες χαρακτηριστικές τιμές
χρησιμοποιώντας τη μέθοδο μέτρησης από το μηδέν υπό όρους

όπου a 2 - η τιμή της διασποράς. x, - - την τιμή του χαρακτηριστικού. Χ -η μέση τιμή του χαρακτηριστικού, h-τιμή διαστήματος ομάδας, t 1 -βάρος (Α =

Η διασπορά έχει μια ανεξάρτητη έκφραση στα στατιστικά στοιχεία και είναι ένα από τα βασικούς δείκτεςπαραλλαγές. Μετριέται σε μονάδες που αντιστοιχούν στο τετράγωνο των μονάδων μέτρησης του υπό μελέτη χαρακτηριστικού.

Η διασπορά έχει τις ακόλουθες ιδιότητες.

  • 1. Η διασπορά μιας σταθερής τιμής είναι μηδέν.
  • 2. Η μείωση όλων των τιμών του χαρακτηριστικού κατά την ίδια τιμή του A δεν αλλάζει την τιμή της διακύμανσης. Αυτό σημαίνει ότι το μέσο τετράγωνο των αποκλίσεων μπορεί να υπολογιστεί όχι από τις δεδομένες τιμές του χαρακτηριστικού, αλλά από τις αποκλίσεις τους από κάποιο σταθερό αριθμό.
  • 3. Μείωση όλων των τιμών του χαρακτηριστικού σε κφορές μειώνει τη διασπορά μέσα κ 2 φορές, και η τυπική απόκλιση - μέσα κφορές, δηλ. όλες οι τιμές χαρακτηριστικών μπορούν να διαιρεθούν με κάποιο σταθερό αριθμό (ας πούμε, με την τιμή του διαστήματος της σειράς), να υπολογίσετε την τυπική απόκλιση και στη συνέχεια να την πολλαπλασιάσετε με έναν σταθερό αριθμό.
  • 4. Αν υπολογίσουμε το μέσο τετράγωνο των αποκλίσεων από οποιαδήποτε τιμή Και στοδιαφέρει σε κάποιο βαθμό από τον αριθμητικό μέσο όρο, τότε θα είναι πάντα μεγαλύτερος από το μέσο τετράγωνο των αποκλίσεων που υπολογίζονται από τον αριθμητικό μέσο όρο. Σε αυτήν την περίπτωση, το μέσο τετράγωνο των αποκλίσεων θα είναι μεγαλύτερο κατά μια καλά καθορισμένη τιμή - κατά το τετράγωνο της διαφοράς μεταξύ του μέσου όρου και αυτής της τιμής που λαμβάνεται υπό όρους.

Η παραλλαγή ενός εναλλακτικού χαρακτηριστικού είναι η παρουσία ή η απουσία της υπό μελέτη ιδιότητας στις μονάδες του πληθυσμού. Ποσοτικά, η παραλλαγή ενός εναλλακτικού χαρακτηριστικού εκφράζεται με δύο τιμές: η παρουσία της υπό μελέτη ιδιότητας σε μια μονάδα συμβολίζεται με ένα (1) και η απουσία της συμβολίζεται με μηδέν (0). Η αναλογία των μονάδων που έχουν την υπό μελέτη ιδιότητα συμβολίζεται με P και η αναλογία των μονάδων που δεν έχουν αυτήν την ιδιότητα συμβολίζεται με ΣΟΛ.Έτσι, η διακύμανση ενός εναλλακτικού χαρακτηριστικού είναι ίση με το γινόμενο της αναλογίας των μονάδων που έχουν μια δεδομένη ιδιότητα (P) με την αναλογία των μονάδων που δεν έχουν αυτήν την ιδιότητα (ΣΟΛ).Η μεγαλύτερη διακύμανση του πληθυσμού επιτυγχάνεται σε περιπτώσεις όπου ένα μέρος του πληθυσμού, που είναι το 50% του συνολικού όγκου του πληθυσμού, έχει ένα χαρακτηριστικό και το άλλο μέρος του πληθυσμού, επίσης ίσο με 50%, δεν έχει αυτό χαρακτηριστικό, ενώ η διακύμανση φτάνει σε μέγιστη τιμή 0,25, m .e. P = 0,5, G= 1 - P \u003d 1 - 0,5 \u003d 0,5 και o 2 \u003d 0,5 0,5 \u003d 0,25. Το κατώτερο όριο αυτού του δείκτη είναι ίσο με μηδέν, το οποίο αντιστοιχεί σε μια κατάσταση στην οποία δεν υπάρχει διακύμανση στο σύνολο. Η πρακτική εφαρμογή της διακύμανσης ενός εναλλακτικού χαρακτηριστικού είναι η δημιουργία διαστημάτων εμπιστοσύνης κατά τη διεξαγωγή μιας παρατήρησης δείγματος.

Όσο μικρότερη είναι η διακύμανση και η τυπική απόκλιση, τόσο πιο ομοιογενής είναι ο πληθυσμός και τόσο πιο τυπικός θα είναι ο μέσος όρος. Στην πρακτική της στατιστικής, καθίσταται συχνά απαραίτητο να συγκρίνονται παραλλαγές διαφόρων χαρακτηριστικών. Για παράδειγμα, είναι ενδιαφέρον να συγκρίνουμε τις διακυμάνσεις στην ηλικία των εργαζομένων και τα προσόντα τους, τη διάρκεια υπηρεσίας και τους μισθούς, το κόστος και το κέρδος, τη διάρκεια υπηρεσίας και την παραγωγικότητα της εργασίας κ.λπ. Για τέτοιες συγκρίσεις, οι δείκτες της απόλυτης μεταβλητότητας των χαρακτηριστικών είναι ακατάλληλοι: είναι αδύνατο να συγκριθεί η μεταβλητότητα της εργασιακής εμπειρίας, εκφρασμένη σε χρόνια, με τη διακύμανση των μισθών, εκφρασμένη σε ρούβλια. Για να πραγματοποιηθούν τέτοιες συγκρίσεις, καθώς και συγκρίσεις της διακύμανσης του ίδιου χαρακτηριστικού σε πολλούς πληθυσμούς με διαφορετικά αριθμητικά μέσα, χρησιμοποιούνται δείκτες διακύμανσης - ο συντελεστής ταλάντωσης, ο γραμμικός συντελεστής διακύμανσης και ο συντελεστής διακύμανσης, που δείχνουν το μέτρο διακυμάνσεις ακραίων τιμών γύρω από τον μέσο όρο.

Συντελεστής ταλάντωσης:

όπου V R -την τιμή του συντελεστή ταλάντωσης· R- την τιμή του εύρους διακύμανσης. Χ -

Γραμμικός συντελεστής διακύμανσης».

όπου vj-την τιμή του γραμμικού συντελεστή διακύμανσης· ΕΓΩ-την τιμή της μέσης γραμμικής απόκλισης· Χ -η μέση τιμή του χαρακτηριστικού για τον υπό μελέτη πληθυσμό.

Ο συντελεστής διακύμανσης:

όπου Va-την τιμή του συντελεστή διακύμανσης· α - η τιμή της τυπικής απόκλισης. Χ -η μέση τιμή του χαρακτηριστικού για τον υπό μελέτη πληθυσμό.

Ο συντελεστής ταλάντωσης είναι το ποσοστό του εύρους διακύμανσης προς τη μέση τιμή του υπό μελέτη χαρακτηριστικού και ο γραμμικός συντελεστής διακύμανσης είναι ο λόγος της μέσης γραμμικής απόκλισης προς τη μέση τιμή του υπό μελέτη χαρακτηριστικού, εκφρασμένος ως ποσοστό. Ο συντελεστής διακύμανσης είναι το ποσοστό της τυπικής απόκλισης στη μέση τιμή του υπό μελέτη χαρακτηριστικού. Ως σχετική τιμή, εκφρασμένη ως ποσοστό, ο συντελεστής διακύμανσης χρησιμοποιείται για τη σύγκριση του βαθμού διακύμανσης διαφόρων χαρακτηριστικών. Χρησιμοποιώντας τον συντελεστή διακύμανσης, υπολογίζεται η ομοιογένεια του στατιστικού πληθυσμού. Εάν ο συντελεστής διακύμανσης είναι μικρότερος από 33%, τότε ο υπό μελέτη πληθυσμός είναι ομοιογενής και η διακύμανση είναι ασθενής. Εάν ο συντελεστής διακύμανσης είναι μεγαλύτερος από 33%, τότε ο υπό μελέτη πληθυσμός είναι ετερογενής, η διακύμανση είναι ισχυρή και η μέση τιμή είναι άτυπη και δεν μπορεί να χρησιμοποιηθεί ως γενικευμένος δείκτης αυτού του πληθυσμού. Επιπλέον, οι συντελεστές διακύμανσης χρησιμοποιούνται για τη σύγκριση της διακύμανσης ενός χαρακτηριστικού σε διαφορετικούς πληθυσμούς. Για παράδειγμα, για την αξιολόγηση της διακύμανσης στη διάρκεια της υπηρεσίας των εργαζομένων σε δύο επιχειρήσεις. Όσο μεγαλύτερη είναι η τιμή του συντελεστή, τόσο πιο σημαντική είναι η διακύμανση του χαρακτηριστικού.

Με βάση τα υπολογισμένα τεταρτημόρια, είναι επίσης δυνατός ο υπολογισμός του σχετικού δείκτη τριμηνιαίας διακύμανσης χρησιμοποιώντας τον τύπο

όπου Q 2 και

Το εύρος των τεταρτημορίων καθορίζεται από τον τύπο

Η απόκλιση τεταρτημορίου χρησιμοποιείται αντί για το εύρος διακύμανσης για να αποφευχθούν τα μειονεκτήματα που σχετίζονται με τη χρήση ακραίων τιμών:

Για σειρές μεταβλητών άνισων διαστημάτων, υπολογίζεται επίσης η πυκνότητα κατανομής. Ορίζεται ως το πηλίκο της αντίστοιχης συχνότητας ή συχνότητας διαιρεμένο με την τιμή του διαστήματος. Σε σειρές άνισων διαστημάτων, χρησιμοποιούνται απόλυτη και σχετική πυκνότητα κατανομής. Η απόλυτη πυκνότητα κατανομής είναι η συχνότητα ανά μονάδα μήκους του διαστήματος. Σχετική πυκνότητα κατανομής - η συχνότητα ανά μονάδα μήκους του διαστήματος.

Όλα τα παραπάνω ισχύουν για τις σειρές διανομής, ο νόμος κατανομής των οποίων περιγράφεται καλά κανονικός νόμοςδιανομής ή κοντά σε αυτήν.

Το σύνολο των τιμών της παραμέτρου που μελετήθηκε σε ένα δεδομένο πείραμα ή παρατήρηση, που ταξινομείται κατά μέγεθος (αύξηση ή μείωση) ονομάζεται σειρά μεταβολών.

Ας υποθέσουμε ότι μετρήσαμε την αρτηριακή πίεση σε δέκα ασθενείς για να λάβουμε ένα ανώτερο όριο ΑΠ: συστολική πίεση, δηλ. μόνο ένας αριθμός.

Φανταστείτε ότι μια σειρά από παρατηρήσεις (στατιστικός πληθυσμός) της αρτηριακής συστολικής πίεσης σε 10 παρατηρήσεις έχει την ακόλουθη μορφή (Πίνακας 1):

Τραπέζι 1

Τα συστατικά μιας μεταβλητής σειράς ονομάζονται παραλλαγές. Οι παραλλαγές αντιπροσωπεύουν την αριθμητική τιμή του χαρακτηριστικού που μελετάται.

Η κατασκευή μιας μεταβλητής σειράς από ένα στατιστικό σύνολο παρατηρήσεων είναι μόνο το πρώτο βήμα προς την κατανόηση των χαρακτηριστικών ολόκληρου του συνόλου. Στη συνέχεια, είναι απαραίτητο να προσδιοριστεί το μέσο επίπεδο του μελετημένου ποσοτικού χαρακτηριστικού (το μέσο επίπεδο πρωτεΐνης στο αίμα, το μέσο βάρος των ασθενών, ο μέσος χρόνος έναρξης της αναισθησίας κ.λπ.)

Το μέσο επίπεδο μετριέται χρησιμοποιώντας κριτήρια που ονομάζονται μέσοι όροι. Η μέση τιμή είναι ένα γενικευτικό αριθμητικό χαρακτηριστικό ποιοτικά ομοιογενών τιμών, που χαρακτηρίζει με έναν αριθμό ολόκληρο τον στατιστικό πληθυσμό σύμφωνα με ένα χαρακτηριστικό. Η μέση τιμή εκφράζει τη γενική που είναι χαρακτηριστικό ενός χαρακτηριστικού σε ένα δεδομένο σύνολο παρατηρήσεων.

Υπάρχουν τρεις τύποι μέσων όρων σε κοινή χρήση: τρόπος λειτουργίας (), διάμεσος () και αριθμητικός μέσος όρος ().

Για να προσδιορίσετε οποιαδήποτε μέση τιμή, είναι απαραίτητο να χρησιμοποιήσετε τα αποτελέσματα μεμονωμένων παρατηρήσεων, γράφοντάς τα με τη μορφή μιας σειράς παραλλαγών (Πίνακας 2).

Μόδα- την τιμή που εμφανίζεται πιο συχνά σε μια σειρά παρατηρήσεων. Στο παράδειγμά μας, mode = 120. Εάν δεν υπάρχουν επαναλαμβανόμενες τιμές στη σειρά παραλλαγών, τότε λένε ότι δεν υπάρχει λειτουργία. Εάν πολλές τιμές επαναλαμβάνονται τον ίδιο αριθμό φορές, τότε η μικρότερη από αυτές λαμβάνεται ως λειτουργία.

Διάμεσος- την τιμή που διαιρεί την κατανομή σε δύο ίσα μέρη, την κεντρική ή τη διάμεση τιμή μιας σειράς παρατηρήσεων ταξινομημένων σε αύξουσα ή φθίνουσα σειρά. Έτσι, εάν υπάρχουν 5 τιμές στη μεταβλητή σειρά, τότε η διάμεσος της είναι ίση με το τρίτο μέλος της μεταβλητής σειράς, εάν υπάρχει ζυγός αριθμός μελών στη σειρά, τότε η διάμεσος είναι ο αριθμητικός μέσος όρος των δύο της κεντρικές παρατηρήσεις, δηλ. αν υπάρχουν 10 παρατηρήσεις στη σειρά, τότε η διάμεσος είναι ίση με τον αριθμητικό μέσο όρο των 5 και 6 παρατηρήσεων. Στο παράδειγμά μας.

Σημειώστε ένα σημαντικό χαρακτηριστικό του τρόπου λειτουργίας και της διάμεσης: οι τιμές τους δεν επηρεάζονται από τις αριθμητικές τιμές των ακραίων παραλλαγών.

Αριθμητικός μέσος όροςυπολογίζεται με τον τύπο:

όπου είναι η παρατηρούμενη τιμή στην -η παρατήρηση και είναι ο αριθμός των παρατηρήσεων. Για την περίπτωσή μας.

Ο αριθμητικός μέσος όρος έχει τρεις ιδιότητες:

Το μεσαίο καταλαμβάνει τη μεσαία θέση στη σειρά παραλλαγής. Σε αυστηρά συμμετρική σειρά.

Ο μέσος όρος είναι μια γενικευμένη τιμή και οι τυχαίες διακυμάνσεις, οι διαφορές στα μεμονωμένα δεδομένα δεν είναι ορατές πίσω από τον μέσο όρο. Αντανακλά το τυπικό που είναι χαρακτηριστικό ολόκληρου του πληθυσμού.

Το άθροισμα των αποκλίσεων όλων των παραλλαγών από τον μέσο όρο είναι ίσο με μηδέν: . Υποδεικνύεται η απόκλιση της παραλλαγής από τη μέση τιμή.

Η σειρά παραλλαγών αποτελείται από παραλλαγές και τις αντίστοιχες συχνότητές τους. Από τις δέκα τιμές που ελήφθησαν, ο αριθμός 120 συναντήθηκε 6 φορές, 115 - 3 φορές, 125 - 1 φορά. Συχνότητα () - ο απόλυτος αριθμός μεμονωμένων επιλογών στον πληθυσμό, που υποδεικνύει πόσες φορές εμφανίζεται αυτή η επιλογή στη σειρά παραλλαγών.

Η σειρά παραλλαγών μπορεί να είναι απλή (συχνότητες = 1) ή ομαδοποιημένη συντομευμένη, 3-5 επιλογές η καθεμία. Χρησιμοποιείται μια απλή σειρά με μικρό αριθμό παρατηρήσεων (), ομαδοποιημένες - με μεγάλο αριθμό παρατηρήσεων ().

ΤΟ ΚΟΥΔΟΥΝΙ

Υπάρχουν εκείνοι που διαβάζουν αυτές τις ειδήσεις πριν από εσάς.
Εγγραφείτε για να λαμβάνετε τα πιο πρόσφατα άρθρα.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
Ονομα
Επώνυμο
Πώς θα θέλατε να διαβάσετε το The Bell
Χωρίς ανεπιθύμητο περιεχόμενο