ΤΟ ΚΟΥΔΟΥΝΙ

Υπάρχουν εκείνοι που διαβάζουν αυτές τις ειδήσεις πριν από εσάς.
Εγγραφείτε για να λαμβάνετε τα πιο πρόσφατα άρθρα.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
Ονομα
Επώνυμο
Πώς θα θέλατε να διαβάσετε το The Bell
Χωρίς ανεπιθύμητο περιεχόμενο

Παρέκταση είναι μέθοδος επιστημονική έρευνα, το οποίο βασίζεται στην κατανομή των τάσεων του παρελθόντος και του παρόντος, των προτύπων, των σχέσεων στη μελλοντική ανάπτυξη του αντικειμένου πρόβλεψης. Οι μέθοδοι παρέκτασης περιλαμβάνουν μέθοδος κινούμενου μέσου όρου, μέθοδος εκθετικής εξομάλυνσης, ελάχιστα τετράγωνα.

Ουσία μέθοδος ελαχίστων τετραγώνων συνίσταται στην ελαχιστοποίηση του αθροίσματος των τετραγωνικών αποκλίσεων μεταξύ των παρατηρούμενων και των υπολογισμένων τιμών. Οι υπολογισμένες τιμές βρίσκονται σύμφωνα με την επιλεγμένη εξίσωση - την εξίσωση παλινδρόμησης. Όσο μικρότερη είναι η απόσταση μεταξύ των πραγματικών τιμών και των υπολογισμένων, τόσο πιο ακριβής είναι η πρόβλεψη με βάση την εξίσωση παλινδρόμησης.

Θεωρητική ανάλυσηη ουσία του υπό μελέτη φαινομένου, η μεταβολή του οποίου εμφανίζεται από μια χρονολογική σειρά, χρησιμεύει ως βάση για την επιλογή μιας καμπύλης. Μερικές φορές λαμβάνονται υπόψη σκέψεις σχετικά με τη φύση της ανάπτυξης των επιπέδων της σειράς. Έτσι, εάν αναμένεται αύξηση της παραγωγής σε αριθμητική πρόοδος, τότε η εξομάλυνση πραγματοποιείται σε ευθεία γραμμή. Εάν αποδειχθεί ότι η ανάπτυξη είναι εκθετική, τότε η εξομάλυνση πρέπει να γίνει σύμφωνα με την εκθετική συνάρτηση.

Ο τύπος εργασίας της μεθόδου των ελαχίστων τετραγώνων : Y t+1 = a*X + b, όπου t + 1 είναι η περίοδος πρόβλεψης. Уt+1 – προβλεπόμενος δείκτης. α και β - συντελεστές. X - σύμβολο του χρόνου.

Οι συντελεστές α και β υπολογίζονται σύμφωνα με τους ακόλουθους τύπους:

όπου, Uf - οι πραγματικές τιμές της σειράς δυναμικών. n είναι ο αριθμός των επιπέδων στη χρονοσειρά.

Η εξομάλυνση των χρονοσειρών με τη μέθοδο των ελαχίστων τετραγώνων χρησιμεύει για να αντικατοπτρίζει τα πρότυπα ανάπτυξης του υπό μελέτη φαινομένου. Στην αναλυτική έκφραση μιας τάσης, ο χρόνος θεωρείται ως ανεξάρτητη μεταβλητή και τα επίπεδα της σειράς ενεργούν ως συνάρτηση αυτής της ανεξάρτητης μεταβλητής.

Η εξέλιξη ενός φαινομένου δεν εξαρτάται από το πόσα χρόνια έχουν περάσει από την αφετηρία, αλλά από το ποιοι παράγοντες επηρέασαν την εξέλιξή του, προς ποια κατεύθυνση και με ποια ένταση. Από αυτό είναι σαφές ότι η ανάπτυξη ενός φαινομένου στο χρόνο εμφανίζεται ως αποτέλεσμα της δράσης αυτών των παραγόντων.

Η σωστή ρύθμιση του τύπου της καμπύλης, του τύπου της αναλυτικής εξάρτησης από το χρόνο είναι ένα από τα πιο δύσκολα καθήκοντα της προ-προγνωστικής ανάλυσης. .

Η επιλογή του τύπου συνάρτησης που περιγράφει την τάση, οι παράμετροι της οποίας καθορίζονται με τη μέθοδο των ελαχίστων τετραγώνων, είναι στις περισσότερες περιπτώσεις εμπειρική, κατασκευάζοντας έναν αριθμό συναρτήσεων και συγκρίνοντάς τες μεταξύ τους με την τιμή του μέσου όρου της ρίζας. -τετράγωνο σφάλμα που υπολογίζεται από τον τύπο:

όπου Uf - οι πραγματικές τιμές της σειράς δυναμικών. Ur – υπολογισμένες (εξομαλυνόμενες) τιμές της χρονοσειράς. n είναι ο αριθμός των επιπέδων στη χρονοσειρά. p είναι ο αριθμός των παραμέτρων που ορίζονται στους τύπους που περιγράφουν την τάση (τάση ανάπτυξης).

Μειονεκτήματα της μεθόδου των ελαχίστων τετραγώνων :

  • όταν προσπαθεί να περιγράψει αυτό που μελετάται οικονομικό φαινόμενοΧρησιμοποιώντας μια μαθηματική εξίσωση, η πρόβλεψη θα είναι ακριβής για σύντομο χρονικό διάστημα και η εξίσωση παλινδρόμησης θα πρέπει να υπολογιστεί εκ νέου καθώς γίνονται διαθέσιμες νέες πληροφορίες.
  • την πολυπλοκότητα της επιλογής της εξίσωσης παλινδρόμησης, η οποία είναι επιλύσιμη με τη χρήση τυπικών προγραμμάτων υπολογιστή.

Ένα παράδειγμα χρήσης της μεθόδου των ελαχίστων τετραγώνων για την ανάπτυξη μιας πρόβλεψης

Εργο . Υπάρχουν στοιχεία που χαρακτηρίζουν το επίπεδο ανεργίας στην περιοχή, %

  • Κατασκευάστε μια πρόβλεψη του ποσοστού ανεργίας στην περιοχή για τους μήνες Νοέμβριο, Δεκέμβριο, Ιανουάριο, χρησιμοποιώντας τις μεθόδους: κινούμενος μέσος όρος, εκθετική εξομάλυνση, ελάχιστα τετράγωνα.
  • Υπολογίστε τα σφάλματα στις προκύπτουσες προβλέψεις χρησιμοποιώντας κάθε μέθοδο.
  • Συγκρίνετε τα αποτελέσματα που προέκυψαν, βγάλτε συμπεράσματα.

Λύση ελαχίστων τετραγώνων

Για τη λύση, θα συντάξουμε έναν πίνακα στον οποίο θα κάνουμε τους απαραίτητους υπολογισμούς:

Ας ορίσουμε το σύμβολο του χρόνου ως διαδοχική αρίθμηση των περιόδων της βάσης πρόβλεψης (στήλη 3). Υπολογίστε τις στήλες 4 και 5. Υπολογίστε τις τιμές της σειράς Ur θα καθοριστούν από τον τύπο Y t + 1 = a * X + b, όπου t + 1 είναι η περίοδος πρόβλεψης. Уt+1 – προβλεπόμενος δείκτης. α και β - συντελεστές. X - σύμβολο του χρόνου.

Οι συντελεστές α και β προσδιορίζονται από τους ακόλουθους τύπους:

όπου, Uf - οι πραγματικές τιμές της σειράς δυναμικών. n είναι ο αριθμός των επιπέδων στη χρονοσειρά.
a = / = - 0,17
b \u003d 22,13 / 10 - (-0,17) * 55 / 10 \u003d 3,15

Υπολογίζουμε το μέσο σχετικό σφάλμα χρησιμοποιώντας τον τύπο:

ε = 28,63/10 = 2,86% ακρίβεια πρόβλεψηςυψηλός.

συμπέρασμα : Σύγκριση των αποτελεσμάτων που προέκυψαν στους υπολογισμούς μέθοδος κινούμενου μέσου όρου , εκθετική εξομάλυνση και τη μέθοδο των ελαχίστων τετραγώνων, μπορούμε να πούμε ότι το μέσο σχετικό σφάλμα στους υπολογισμούς με τη μέθοδο της εκθετικής εξομάλυνσης εμπίπτει στο 20-50%. Αυτό σημαίνει ότι η ακρίβεια της πρόβλεψης σε αυτή την περίπτωση είναι μόνο ικανοποιητική.

Στην πρώτη και στην τρίτη περίπτωση, η ακρίβεια πρόβλεψης είναι υψηλή, αφού το μέσο σχετικό σφάλμα είναι μικρότερο από 10%. Αλλά η μέθοδος του κινούμενου μέσου όρου κατέστησε δυνατή την απόκτηση πιο αξιόπιστων αποτελεσμάτων (πρόβλεψη Νοεμβρίου - 1,52%, πρόβλεψη Δεκεμβρίου - 1,53%, πρόβλεψη Ιανουαρίου - 1,49%), καθώς το μέσο σχετικό σφάλμα κατά τη χρήση αυτής της μεθόδου είναι το μικρότερο - 1 ,13%.

Μέθοδος ελάχιστου τετραγώνου

Στο τελευταίο μάθημα του θέματος, θα εξοικειωθούμε με την πιο διάσημη εφαρμογή FNP, που βρίσκει την ευρύτερη εφαρμογή σε διάφορους τομείς της επιστήμης και πρακτικές δραστηριότητες. Μπορεί να είναι η φυσική, η χημεία, η βιολογία, η οικονομία, η κοινωνιολογία, η ψυχολογία και ούτω καθεξής και ούτω καθεξής. Με τη θέληση της μοίρας, συχνά πρέπει να ασχοληθώ με την οικονομία, και ως εκ τούτου σήμερα θα σας κανονίσω ένα εισιτήριο καταπληκτική χώραμε τίτλο Οικονομετρία=) … Πώς δεν το θέλεις;! Είναι πολύ καλά εκεί - απλά πρέπει να αποφασίσετε! …Αλλά αυτό που πιθανώς σίγουρα θέλετε είναι να μάθετε πώς να λύνετε προβλήματα ελάχιστα τετράγωνα. Και ιδιαίτερα οι επιμελείς αναγνώστες θα μάθουν να τα λύνουν όχι μόνο με ακρίβεια, αλλά και ΠΟΛΥ ΓΡΗΓΟΡΑ ;-) Αλλά πρώτα γενική δήλωση του προβλήματος+ σχετικό παράδειγμα:

Αφήστε τους δείκτες να μελετηθούν σε κάποια θεματική περιοχή που έχουν ποσοτική έκφραση. Ταυτόχρονα, υπάρχει κάθε λόγος να πιστεύουμε ότι ο δείκτης εξαρτάται από τον δείκτη. Αυτή η υπόθεση μπορεί να είναι και μια επιστημονική υπόθεση και να βασίζεται σε στοιχειώδη κοινή λογική. Ας αφήσουμε την επιστήμη στην άκρη, ωστόσο, και ας εξερευνήσουμε πιο ορεκτικές περιοχές - συγκεκριμένα, τα παντοπωλεία. Σημειώστε με:

– χώρος λιανικής παντοπωλείου, τ.μ.,
- ετήσιος κύκλος εργασιών ενός παντοπωλείου, εκατομμύρια ρούβλια.

Είναι ξεκάθαρο ότι όσο μεγαλύτερη είναι η έκταση του καταστήματος, τόσο μεγαλύτερος είναι ο τζίρος του στις περισσότερες περιπτώσεις.

Ας υποθέσουμε ότι μετά από παρατηρήσεις / πειράματα / υπολογισμούς / χορό με ντέφι, έχουμε στη διάθεσή μας αριθμητικά δεδομένα:

Με τα παντοπωλεία, νομίζω ότι όλα είναι ξεκάθαρα: - αυτή είναι η περιοχή του 1ου καταστήματος, - ο ετήσιος τζίρος του, - η περιοχή του 2ου καταστήματος, - ο ετήσιος τζίρος του κ.λπ. Παρεμπιπτόντως, δεν είναι καθόλου απαραίτητο να έχετε πρόσβαση σε ταξινομημένα υλικά - μια αρκετά ακριβής εκτίμηση του κύκλου εργασιών μπορεί να ληφθεί χρησιμοποιώντας μαθηματικές στατιστικές. Ωστόσο, μην αποσπάτε την προσοχή, η πορεία της εμπορικής κατασκοπείας είναι ήδη πληρωμένη =)

Τα δεδομένα πίνακα μπορούν επίσης να γραφτούν με τη μορφή σημείων και να απεικονιστούν με τον συνηθισμένο τρόπο για εμάς. Καρτεσιανό σύστημα .

Θα απαντήσουμε σημαντικό ερώτημα: πόσοι βαθμοί χρειάζονται για μια ποιοτική μελέτη;

Οσο μεγαλύτερο τόσο καλύτερα. Το ελάχιστο αποδεκτό σετ αποτελείται από 5-6 πόντους. Επιπλέον, με έναν μικρό όγκο δεδομένων, τα «μη φυσιολογικά» αποτελέσματα δεν πρέπει να περιλαμβάνονται στο δείγμα. Έτσι, για παράδειγμα, ένα μικρό κατάστημα ελίτ μπορεί να βοηθήσει τάξεις μεγέθους περισσότερο από «τους συναδέλφους τους», παραμορφώνοντας έτσι γενικό μοτίβο, που πρέπει να βρεθεί!



Αν είναι αρκετά απλό, πρέπει να επιλέξουμε μια συνάρτηση, πρόγραμμαπου περνά όσο πιο κοντά στα σημεία . Μια τέτοια συνάρτηση ονομάζεται προσεγγίζοντας (προσέγγιση - προσέγγιση)ή θεωρητική λειτουργία . Σε γενικές γραμμές, εδώ εμφανίζεται αμέσως ένας προφανής «προσποιητής» - ένα πολυώνυμο υψηλού βαθμού, η γραφική παράσταση του οποίου διέρχεται από ΟΛΑ τα σημεία. Αλλά αυτή η επιλογή είναι περίπλοκη και συχνά απλά λανθασμένη. (επειδή το γράφημα θα «ανεμίζει» συνεχώς και θα αντικατοπτρίζει ελάχιστα την κύρια τάση).

Έτσι, η επιθυμητή συνάρτηση πρέπει να είναι αρκετά απλή και ταυτόχρονα να αντικατοπτρίζει επαρκώς την εξάρτηση. Όπως μπορείτε να μαντέψετε, ονομάζεται μία από τις μεθόδους εύρεσης τέτοιων συναρτήσεων ελάχιστα τετράγωνα. Αρχικά, ας αναλύσουμε την ουσία του με γενικό τρόπο. Αφήστε κάποια συνάρτηση να προσεγγίσει τα πειραματικά δεδομένα:


Πώς να αξιολογήσετε την ακρίβεια αυτής της προσέγγισης; Ας υπολογίσουμε επίσης τις διαφορές (αποκλίσεις) μεταξύ των πειραματικών και λειτουργικών τιμών (μελετούμε το σχέδιο). Η πρώτη σκέψη που έρχεται στο μυαλό είναι να εκτιμήσουμε πόσο μεγάλο είναι το άθροισμα, αλλά το πρόβλημα είναι ότι οι διαφορές μπορεί να είναι αρνητικές. (Για παράδειγμα, ) και οι αποκλίσεις ως αποτέλεσμα μιας τέτοιας άθροισης θα αλληλοεξουδετερωθούν. Επομένως, ως εκτίμηση της ακρίβειας της προσέγγισης, προτείνει τον εαυτό της να λάβει το άθροισμα ενότητεςαποκλίσεις:

ή σε διπλωμένη μορφή: (για όσους δεν γνωρίζουν: είναι το εικονίδιο αθροίσματος και - βοηθητική μεταβλητή - "μετρητής", που παίρνει τιμές από 1 έως ) .

Προσεγγίζοντας τα πειραματικά σημεία με διαφορετικές συναρτήσεις, θα λάβουμε διαφορετικές τιμές και είναι προφανές πού είναι μικρότερο αυτό το άθροισμα - αυτή η συνάρτηση είναι πιο ακριβής.

Μια τέτοια μέθοδος υπάρχει και ονομάζεται μέθοδος ελάχιστου συντελεστή. Ωστόσο, στην πράξη έχει γίνει πολύ πιο διαδεδομένο. μέθοδος ελάχιστου τετραγώνου, όπου οι πιθανές αρνητικές τιμές εξαλείφονται όχι από το μέτρο, αλλά με τον τετραγωνισμό των αποκλίσεων:



, μετά την οποία οι προσπάθειες κατευθύνονται στην επιλογή μιας τέτοιας συνάρτησης ώστε το άθροισμα των τετραγωνικών αποκλίσεων ήταν όσο το δυνατόν μικρότερο. Στην πραγματικότητα, εξ ου και το όνομα της μεθόδου.

Και τώρα επιστρέφουμε σε ένα άλλο σημαντικό σημείο: όπως σημειώθηκε παραπάνω, η επιλεγμένη συνάρτηση θα πρέπει να είναι αρκετά απλή - αλλά υπάρχουν και πολλές τέτοιες λειτουργίες: γραμμικός , υπερβολικός , εκθετικός , λογαριθμική , τετραγωνικός και τα λοιπά. Και, φυσικά, εδώ θα ήθελα αμέσως να «μειώσω το πεδίο δραστηριότητας». Ποια κατηγορία λειτουργιών να επιλέξετε για έρευνα; Πρωτόγονη αλλά αποτελεσματική υποδοχή:

- Ο ευκολότερος τρόπος για να τραβήξετε πόντους στο σχέδιο και αναλύστε τη θέση τους. Εάν τείνουν να είναι σε ευθεία γραμμή, τότε θα πρέπει να αναζητήσετε ευθύγραμμη εξίσωση με βέλτιστες τιμές και . Με άλλα λόγια, το καθήκον είναι να βρεθούν ΤΕΤΟΙΟΙ συντελεστές - έτσι ώστε το άθροισμα των τετραγωνικών αποκλίσεων να είναι το μικρότερο.

Εάν τα σημεία βρίσκονται, για παράδειγμα, κατά μήκος υπερβολή, τότε είναι σαφές ότι η γραμμική συνάρτηση θα δώσει κακή προσέγγιση. Σε αυτή την περίπτωση, αναζητούμε τους πιο «ευνοϊκούς» συντελεστές για την εξίσωση της υπερβολής - αυτά που δίνουν το ελάχιστο άθροισμα τετραγώνων .

Προσέξτε τώρα ότι και στις δύο περιπτώσεις μιλάμε συναρτήσεις δύο μεταβλητών, των οποίων τα επιχειρήματα είναι αναζητήθηκαν επιλογές εξάρτησης:

Και στην ουσία, πρέπει να λύσουμε ένα τυπικό πρόβλημα - να βρούμε ελάχιστη συνάρτηση δύο μεταβλητών.

Θυμηθείτε το παράδειγμά μας: ας υποθέσουμε ότι τα σημεία «καταστήματος» τείνουν να βρίσκονται σε ευθεία γραμμή και υπάρχει κάθε λόγος να πιστεύουμε την παρουσία γραμμική εξάρτησηκύκλου εργασιών από την περιοχή συναλλαγών. Ας βρούμε ΤΕΤΟΙΟΥΣ συντελεστές "a" και "be" έτσι ώστε το άθροισμα των τετραγωνικών αποκλίσεων ήταν το μικρότερο. Όλα ως συνήθως - πρώτα επιμέρους παράγωγα 1ης τάξης. Σύμφωνα με κανόνας γραμμικότηταςμπορείτε να διαφοροποιήσετε ακριβώς κάτω από το εικονίδιο άθροισης:

Εάν θέλετε να χρησιμοποιήσετε αυτές τις πληροφορίες για ένα δοκίμιο ή μια εργασία όρου, θα είμαι πολύ ευγνώμων για τον σύνδεσμο στη λίστα των πηγών, δεν θα βρείτε πουθενά τόσο λεπτομερείς υπολογισμούς:

Ας φτιάξουμε ένα τυπικό σύστημα:

Μειώνουμε κάθε εξίσωση κατά ένα «δύο» και, επιπλέον, «χωρίζουμε» τα αθροίσματα:

Σημείωση : αναλύστε ανεξάρτητα γιατί το "a" και το "be" μπορούν να αφαιρεθούν από το εικονίδιο αθροίσματος. Παρεμπιπτόντως, τυπικά αυτό μπορεί να γίνει με το άθροισμα

Ας ξαναγράψουμε το σύστημα σε μια "εφαρμοσμένη" μορφή:

μετά την οποία αρχίζει να σχεδιάζεται ο αλγόριθμος για την επίλυση του προβλήματός μας:

Γνωρίζουμε τις συντεταγμένες των σημείων; Ξέρουμε. Ποσά μπορούμε να βρούμε; Εύκολα. Συνθέτουμε τα πιο απλά δύο γραμμικές εξισώσειςμε δύο αγνώστους("α" και "μπεχ"). Λύνουμε το σύστημα, για παράδειγμα, Η μέθοδος του Cramer, με αποτέλεσμα ένα ακίνητο σημείο . Ελεγχος επαρκής κατάστασηακραίο, μπορούμε να επαληθεύσουμε ότι σε αυτό το σημείο η συνάρτηση φτάνει ακριβώς ελάχιστο. Η επαλήθευση συνδέεται με πρόσθετους υπολογισμούς και επομένως θα την αφήσουμε στο παρασκήνιο. (εάν είναι απαραίτητο, μπορείτε να δείτε το πλαίσιο που λείπειΕδώ ) . Καταλήγουμε στο τελικό συμπέρασμα:

Λειτουργία ο καλύτερος τρόπος (τουλάχιστον σε σύγκριση με οποιαδήποτε άλλη γραμμική συνάρτηση)φέρνει πιο κοντά τα πειραματικά σημεία . Σε γενικές γραμμές, το γράφημά του περνά όσο το δυνατόν πιο κοντά σε αυτά τα σημεία. Στην παράδοση οικονομετρίακαλείται επίσης η συνάρτηση προσέγγισης που προκύπτει ζευγαρωμένη γραμμική εξίσωση παλινδρόμησης .

Το υπό εξέταση πρόβλημα έχει μεγάλο πρακτική αξία. Στην κατάσταση με το παράδειγμά μας, η εξίσωση σας επιτρέπει να προβλέψετε τι είδους τζίρο ("yig")θα βρίσκεται στο κατάστημα με τη μία ή την άλλη αξία της περιοχής πώλησης (η μία ή η άλλη σημασία του "x"). Ναι, η πρόβλεψη που προκύπτει θα είναι μόνο μια πρόβλεψη, αλλά σε πολλές περιπτώσεις θα αποδειχθεί αρκετά ακριβής.

Θα αναλύσω μόνο ένα πρόβλημα με «πραγματικούς» αριθμούς, αφού δεν υπάρχουν δυσκολίες σε αυτό - όλοι οι υπολογισμοί είναι στο επίπεδο του σχολικού προγράμματος σπουδών στις τάξεις 7-8. Στο 95 τοις εκατό των περιπτώσεων, θα σας ζητηθεί να βρείτε μόνο μια γραμμική συνάρτηση, αλλά στο τέλος του άρθρου θα δείξω ότι δεν είναι πιο δύσκολο να βρείτε τις εξισώσεις για τη βέλτιστη υπερβολή, τον εκθέτη και κάποιες άλλες συναρτήσεις.

Στην πραγματικότητα, μένει να διανείμετε τα καλούδια που υποσχέθηκαν - έτσι ώστε να μάθετε πώς να λύνετε τέτοια παραδείγματα όχι μόνο με ακρίβεια, αλλά και γρήγορα. Μελετάμε προσεκτικά το πρότυπο:

Εργο

Ως αποτέλεσμα της μελέτης της σχέσης μεταξύ δύο δεικτών, προέκυψαν τα ακόλουθα ζεύγη αριθμών:

Χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων, βρείτε τη γραμμική συνάρτηση που προσεγγίζει καλύτερα την εμπειρική (έμπειρος)δεδομένα. Κάντε ένα σχέδιο στο οποίο, σε ένα καρτεσιανό ορθογώνιο σύστημα συντεταγμένων, σχεδιάστε πειραματικά σημεία και μια γραφική παράσταση της συνάρτησης κατά προσέγγιση . Βρείτε το άθροισμα των τετραγωνικών αποκλίσεων μεταξύ εμπειρικών και θεωρητικές αξίες. Μάθετε αν η λειτουργία είναι καλύτερη (όσον αφορά τη μέθοδο των ελαχίστων τετραγώνων)κατά προσέγγιση πειραματικά σημεία.

Σημειώστε ότι οι τιμές "x" είναι φυσικές τιμές και αυτό έχει ένα χαρακτηριστικό νόημα, για το οποίο θα μιλήσω λίγο αργότερα. αλλά φυσικά μπορούν να είναι κλασματικά. Επιπλέον, ανάλογα με το περιεχόμενο μιας συγκεκριμένης εργασίας, και οι δύο τιμές "X" και "G" μπορεί να είναι πλήρως ή μερικώς αρνητικές. Λοιπόν, μας έχει δοθεί μια «απρόσωπη» εργασία και την ξεκινάμε λύση:

Βρίσκουμε τους συντελεστές της βέλτιστης συνάρτησης ως λύση στο σύστημα:

Για τους σκοπούς μιας πιο συμπαγούς σημειογραφίας, η μεταβλητή «counter» μπορεί να παραλειφθεί, καθώς είναι ήδη σαφές ότι η άθροιση πραγματοποιείται από το 1 έως το .

Είναι πιο βολικό να υπολογίσετε τα απαιτούμενα ποσά σε μορφή πίνακα:


Οι υπολογισμοί μπορούν να πραγματοποιηθούν σε μικροϋπολογιστή, αλλά είναι πολύ καλύτερο να χρησιμοποιείτε το Excel - τόσο πιο γρήγορα όσο και χωρίς σφάλματα. δείτε ένα σύντομο βίντεο:

Έτσι, παίρνουμε το εξής Σύστημα:

Εδώ μπορείτε να πολλαπλασιάσετε τη δεύτερη εξίσωση με 3 και αφαιρέστε το 2ο από την 1η εξίσωση όρο προς όρο. Αλλά αυτό είναι τύχη - στην πράξη, τα συστήματα συχνά δεν είναι προικισμένα και σε τέτοιες περιπτώσεις εξοικονομεί Η μέθοδος του Cramer:
, οπότε το σύστημα έχει μια μοναδική λύση.

Ας κάνουμε έναν έλεγχο. Καταλαβαίνω ότι δεν θέλω, αλλά γιατί να παραλείψετε λάθη που δεν μπορείτε να τα χάσετε; Αντικαταστήστε τη λύση που βρέθηκε στην αριστερή πλευρά κάθε εξίσωσης του συστήματος:

Προκύπτουν τα σωστά μέρη των αντίστοιχων εξισώσεων, που σημαίνει ότι το σύστημα έχει λυθεί σωστά.

Έτσι, η επιθυμητή συνάρτηση προσέγγισης: – από όλες τις γραμμικές συναρτήσειςΤα πειραματικά δεδομένα προσεγγίζονται καλύτερα από αυτό.

Διαφορετικός ευθεία εξάρτηση του τζίρου του καταστήματος από την περιοχή του, η διαπιστωθείσα εξάρτηση είναι ΑΝΤΙΣΤΡΟΦΗ (αρχή "όσο περισσότερο - τόσο λιγότερο"), και το γεγονός αυτό αποκαλύπτεται αμέσως από το αρνητικό γωνιακός συντελεστής. Λειτουργία μας πληροφορεί ότι με αύξηση ενός συγκεκριμένου δείκτη κατά 1 μονάδα, η τιμή του εξαρτημένου δείκτη μειώνεται μέση τιμήκατά 0,65 μονάδες. Όπως λένε, όσο υψηλότερη είναι η τιμή του φαγόπυρου, τόσο λιγότερο πωλείται.

Για να σχεδιάσουμε την κατά προσέγγιση συνάρτηση, βρίσκουμε δύο από τις τιμές της:

και εκτελέστε το σχέδιο:

Η κατασκευασμένη γραμμή ονομάζεται γραμμή τάσης (δηλαδή, μια γραμμική γραμμή τάσης, δηλαδή στη γενική περίπτωση, μια τάση δεν είναι απαραίτητα μια ευθεία γραμμή). Όλοι γνωρίζουν την έκφραση «to be in trend», και νομίζω ότι αυτός ο όρος δεν χρειάζεται επιπλέον σχόλια.

Υπολογίστε το άθροισμα των τετραγωνικών αποκλίσεων μεταξύ εμπειρικών και θεωρητικών αξιών. Γεωμετρικά, αυτό είναι το άθροισμα των τετραγώνων των μηκών των «βυσσινί» τμημάτων (δύο από τα οποία είναι τόσο μικρά που δεν μπορείτε καν να τα δείτε).

Ας συνοψίσουμε τους υπολογισμούς σε έναν πίνακα:


Μπορούν και πάλι να πραγματοποιηθούν χειροκίνητα, σε περίπτωση που θα δώσω ένα παράδειγμα για το 1ο σημείο:

αλλά είναι πολύ πιο αποτελεσματικό να κάνουμε τον ήδη γνωστό τρόπο:

Ας επαναλάβουμε: ποιο είναι το νόημα του αποτελέσματος;Από όλες τις γραμμικές συναρτήσειςλειτουργία ο εκθέτης είναι ο μικρότερος, δηλαδή είναι η καλύτερη προσέγγιση στην οικογένειά του. Και εδώ, παρεμπιπτόντως, το τελευταίο ερώτημα του προβλήματος δεν είναι τυχαίο: τι θα συμβεί αν η προτεινόμενη εκθετική συνάρτηση θα είναι καλύτερα να κάνουμε κατά προσέγγιση τα πειραματικά σημεία;

Ας βρούμε το αντίστοιχο άθροισμα των τετραγωνικών αποκλίσεων - για να τις ξεχωρίσω, θα τις προσδιορίσω με το γράμμα «έψιλον». Η τεχνική είναι ακριβώς η ίδια:


Και πάλι για κάθε υπολογισμό πυρκαγιάς για τον 1ο βαθμό:

Στο Excel, χρησιμοποιούμε την τυπική συνάρτηση ΛΗΞΗ (Η σύνταξη βρίσκεται στη Βοήθεια του Excel).

συμπέρασμα: , άρα η εκθετική συνάρτηση προσεγγίζει τα πειραματικά σημεία χειρότερα από την ευθεία .

Πρέπει όμως να σημειωθεί εδώ ότι το «χειρότερο» είναι δεν σημαίνει ακόμα, τι συμβαίνει. Τώρα έφτιαξα ένα γράφημα αυτής της εκθετικής συνάρτησης - και περνάει επίσης κοντά στα σημεία - τόσο πολύ που χωρίς αναλυτική μελέτη είναι δύσκολο να πούμε ποια συνάρτηση είναι πιο ακριβής.

Αυτό ολοκληρώνει τη λύση και επιστρέφω στο ζήτημα των φυσικών αξιών του επιχειρήματος. Σε διάφορες μελέτες, κατά κανόνα, οικονομικές ή κοινωνιολογικές, μήνες, χρόνια ή άλλα ίσα χρονικά διαστήματα αριθμούνται με φυσικό «Χ». Σκεφτείτε, για παράδειγμα, το ακόλουθο πρόβλημα:

Έχουμε τα ακόλουθα στοιχεία για τον τζίρο του καταστήματος λιανικής για το πρώτο εξάμηνο του έτους:

Χρησιμοποιώντας ευθεία αναλυτική στοίχιση, βρείτε τον όγκο πωλήσεων για τον Ιούλιο.

Ναι, κανένα πρόβλημα: αριθμούμε τους μήνες 1, 2, 3, 4, 5, 6 και χρησιμοποιούμε τον συνηθισμένο αλγόριθμο, ως αποτέλεσμα του οποίου λαμβάνουμε μια εξίσωση - το μόνο πράγμα όταν πρόκειται για ώρα είναι συνήθως το γράμμα "te " (αν και δεν είναι κρίσιμο). Η εξίσωση που προέκυψε δείχνει ότι το πρώτο εξάμηνο του έτους, ο κύκλος εργασιών αυξήθηκε κατά μέσο όρο 27,74 ΝΜ. κάθε μήνα. Πάρτε μια πρόβλεψη για τον Ιούλιο (μήνας #7): ΕΕ.

Και παρόμοιες εργασίες - το σκοτάδι είναι σκοτεινό. Όσοι επιθυμούν μπορούν να χρησιμοποιήσουν μια επιπλέον υπηρεσία, δηλαδή τη δική μου Αριθμομηχανή Excel (έκδοση επίδειξης), οι οποίες λύνει το πρόβλημα σχεδόν αμέσως!Η λειτουργική έκδοση του προγράμματος είναι διαθέσιμη σε αντάλλαγμαή για συμβολική πληρωμή.

Στο τέλος του μαθήματος, μια σύντομη ενημέρωση σχετικά με την εύρεση εξαρτήσεων ορισμένων άλλων τύπων. Στην πραγματικότητα, δεν υπάρχει τίποτα ιδιαίτερο να πούμε, καθώς η θεμελιώδης προσέγγιση και ο αλγόριθμος λύσης παραμένουν οι ίδιοι.

Ας υποθέσουμε ότι η θέση των πειραματικών σημείων μοιάζει με υπερβολή. Στη συνέχεια, για να βρείτε τους συντελεστές της καλύτερης υπερβολής, πρέπει να βρείτε το ελάχιστο της συνάρτησης - όσοι επιθυμούν μπορούν να πραγματοποιήσουν λεπτομερείς υπολογισμούς και να καταλήξουν σε ένα παρόμοιο σύστημα:

Από τυπική τεχνική άποψη, λαμβάνεται από το «γραμμικό» σύστημα (ας το σημειώσουμε με αστερίσκο)αντικαθιστώντας το "x" με . Λοιπόν, τα ποσά υπολογίστε, μετά τους βέλτιστους συντελεστές "a" και "be" στο χέρι.

Αν υπάρχει κάθε λόγος να πιστεύουμε ότι τα σημεία διατάσσονται κατά μήκος μιας λογαριθμικής καμπύλης, στη συνέχεια για αναζήτηση των βέλτιστων τιμών και εύρεση του ελάχιστου της συνάρτησης . Επίσημα, στο σύστημα (*) θα πρέπει να αντικατασταθεί από:

Κατά τον υπολογισμό στο Excel, χρησιμοποιήστε τη συνάρτηση LN. Ομολογώ ότι δεν θα μου είναι δύσκολο να δημιουργήσω αριθμομηχανές για κάθε μία από τις περιπτώσεις που εξετάζουμε, αλλά και πάλι θα είναι καλύτερο να «προγραμματίσεις» μόνος σου τους υπολογισμούς. Οδηγίες βίντεο για βοήθεια.

Με την εκθετική εξάρτηση, η κατάσταση είναι ελαφρώς πιο περίπλοκη. Για να μειωθεί το θέμα σε γραμμική περίπτωση, πάρτε τον λογάριθμο της συνάρτησης και χρησιμοποιήστε ιδιότητες του λογαρίθμου:

Τώρα, συγκρίνοντας τη συνάρτηση που προκύπτει με τη γραμμική συνάρτηση, καταλήγουμε στο συμπέρασμα ότι στο σύστημα (*) πρέπει να αντικατασταθεί από , και - από . Για ευκολία, αναφέρουμε:

Λάβετε υπόψη ότι το σύστημα επιλύεται σε σχέση με και , και επομένως, αφού βρείτε τις ρίζες, δεν πρέπει να ξεχάσετε να βρείτε τον ίδιο τον συντελεστή.

Για να προσεγγίσετε πειραματικά σημεία βέλτιστη παραβολή , θα πρέπει να βρεθεί τουλάχιστον μια συνάρτηση τριών μεταβλητών . Αφού εκτελέσουμε τυπικές ενέργειες, έχουμε την ακόλουθη "εργασία" Σύστημα:

Ναι, φυσικά, υπάρχουν περισσότερα ποσά εδώ, αλλά δεν υπάρχουν καθόλου δυσκολίες όταν χρησιμοποιείτε την αγαπημένη σας εφαρμογή. Και τέλος, θα σας πω πώς να ελέγξετε γρήγορα χρησιμοποιώντας το Excel και να δημιουργήσετε την επιθυμητή γραμμή τάσης: δημιουργήστε ένα διάγραμμα διασποράς, επιλέξτε οποιοδήποτε από τα σημεία με το ποντίκι και κάντε δεξί κλικ στην επιλογή επιλογής "Προσθήκη γραμμής τάσης". Στη συνέχεια, επιλέξτε τον τύπο του γραφήματος και στην καρτέλα "Επιλογές"ενεργοποιήστε την επιλογή "Εμφάνιση εξίσωσης στο γράφημα". Εντάξει

Όπως πάντα, θέλω να ολοκληρώσω ένα άρθρο όμορφη φράση, και σχεδόν έγραψα "Be trendy!". Όμως με τον καιρό άλλαξε γνώμη. Και όχι επειδή είναι φόρμουλα. Δεν ξέρω πώς κανείς, αλλά δεν θέλω να ακολουθήσω καθόλου την προωθούμενη αμερικανική και ειδικά την ευρωπαϊκή τάση =) Γι' αυτό, εύχομαι ο καθένας από εσάς να μείνει στη δική του γραμμή!

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

Η μέθοδος των ελαχίστων τετραγώνων είναι μια από τις πιο κοινές και πιο ανεπτυγμένες λόγω της απλότητα και αποτελεσματικότητα των μεθόδων για την εκτίμηση των παραμέτρων των γραμμικών οικονομετρικών μοντέλων. Ταυτόχρονα, θα πρέπει να δίνεται προσοχή κατά τη χρήση του, καθώς τα μοντέλα που κατασκευάζονται με τη χρήση του ενδέχεται να μην πληρούν ορισμένες απαιτήσεις για την ποιότητα των παραμέτρων τους και, ως εκ τούτου, να μην αντικατοπτρίζουν «καλά» τα πρότυπα ανάπτυξης της διαδικασίας.

Ας εξετάσουμε λεπτομερέστερα τη διαδικασία εκτίμησης των παραμέτρων ενός γραμμικού οικονομετρικού μοντέλου χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων. Ένα τέτοιο μοντέλο σε γενική μορφή μπορεί να αναπαρασταθεί από την εξίσωση (1.2):

y t = a 0 + a 1 x 1t +...+ a n x nt + ε t .

Τα αρχικά δεδομένα κατά την εκτίμηση των παραμέτρων a 0 , a 1 ,..., a n είναι το διάνυσμα των τιμών της εξαρτημένης μεταβλητής y= (y 1 , y 2 , ... , y T)" και ο πίνακας τιμών των ανεξάρτητων μεταβλητών

στην οποία η πρώτη στήλη, που αποτελείται από ένα, αντιστοιχεί στον συντελεστή του μοντέλου .

Η μέθοδος των ελαχίστων τετραγώνων πήρε το όνομά της με βάση τη βασική αρχή ότι οι εκτιμήσεις παραμέτρων που λαμβάνονται βάσει αυτής πρέπει να ικανοποιούν: το άθροισμα των τετραγώνων του σφάλματος μοντέλου πρέπει να είναι ελάχιστο.

Παραδείγματα επίλυσης προβλημάτων με τη μέθοδο των ελαχίστων τετραγώνων

Παράδειγμα 2.1.Η εμπορική επιχείρηση διαθέτει ένα δίκτυο που αποτελείται από 12 καταστήματα, πληροφορίες για τις δραστηριότητες των οποίων παρουσιάζονται στον Πίνακα. 2.1.

Η διοίκηση της εταιρείας θα ήθελε να μάθει πώς το μέγεθος του ετήσιου τζίρου εξαρτάται από τον χώρο λιανικής του καταστήματος.

Πίνακας 2.1

Αριθμός καταστήματος Ετήσιος κύκλος εργασιών, εκατομμύρια ρούβλια Εμπορική περιοχή, χίλια m 2
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

Λύση ελάχιστων τετραγώνων.Ας ορίσουμε - τον ετήσιο κύκλο εργασιών του -ου καταστήματος, εκατομμύρια ρούβλια. - περιοχή πώλησης του καταστήματος, χίλια m 2.

Εικ.2.1. Scatterplot για Παράδειγμα 2.1

Να προσδιορίσετε τη μορφή της συναρτησιακής σχέσης μεταξύ των μεταβλητών και να κατασκευάσετε ένα διάγραμμα διασποράς (Εικ. 2.1).

Με βάση το διάγραμμα διασποράς, μπορούμε να συμπεράνουμε ότι ο ετήσιος κύκλος εργασιών εξαρτάται θετικά από την περιοχή πώλησης (δηλαδή, το y θα αυξηθεί με την αύξηση του ). Η πιο κατάλληλη μορφή λειτουργικής σύνδεσης είναι γραμμικός.

Πληροφορίες για περαιτέρω υπολογισμούς παρουσιάζονται στον Πίνακα. 2.2. Χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων, υπολογίζουμε τις παραμέτρους του γραμμικού μονοπαραγοντικού οικονομετρικού μοντέλου

Πίνακας 2.2

t y t x 1t y t 2 x1t2 x 1t y t
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
μικρό 819,52 10,68 65008,554 11,4058 858,3991
Μέση τιμή 68,29 0,89

Ετσι,

Επομένως, με αύξηση της περιοχής συναλλαγών κατά 1.000 m 2, ενώ τα άλλα πράγματα είναι ίσα, ο μέσος ετήσιος κύκλος εργασιών αυξάνεται κατά 67,8871 εκατομμύρια ρούβλια.

Παράδειγμα 2.2.Η διοίκηση της επιχείρησης παρατήρησε ότι ο ετήσιος κύκλος εργασιών εξαρτάται όχι μόνο από την περιοχή πωλήσεων του καταστήματος (βλ. παράδειγμα 2.1), αλλά και από τον μέσο αριθμό επισκεπτών. Οι σχετικές πληροφορίες παρουσιάζονται στον πίνακα. 2.3.

Πίνακας 2.3

Λύση.Δηλώστε - ο μέσος αριθμός επισκεπτών στο κατάστημα ανά ημέρα, χιλιάδες άτομα.

Να προσδιοριστεί η μορφή της συναρτησιακής σχέσης μεταξύ των μεταβλητών και να κατασκευαστεί ένα διάγραμμα διασποράς (Εικ. 2.2).

Με βάση το διάγραμμα διασποράς, μπορούμε να συμπεράνουμε ότι ο ετήσιος τζίρος σχετίζεται θετικά με τον μέσο αριθμό επισκεπτών ανά ημέρα (δηλαδή, το y θα αυξηθεί με την αύξηση του ). Η μορφή της λειτουργικής εξάρτησης είναι γραμμική.

Ρύζι. 2.2. Scatterplot για παράδειγμα 2.2

Πίνακας 2.4

t x 2t x 2t 2 yt x 2t x 1t x 2t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
μικρό 127,83 1410,44 9160,9934 118,9728
Μέση τιμή 10,65

Γενικά, είναι απαραίτητος ο προσδιορισμός των παραμέτρων του οικονομετρικού μοντέλου δύο παραγόντων

y t \u003d a 0 + a 1 x 1t + a 2 x 2t + ε t

Οι πληροφορίες που απαιτούνται για περαιτέρω υπολογισμούς παρουσιάζονται στον Πίνακα. 2.4.

Ας υπολογίσουμε τις παραμέτρους ενός γραμμικού οικονομετρικού μοντέλου δύο παραγόντων χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων.

Ετσι,

Η αξιολόγηση του συντελεστή = 61,6583 δείχνει ότι, αν και άλλα πράγματα είναι ίσα, με αύξηση της περιοχής συναλλαγών κατά 1 χιλιάδες m 2, ο ετήσιος κύκλος εργασιών θα αυξηθεί κατά μέσο όρο 61,6583 εκατομμύρια ρούβλια.

Η εκτίμηση του συντελεστή = 2,2748 δείχνει ότι, ενώ τα άλλα πράγματα είναι ίσα, με αύξηση του μέσου αριθμού επισκεπτών ανά 1 χίλια άτομα. ημερησίως, ο ετήσιος κύκλος εργασιών θα αυξάνεται κατά μέσο όρο κατά 2,2748 εκατομμύρια ρούβλια.

Παράδειγμα 2.3.Χρησιμοποιώντας τις πληροφορίες που παρουσιάζονται στον πίνακα. 2.2 και 2.4, υπολογίστε την παράμετρο ενός μονοπαραγοντικού οικονομετρικού μοντέλου

πού είναι η κεντρική αξία του ετήσιου κύκλου εργασιών του -ου καταστήματος, εκατομμύρια ρούβλια. - κεντρική τιμή του μέσου ημερήσιου αριθμού επισκεπτών στο t-th κατάστημα, χιλιάδες άτομα. (βλ. παραδείγματα 2.1-2.2).

Λύση. Επιπλέον πληροφορίες, που απαιτείται για τους υπολογισμούς, παρουσιάζεται στον πίνακα. 2.5.

Πίνακας 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
Αθροισμα 48,4344 431,0566

Χρησιμοποιώντας τον τύπο (2.35), λαμβάνουμε

Ετσι,

http://www.cleverstudents.ru/articles/mnk.html

Παράδειγμα.

Πειραματικά δεδομένα για τις τιμές των μεταβλητών ΧΚαι στοδίνονται στον πίνακα.

Ως αποτέλεσμα της ευθυγράμμισής τους, η συνάρτηση

Χρησιμοποιώντας μέθοδος ελάχιστου τετραγώνου, προσεγγίστε αυτά τα δεδομένα με μια γραμμική εξάρτηση y=ax+b(βρες παραμέτρους ΕΝΑΚαι σι). Μάθετε ποια από τις δύο γραμμές είναι καλύτερη (με την έννοια της μεθόδου των ελαχίστων τετραγώνων) ευθυγραμμίζει τα πειραματικά δεδομένα. Κάντε ένα σχέδιο.

Λύση.

Στο παράδειγμά μας n=5. Συμπληρώνουμε τον πίνακα για τη διευκόλυνση του υπολογισμού των ποσών που περιλαμβάνονται στους τύπους των απαιτούμενων συντελεστών.

Οι τιμές στην τέταρτη σειρά του πίνακα λαμβάνονται πολλαπλασιάζοντας τις τιμές της 2ης σειράς με τις τιμές της 3ης σειράς για κάθε αριθμό Εγώ.

Οι τιμές στην πέμπτη σειρά του πίνακα λαμβάνονται με τον τετραγωνισμό των τιμών της 2ης σειράς για κάθε αριθμό Εγώ.

Οι τιμές της τελευταίας στήλης του πίνακα είναι τα αθροίσματα των τιμών στις σειρές.

Χρησιμοποιούμε τους τύπους της μεθόδου των ελαχίστων τετραγώνων για να βρούμε τους συντελεστές ΕΝΑΚαι σι. Αντικαθιστούμε σε αυτά τις αντίστοιχες τιμές από την τελευταία στήλη του πίνακα:

Ως εκ τούτου, y=0,165x+2,184είναι η επιθυμητή προσεγγιστική ευθεία.

Μένει να μάθουμε ποια από τις γραμμές y=0,165x+2,184ή προσεγγίζει καλύτερα τα αρχικά δεδομένα, δηλαδή να κάνει μια εκτίμηση χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων.

Απόδειξη.

Έτσι όταν βρεθεί ΕΝΑΚαι σιη συνάρτηση παίρνει τη μικρότερη τιμή, είναι απαραίτητο σε αυτό το σημείο ο πίνακας της τετραγωνικής μορφής του διαφορικού δεύτερης τάξης για τη συνάρτηση ήταν θετική οριστική. Ας το δείξουμε.

Η διαφορά δεύτερης τάξης έχει τη μορφή:

Αυτό είναι

Επομένως, ο πίνακας της τετραγωνικής μορφής έχει τη μορφή

και οι τιμές των στοιχείων δεν εξαρτώνται από ΕΝΑΚαι σι.

Ας δείξουμε ότι ο πίνακας είναι θετικός ορισμένος. Αυτό απαιτεί οι δευτερεύουσες γωνίες να είναι θετικές.

Γωνιακό μινόρε πρώτης τάξης . Η ανισότητα είναι αυστηρή, αφού τα σημεία

Η μέθοδος των ελαχίστων τετραγώνων (LSM) σας επιτρέπει να εκτιμήσετε διάφορες ποσότητες, χρησιμοποιώντας τα αποτελέσματα πολλαπλών μετρήσεων που περιέχουν τυχαία σφάλματα.

Χαρακτηριστικό MNC

κύρια ιδέα αυτή τη μέθοδοσυνίσταται στο ότι ως κριτήριο για την ακρίβεια της λύσης του προβλήματος θεωρείται το άθροισμα των τετραγώνων σφαλμάτων, το οποίο επιδιώκεται να ελαχιστοποιηθεί. Όταν χρησιμοποιείται αυτή η μέθοδος, μπορούν να εφαρμοστούν τόσο αριθμητικές όσο και αναλυτικές προσεγγίσεις.

Συγκεκριμένα, ως αριθμητική υλοποίηση, η μέθοδος των ελαχίστων τετραγώνων συνεπάγεται τη λήψη όσο το δυνατόν περισσότερων μετρήσεων μιας άγνωστης τυχαίας μεταβλητής. Επιπλέον, όσο περισσότεροι υπολογισμοί, τόσο πιο ακριβής θα είναι η λύση. Σε αυτό το σύνολο υπολογισμών (αρχικά δεδομένα), προκύπτει ένα άλλο σύνολο προτεινόμενων λύσεων, από τις οποίες στη συνέχεια επιλέγεται η καλύτερη. Εάν το σύνολο των λύσεων παραμετροποιηθεί, τότε η μέθοδος των ελαχίστων τετραγώνων θα μειωθεί στην εύρεση της βέλτιστης τιμής των παραμέτρων.

Ως αναλυτική προσέγγιση για την εφαρμογή του LSM στο σύνολο των αρχικών δεδομένων (μετρήσεις) και στο προτεινόμενο σύνολο λύσεων, ορίζονται ορισμένες (λειτουργικές), οι οποίες μπορούν να εκφραστούν με έναν τύπο που προκύπτει ως μια συγκεκριμένη υπόθεση που πρέπει να επιβεβαιωθεί. Σε αυτήν την περίπτωση, η μέθοδος των ελαχίστων τετραγώνων μειώνεται στην εύρεση του ελάχιστου αυτής της συνάρτησης στο σύνολο των τετραγωνικών σφαλμάτων των αρχικών δεδομένων.

Σημειώστε ότι όχι τα ίδια τα σφάλματα, αλλά τα τετράγωνα των σφαλμάτων. Γιατί; Γεγονός είναι ότι συχνά οι αποκλίσεις των μετρήσεων από την ακριβή τιμή είναι θετικές και αρνητικές. Κατά τον προσδιορισμό του μέσου όρου, η απλή άθροιση μπορεί να οδηγήσει σε εσφαλμένο συμπέρασμα σχετικά με την ποιότητα της εκτίμησης, καθώς η αμοιβαία ακύρωση θετικών και αρνητικών τιμών θα μειώσει τη δειγματοληπτική ισχύ του συνόλου των μετρήσεων. Και, κατά συνέπεια, η ακρίβεια της αξιολόγησης.

Για να μην συμβεί αυτό, αθροίζονται οι τετραγωνικές αποκλίσεις. Ακόμη περισσότερο από αυτό, προκειμένου να εξισωθεί η διάσταση της μετρούμενης ποσότητας και τελικός βαθμός, από το άθροισμα των τετραγωνικών σφαλμάτων εξαγωγή

Μερικές εφαρμογές των MNC

Το MNC χρησιμοποιείται ευρέως σε διάφορους τομείς. Για παράδειγμα, στη θεωρία πιθανοτήτων και στη μαθηματική στατιστική, η μέθοδος χρησιμοποιείται για τον προσδιορισμό ενός τέτοιου χαρακτηριστικού μιας τυχαίας μεταβλητής όπως η τυπική απόκλιση, η οποία καθορίζει το πλάτος του εύρους τιμών της τυχαίας μεταβλητής.

Μέθοδος ελαχίστων τετραγώνων (OLS, eng. Ordinary Least Squares, OLS)- μια μαθηματική μέθοδος που χρησιμοποιείται για την επίλυση διαφόρων προβλημάτων, που βασίζεται στην ελαχιστοποίηση του αθροίσματος των τετραγωνικών αποκλίσεων ορισμένων συναρτήσεων από τις επιθυμητές μεταβλητές. Μπορεί να χρησιμοποιηθεί για την «λύση» υπερκαθορισμένων συστημάτων εξισώσεων (όταν ο αριθμός των εξισώσεων υπερβαίνει τον αριθμό των αγνώστων), για την εύρεση λύσης στην περίπτωση συνηθισμένων (όχι υπερκαθορισμένων) μη γραμμικών συστημάτων εξισώσεων, για την προσέγγιση των σημειακών τιμών μιας ορισμένης λειτουργίας. Το OLS είναι μία από τις βασικές μεθόδους ανάλυσης παλινδρόμησης για την εκτίμηση άγνωστων παραμέτρων μοντέλων παλινδρόμησης από δεδομένα δείγματος.

Εγκυκλοπαιδικό YouTube

    1 / 5

    ✪ Μέθοδος ελάχιστων τετραγώνων. Θέμα

    ✪ Ελάχιστα τετράγωνα, μάθημα 1/2. Γραμμική συνάρτηση

    ✪ Οικονομετρία. Διάλεξη 5. Μέθοδος ελαχίστων τετραγώνων

    ✪ Mitin I. V. - Επεξεργασία των αποτελεσμάτων της φυσικής. πείραμα - Μέθοδος ελαχίστων τετραγώνων (Διάλεξη 4)

    ✪ Οικονομετρία: Η ουσία της μεθόδου των ελαχίστων τετραγώνων #2

    Υπότιτλοι

Ιστορία

Πριν αρχές XIX V. Οι επιστήμονες δεν είχαν ορισμένους κανόνες για την επίλυση ενός συστήματος εξισώσεων στο οποίο ο αριθμός των αγνώστων είναι μικρότερος από τον αριθμό των εξισώσεων. Μέχρι τότε, χρησιμοποιήθηκαν συγκεκριμένες μέθοδοι, ανάλογα με το είδος των εξισώσεων και την ευρηματικότητα των αριθμομηχανών, και ως εκ τούτου διαφορετικοί αριθμομηχανές, ξεκινώντας από τα ίδια δεδομένα παρατήρησης, κατέληξαν σε διαφορετικά συμπεράσματα. Ο Gauss (1795) πιστώνεται με την πρώτη εφαρμογή της μεθόδου και ο Legendre (1805) την ανακάλυψε ανεξάρτητα και την δημοσίευσε με τη σύγχρονη ονομασία της (fr. Metode des moindres quarres) . Ο Laplace συνέδεσε τη μέθοδο με τη θεωρία των πιθανοτήτων και ο Αμερικανός μαθηματικός Adrain (1808) εξέτασε τις πιθανοτικές εφαρμογές της. Η μέθοδος είναι ευρέως διαδεδομένη και βελτιωμένη από περαιτέρω έρευνα από τους Encke, Bessel, Hansen και άλλους.

Η ουσία της μεθόδου των ελαχίστων τετραγώνων

Αφήνω x (\displaystyle x)- κιτ n (\displaystyle n)άγνωστες μεταβλητές (παράμετροι), f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- σύνολο συναρτήσεων από αυτό το σύνολο μεταβλητών. Το πρόβλημα είναι να επιλέξουμε τέτοιες τιμές x (\displaystyle x)έτσι ώστε οι τιμές αυτών των συναρτήσεων να είναι όσο το δυνατόν πιο κοντά σε ορισμένες τιμές y i (\displaystyle y_(i)). Στην ουσία μιλάμε για τη «λύση» του υπερκαθορισμένου συστήματος εξισώσεων f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\lddots ,m)με την υποδεικνυόμενη έννοια, τη μέγιστη εγγύτητα του αριστερού και του δεξιού τμήματος του συστήματος. Η ουσία του LSM είναι να επιλέξει ως "μέτρο εγγύτητας" το άθροισμα των τετραγωνικών αποκλίσεων του αριστερού και του δεξιού μέρους | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). Έτσι, η ουσία του LSM μπορεί να εκφραστεί ως εξής:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\δεξιό βέλος \min _(x)).

Εάν το σύστημα εξισώσεων έχει λύση, τότε το ελάχιστο του αθροίσματος των τετραγώνων θα είναι ίσο με μηδέν και οι ακριβείς λύσεις του συστήματος των εξισώσεων μπορούν να βρεθούν αναλυτικά ή, για παράδειγμα, με διάφορες μεθόδους αριθμητικής βελτιστοποίησης. Εάν το σύστημα είναι υπερκαθορισμένο, δηλαδή, χαλαρά μιλώντας, ο αριθμός των ανεξάρτητων εξισώσεων περισσότερη ποσότηταάγνωστες μεταβλητές, τότε το σύστημα δεν έχει ακριβή λύση και η μέθοδος των ελαχίστων τετραγώνων μας επιτρέπει να βρούμε κάποιο "βέλτιστο" διάνυσμα x (\displaystyle x)με την έννοια της μέγιστης εγγύτητας των διανυσμάτων y (\displaystyle y)Και f (x) (\displaystyle f(x))ή τη μέγιστη εγγύτητα του διανύσματος απόκλισης e (\displaystyle e)στο μηδέν (η εγγύτητα νοείται με την έννοια της Ευκλείδειας απόστασης).

Παράδειγμα - σύστημα γραμμικών εξισώσεων

Συγκεκριμένα, η μέθοδος των ελαχίστων τετραγώνων μπορεί να χρησιμοποιηθεί για την «λύση» του συστήματος γραμμικών εξισώσεων

A x = b (\displaystyle Ax=b),

Οπου A (\displaystyle A)μήτρα ορθογώνιου μεγέθους m × n , m > n (\displaystyle m\times n,m>n)(δηλαδή ο αριθμός των σειρών του πίνακα Α είναι μεγαλύτερος από τον αριθμό των απαιτούμενων μεταβλητών).

Ένα τέτοιο σύστημα εξισώσεων γενικά δεν έχει λύση. Επομένως, αυτό το σύστημα μπορεί να «λυθεί» μόνο με την έννοια της επιλογής ενός τέτοιου διανύσματος x (\displaystyle x)για να ελαχιστοποιηθεί η «απόσταση» μεταξύ των διανυσμάτων A x (\displaystyle Axe)Και b (\displaystyle b). Για να το κάνετε αυτό, μπορείτε να εφαρμόσετε το κριτήριο για την ελαχιστοποίηση του αθροίσματος των τετραγωνικών διαφορών του αριστερού και του δεξιού μέρους των εξισώσεων του συστήματος, δηλαδή (A x − b) T (A x − b) → min x (\style display (Ax-b)^(T)(Ax-b)\δεξιό βέλος \min _(x)). Είναι εύκολο να δείξουμε ότι η λύση αυτού του προβλήματος ελαχιστοποίησης οδηγεί στη λύση του παρακάτω συστήματος εξισώσεων

A T A x = A T b ⇒ x = (A T A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Δεξί βέλος x=(A^(T)A)^(-1)A^ (Τ)β).

OLS στην ανάλυση παλινδρόμησης (προσέγγιση δεδομένων)

Ας υπάρχει n (\displaystyle n)τιμές κάποιας μεταβλητής y (\displaystyle y)(αυτό μπορεί να είναι τα αποτελέσματα παρατηρήσεων, πειραμάτων κ.λπ.) και οι αντίστοιχες μεταβλητές x (\displaystyle x). Η πρόκληση είναι να γίνει η σχέση μεταξύ y (\displaystyle y)Και x (\displaystyle x)κατά προσέγγιση από κάποια συνάρτηση γνωστή μέχρι κάποιες άγνωστες παραμέτρους b (\displaystyle b), δηλαδή, βρείτε πραγματικά τις καλύτερες τιμές των παραμέτρων b (\displaystyle b), προσεγγίζοντας κατά μέγιστο τις τιμές f (x , b) (\displaystyle f(x,b))σε πραγματικές αξίες y (\displaystyle y). Στην πραγματικότητα, αυτό ανάγεται στην περίπτωση της «λύσης» ενός υπερκαθορισμένου συστήματος εξισώσεων σε σχέση με b (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

Στην ανάλυση παλινδρόμησης, και ειδικότερα στην οικονομετρία, χρησιμοποιούνται πιθανοτικά μοντέλα της σχέσης μεταξύ των μεταβλητών.

Y t = f (x t , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

Οπου ε t (\displaystyle \varepsilon _(t))- έτσι λέγεται τυχαία σφάλματαμοντέλα.

Αντίστοιχα, οι αποκλίσεις των παρατηρούμενων τιμών y (\displaystyle y)από μοντέλο f (x , b) (\displaystyle f(x,b))ήδη υποτίθεται στο ίδιο το μοντέλο. Η ουσία του LSM (συνηθισμένο, κλασικό) είναι να βρεις τέτοιες παραμέτρους b (\displaystyle b), στο οποίο το άθροισμα των τετραγωνικών αποκλίσεων (λάθη, για τα μοντέλα παλινδρόμησης ονομάζονται συχνά υπολείμματα παλινδρόμησης) e t (\displaystyle e_(t))θα είναι ελάχιστο:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

Οπου R S S (\displaystyle RSS)- Αγγλικά. Το υπόλοιπο άθροισμα τετραγώνων ορίζεται ως:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\άθροισμα _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

Στη γενική περίπτωση, αυτό το πρόβλημα μπορεί να λυθεί με αριθμητικές μεθόδους βελτιστοποίησης (ελαχιστοποίηση). Στην προκειμένη περίπτωση μιλάει κανείς μη γραμμικά ελάχιστα τετράγωνα(NLS ή NLLS - eng. Μη Γραμμικά ελάχιστα τετράγωνα). Σε πολλές περιπτώσεις, μπορεί να ληφθεί μια αναλυτική λύση. Για να λυθεί το πρόβλημα ελαχιστοποίησης, είναι απαραίτητο να βρεθούν τα ακίνητα σημεία της συνάρτησης R S S (b) (\displaystyle RSS(b)), διαφοροποιώντας το σε σχέση με άγνωστες παραμέτρους b (\displaystyle b), εξισώνοντας τις παραγώγους με το μηδέν και λύνοντας το προκύπτον σύστημα εξισώσεων:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t),b))(\frac (\μερική f(x_(t),b))(\μερική β))=0).

LSM στην περίπτωση γραμμικής παλινδρόμησης

Ας είναι γραμμική η εξάρτηση της παλινδρόμησης:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Αφήνω yείναι το διάνυσμα στήλης των παρατηρήσεων της μεταβλητής που εξηγείται, και X (\displaystyle X)- Αυτό (n × k) (\displaystyle ((n\times k)))- πίνακας παρατηρήσεων παραγόντων (γραμμές του πίνακα - διανύσματα τιμών παραγόντων σε μια δεδομένη παρατήρηση, κατά στήλες - διάνυσμα τιμών ενός δεδομένου παράγοντα σε όλες τις παρατηρήσεις). Η αναπαράσταση μήτρας του γραμμικού μοντέλου έχει τη μορφή:

y = Xb + ε (\displaystyle y=Xb+\varepsilon ).

Τότε το διάνυσμα των εκτιμήσεων της επεξηγούμενης μεταβλητής και το διάνυσμα των υπολειμμάτων παλινδρόμησης θα είναι ίσο με

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

αντίστοιχα, το άθροισμα των τετραγώνων των υπολειμμάτων παλινδρόμησης θα είναι ίσο με

R S S = e T e = (y − X β) T (y − X β) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Διαφοροποίηση αυτής της συνάρτησης σε σχέση με το διάνυσμα παραμέτρων b (\displaystyle b)και εξισώνοντας τις παραγώγους με το μηδέν, παίρνουμε ένα σύστημα εξισώσεων (σε μορφή πίνακα):

(X T X) b = X T y (\style display (X^(T)X)b=X^(T)y).

Στη μορφή αποκρυπτογραφημένου πίνακα, αυτό το σύστημα εξισώσεων μοιάζει με αυτό:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t k ∑ x t 2 x t k ∑ x 2 x t k ∑ ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 b 2 b 3 ⋮ b x t 3 ⋮ b x k) = (∑ t x y) = (∑ t k) (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_( tk)\\\άθροισμα x_(t2)x_(t1)&\sum x_(t2)^(2)&\sum x_(t2)x_(t3)&\ldots &\ sum x_(t2)x_(tk) \\\sum x_(t3)x_(t1)&\sum x_(t3)x_(t2)&\sum x_(t3)^(2)&\ldots &\sum x_ (t3)x_(tk)\\ \vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3)\\\vdots \\b_( k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t )\\\vdots \\\άθροισμα x_(tk)y_(t)\\\end(pmatrix)))όπου όλα τα αθροίσματα λαμβάνονται πάνω από όλες τις αποδεκτές τιμές t (\displaystyle t).

Εάν περιλαμβάνεται μια σταθερά στο μοντέλο (ως συνήθως), τότε x t 1 = 1 (\displaystyle x_(t1)=1)για όλα t (\displaystyle t), άρα στα αριστερά πάνω γωνίαπίνακες του συστήματος των εξισώσεων είναι ο αριθμός των παρατηρήσεων n (\displaystyle n), και στα υπόλοιπα στοιχεία της πρώτης σειράς και της πρώτης στήλης - μόνο το άθροισμα των τιμών των μεταβλητών: ∑ x t j (\displaystyle \sum x_(tj))και το πρώτο στοιχείο της δεξιάς πλευράς του συστήματος - ∑ y t (\displaystyle \sum y_(t)).

Η λύση αυτού του συστήματος εξισώσεων δίνει τον γενικό τύπο για τις εκτιμήσεις των ελαχίστων τετραγώνων για το γραμμικό μοντέλο:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\στυλ εμφάνισης (\καπέλο (β))_(OLS)=(X^(T )X)^(-1)X^(T)y=\left((\frac (1)(n))X^(T)X\right)^(-1)(\frac (1)(n )) X^(T)y=V_(x)^(-1)C_(xy)).

Για αναλυτικούς σκοπούς, η τελευταία αναπαράσταση αυτού του τύπου αποδεικνύεται χρήσιμη (στο σύστημα εξισώσεων όταν διαιρείται με το n, εμφανίζονται αριθμητικοί μέσοι όροι αντί για αθροίσματα). Αν τα δεδομένα στο μοντέλο παλινδρόμησης κεντραρισμένος, τότε σε αυτήν την αναπαράσταση ο πρώτος πίνακας έχει τη σημασία του δείγματος πίνακα συνδιακύμανσης παραγόντων και ο δεύτερος είναι το διάνυσμα των συνδιακυμάνσεων παραγόντων με εξαρτημένη μεταβλητή. Εάν, επιπλέον, τα δεδομένα είναι επίσης κανονικοποιημένηστο SKO (δηλαδή τελικά τυποποιημένη), τότε ο πρώτος πίνακας έχει την έννοια του πίνακα συσχέτισης του δείγματος των παραγόντων, το δεύτερο διάνυσμα - το διάνυσμα δειγματοληπτικών συσχετίσεων παραγόντων με την εξαρτημένη μεταβλητή.

Μια σημαντική ιδιότητα των εκτιμήσεων LLS για μοντέλα με μια σταθερά- η γραμμή της κατασκευασμένης παλινδρόμησης διέρχεται από το κέντρο βάρους του δείγματος δεδομένων, δηλαδή πληρούται η ισότητα:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\καπέλο (b))_(j)(\bar (x))_(j)).

Συγκεκριμένα, στην ακραία περίπτωση, όταν ο μόνος παλινδρομητής είναι μια σταθερά, βρίσκουμε ότι η εκτίμηση OLS μιας μεμονωμένης παραμέτρου (η ίδια η σταθερά) είναι ίση με τη μέση τιμή της μεταβλητής που εξηγείται. Δηλαδή, ο αριθμητικός μέσος όρος, γνωστός για τις καλές του ιδιότητες από τους νόμους των μεγάλων αριθμών, είναι επίσης μια εκτίμηση ελαχίστων τετραγώνων - ικανοποιεί το κριτήριο για το ελάχιστο άθροισμα των τετραγωνικών αποκλίσεων από αυτόν.

Οι πιο απλές ειδικές περιπτώσεις

Στην περίπτωση γραμμικής παλινδρόμησης κατά ζεύγη y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), όταν εκτιμάται η γραμμική εξάρτηση μιας μεταβλητής από μια άλλη, οι τύποι υπολογισμού απλοποιούνται (μπορείτε να το κάνετε χωρίς άλγεβρα πινάκων). Το σύστημα των εξισώσεων έχει τη μορφή:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline(xy))\\\end(pmatrix))).

Από εδώ είναι εύκολο να βρείτε εκτιμήσεις για τους συντελεστές:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2 , a ^ = y ¯ − b x . (\displaystyle (\begin(περιπτώσεις) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2)),\\( \καπέλο (a))=(\bar (y))-b(\bar (x)).\end (περιπτώσεις)))

Παρά το γεγονός ότι, γενικά, τα μοντέλα με σταθερά είναι προτιμότερα, σε ορισμένες περιπτώσεις είναι γνωστό από θεωρητικές εκτιμήσεις ότι η σταθερά a (\displaystyle a)πρέπει να είναι ίσο με μηδέν. Για παράδειγμα, στη φυσική, η σχέση μεταξύ τάσης και ρεύματος έχει τη μορφή U = I ⋅ R (\displaystyle U=I\cdot R); μετρώντας την τάση και το ρεύμα, είναι απαραίτητο να εκτιμηθεί η αντίσταση. Σε αυτή την περίπτωση, μιλάμε για μοντέλο y = b x (\displaystyle y=bx). Σε αυτή την περίπτωση, αντί για σύστημα εξισώσεων, έχουμε μια ενιαία εξίσωση

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

Επομένως, ο τύπος για την εκτίμηση ενός μόνο συντελεστή έχει τη μορφή

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\άθροισμα _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

Η περίπτωση ενός πολυωνυμικού μοντέλου

Εάν τα δεδομένα προσαρμόζονται από μια πολυωνυμική συνάρτηση παλινδρόμησης μιας μεταβλητής f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), τότε, αντίληψη μοιρών x i (\displaystyle x^(i))ως ανεξάρτητους παράγοντες για τον καθένα i (\displaystyle i)είναι δυνατή η εκτίμηση των παραμέτρων του μοντέλου με βάση τον γενικό τύπο για την εκτίμηση των παραμέτρων του γραμμικού μοντέλου. Για να γίνει αυτό, αρκεί να ληφθεί υπόψη στον γενικό τύπο ότι με μια τέτοια ερμηνεία x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j))Και x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Ως εκ τούτου, εξισώσεις μήτραςσε αυτή την περίπτωση θα λάβει τη μορφή:

(n ∑ n x t ... ∑ n x t k ∑ n x t ∑ n x t 2 ... ∑ n x t k + 1 ⋮ ⋮ ⋮ ⋮ ∑ n x t k ∑ n x t k + 1 ... ∑ ∑ n x] = b n y t ∑ n x t y t ⋮ n x t k y t k y t ] . (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(t)^(2)&\ldots &\sum \limits _(n)x_(t)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ άθροισμα \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrix)).)

Στατιστικά Ιδιότητες Εκτιμήσεων OLS

Πρώτα απ 'όλα, σημειώνουμε ότι για γραμμικά μοντέλα, οι εκτιμήσεις ελαχίστων τετραγώνων είναι γραμμικές εκτιμήσεις, όπως προκύπτει από τον παραπάνω τύπο. Για την αμερόληπτη των εκτιμήσεων των ελαχίστων τετραγώνων, είναι απαραίτητο και επαρκές να εκπληρωθεί η πιο σημαντική προϋπόθεση της ανάλυσης παλινδρόμησης: η μαθηματική προσδοκία ενός τυχαίου λάθους που εξαρτάται από τους παράγοντες πρέπει να είναι ίση με μηδέν. Αυτή η συνθήκη, ιδίως, ικανοποιείται εάν

  1. η μαθηματική προσδοκία των τυχαίων σφαλμάτων είναι μηδέν, και
  2. Οι παράγοντες και τα τυχαία σφάλματα είναι ανεξάρτητες τυχαίες τιμές.

Η δεύτερη προϋπόθεση - η συνθήκη των εξωγενών παραγόντων - είναι θεμελιώδης. Εάν αυτή η ιδιότητα δεν ικανοποιηθεί, τότε μπορούμε να υποθέσουμε ότι σχεδόν οποιεσδήποτε εκτιμήσεις θα είναι εξαιρετικά μη ικανοποιητικές: δεν θα είναι καν συνεπείς (δηλαδή, ακόμη και ένας πολύ μεγάλος όγκος δεδομένων δεν επιτρέπει τη λήψη ποιοτικών εκτιμήσεων σε αυτήν την περίπτωση). Στην κλασική περίπτωση, γίνεται μια ισχυρότερη υπόθεση για τον ντετερμινισμό των παραγόντων, σε αντίθεση με ένα τυχαίο σφάλμα, που σημαίνει αυτόματα ότι η εξωγενής συνθήκη ικανοποιείται. Στη γενική περίπτωση, για τη συνέπεια των εκτιμήσεων, αρκεί να ικανοποιηθεί η συνθήκη εξωγένειας μαζί με τη σύγκλιση του πίνακα V x (\displaystyle V_(x))σε κάποιο μη εκφυλισμένο πίνακα καθώς το μέγεθος του δείγματος αυξάνεται στο άπειρο.

Προκειμένου, εκτός από τη συνέπεια και την αμερόληπτη, οι εκτιμήσεις των (συνήθων) ελαχίστων τετραγώνων να είναι επίσης αποτελεσματικές (οι καλύτερες στην κατηγορία των γραμμικών αμερόληπτων εκτιμήσεων), είναι απαραίτητο να πληρούνται πρόσθετες ιδιότητες ενός τυχαίου σφάλματος:

Αυτές οι παραδοχές μπορούν να διατυπωθούν για τον πίνακα συνδιακύμανσης του διανύσματος των τυχαίων σφαλμάτων V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

Ένα γραμμικό μοντέλο που ικανοποιεί αυτές τις συνθήκες ονομάζεται κλασσικός. Οι εκτιμήσεις OLS για την κλασική γραμμική παλινδρόμηση είναι αμερόληπτες, συνεπείς και πιο αποτελεσματικές εκτιμήσεις στην κατηγορία όλων των γραμμικών αμερόληπτων εκτιμήσεων (στην αγγλική βιβλιογραφία, η συντομογραφία χρησιμοποιείται μερικές φορές μπλε (Καλύτερος γραμμικός αμερόληπτος εκτιμητής) είναι η καλύτερη γραμμική αμερόληπτη εκτίμηση. V εγχώρια λογοτεχνίαπιο συχνά δίνεται το θεώρημα Gauss-Markov). Όπως είναι εύκολο να φανεί, ο πίνακας συνδιακύμανσης του διανύσματος εκτιμήσεων συντελεστών θα είναι ίσος με:

V (b ^ O L S) = σ 2 (X T X) − 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

Αποδοτικότητα σημαίνει ότι αυτός ο πίνακας συνδιακύμανσης είναι "ελάχιστος" (οποιοσδήποτε γραμμικός συνδυασμός συντελεστών, και συγκεκριμένα οι ίδιοι οι συντελεστές, έχουν ελάχιστη απόκλιση), δηλαδή, στην κατηγορία των γραμμικών αμερόληπτων εκτιμήσεων, οι εκτιμήσεις OLS είναι οι καλύτερες. Τα διαγώνια στοιχεία αυτού του πίνακα - οι διακυμάνσεις των εκτιμήσεων των συντελεστών - είναι σημαντικές παράμετροι της ποιότητας των εκτιμήσεων που λαμβάνονται. Ωστόσο, δεν είναι δυνατός ο υπολογισμός του πίνακα συνδιακύμανσης επειδή η διακύμανση τυχαίου σφάλματος είναι άγνωστη. Μπορεί να αποδειχθεί ότι η αμερόληπτη και συνεπής (για το κλασικό γραμμικό μοντέλο) εκτίμηση της διακύμανσης των τυχαίων σφαλμάτων είναι η τιμή:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

Αντικατάσταση δεδομένη αξίαστον τύπο για τον πίνακα συνδιακύμανσης και λάβετε μια εκτίμηση του πίνακα συνδιακύμανσης. Οι εκτιμήσεις που προκύπτουν είναι επίσης αμερόληπτες και συνεπείς. Είναι επίσης σημαντικό η εκτίμηση της διακύμανσης του σφάλματος (και επομένως η διακύμανση των συντελεστών) και οι εκτιμήσεις των παραμέτρων του μοντέλου να είναι ανεξάρτητες. τυχαίες μεταβλητές, το οποίο σας επιτρέπει να λαμβάνετε στατιστικά στοιχεία δοκιμής για να ελέγξετε υποθέσεις σχετικά με τους συντελεστές του μοντέλου.

Θα πρέπει να σημειωθεί ότι εάν δεν πληρούνται οι κλασικές παραδοχές, οι εκτιμήσεις των παραμέτρων ελαχίστων τετραγώνων δεν είναι οι πιο αποτελεσματικές και, όπου W (\displaystyle W)είναι κάποιος συμμετρικός θετικός καθορισμένος πίνακας βάρους. Τα συνηθισμένα ελάχιστα τετράγωνα είναι μια ειδική περίπτωση αυτή η προσέγγισηόταν ο πίνακας βάρους είναι ανάλογος με τον πίνακα ταυτότητας. Όπως είναι γνωστό, για συμμετρικούς πίνακες (ή τελεστές) υπάρχει αποσύνθεση W = P T P (\displaystyle W=P^(T)P). Επομένως, αυτή η συνάρτηση μπορεί να αναπαρασταθεί ως εξής e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), δηλαδή, αυτή η συνάρτηση μπορεί να αναπαρασταθεί ως το άθροισμα των τετραγώνων ορισμένων μετασχηματισμένων «υπολειμμάτων». Έτσι, μπορούμε να διακρίνουμε μια κατηγορία μεθόδων ελαχίστων τετραγώνων - LS-methods (Least Squares).

Αποδεικνύεται (θεώρημα Aitken) ότι για ένα μοντέλο γενικευμένης γραμμικής παλινδρόμησης (στο οποίο δεν επιβάλλονται περιορισμοί στον πίνακα συνδιακύμανσης των τυχαίων σφαλμάτων), οι πιο αποτελεσματικές (στην κατηγορία των γραμμικών αμερόληπτων εκτιμήσεων) είναι οι εκτιμήσεις των λεγόμενων. γενικευμένο OLS (OMNK, GLS - Γενικευμένα ελάχιστα τετράγωνα)- Μέθοδος LS με πίνακα βάρους ίσο με τον πίνακα αντίστροφης συνδιακύμανσης των τυχαίων σφαλμάτων: W = V ε − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Μπορεί να φανεί ότι ο τύπος για τις εκτιμήσεις GLS των παραμέτρων του γραμμικού μοντέλου έχει τη μορφή

B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

Ο πίνακας συνδιακύμανσης αυτών των εκτιμήσεων, αντίστοιχα, θα είναι ίσος με

V (b ^ G L S) = (X T V − 1 X) − 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- 1)).

Στην πραγματικότητα, η ουσία του OLS έγκειται σε έναν ορισμένο (γραμμικό) μετασχηματισμό (P) των αρχικών δεδομένων και στην εφαρμογή των συνηθισμένων ελαχίστων τετραγώνων στα μετασχηματισμένα δεδομένα. Ο σκοπός αυτού του μετασχηματισμού είναι ότι για τα μετασχηματισμένα δεδομένα, τα τυχαία σφάλματα ικανοποιούν ήδη τις κλασικές υποθέσεις.

Ζυγισμένα ελάχιστα τετράγωνα

Στην περίπτωση ενός πίνακα διαγώνιου βάρους (και επομένως του πίνακα συνδιακύμανσης των τυχαίων σφαλμάτων), έχουμε τα λεγόμενα σταθμισμένα ελάχιστα τετράγωνα (WLS - Weighted Least Squares). Σε αυτή την περίπτωση, το σταθμισμένο άθροισμα των τετραγώνων των υπολειμμάτων του μοντέλου ελαχιστοποιείται, δηλαδή, κάθε παρατήρηση λαμβάνει ένα «βάρος» που είναι αντιστρόφως ανάλογο με τη διακύμανση του τυχαίου σφάλματος σε αυτήν την παρατήρηση: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ σίγμα _(t)^(2)))). Στην πραγματικότητα, τα δεδομένα μετασχηματίζονται με στάθμιση των παρατηρήσεων (διαιρώντας με ένα ποσό ανάλογο με την υποτιθέμενη τυπική απόκλιση των τυχαίων σφαλμάτων) και εφαρμόζονται κανονικά ελάχιστα τετράγωνα στα σταθμισμένα δεδομένα.

ISBN 978-5-7749-0473-0.

  • Οικονομετρία. Σχολικό βιβλίο / Εκδ. Eliseeva I. I. - 2nd ed. - Μ. : Οικονομικά και στατιστική, 2006. - 576 σελ. - ISBN 5-279-02786-3.
  • Alexandrova N.V.Ιστορία μαθηματικών όρων, εννοιών, ονομασιών: λεξικό-βιβλίο αναφοράς. - 3η έκδ. - Μ. : ΛΚΙ, 2008. - 248 σελ. - ISBN 978-5-382-00839-4. I.V. Mitin, Rusakov V.S. Ανάλυση και επεξεργασία πειραματικών δεδομένων - 5η έκδοση - 24σ.
  • Παράδειγμα.

    Πειραματικά δεδομένα για τις τιμές των μεταβλητών ΧΚαι στοδίνονται στον πίνακα.

    Ως αποτέλεσμα της ευθυγράμμισής τους, η συνάρτηση

    Χρησιμοποιώντας μέθοδος ελάχιστου τετραγώνου, προσεγγίστε αυτά τα δεδομένα με μια γραμμική εξάρτηση y=ax+b(βρες παραμέτρους ΕΝΑΚαι σι). Μάθετε ποια από τις δύο γραμμές είναι καλύτερη (με την έννοια της μεθόδου των ελαχίστων τετραγώνων) ευθυγραμμίζει τα πειραματικά δεδομένα. Κάντε ένα σχέδιο.

    Η ουσία της μεθόδου των ελαχίστων τετραγώνων (LSM).

    Το πρόβλημα είναι να βρούμε τους γραμμικούς συντελεστές εξάρτησης για τους οποίους η συνάρτηση δύο μεταβλητών ΕΝΑΚαι σι παίρνει τη μικρότερη τιμή. Με δεδομένα δηλαδή ΕΝΑΚαι σιτο άθροισμα των τετραγωνικών αποκλίσεων των πειραματικών δεδομένων από την ευθεία που βρέθηκε θα είναι το μικρότερο. Αυτό είναι το όλο νόημα της μεθόδου των ελαχίστων τετραγώνων.

    Έτσι, η λύση του παραδείγματος ανάγεται στην εύρεση του άκρου μιας συνάρτησης δύο μεταβλητών.

    Παραγωγή τύπων εύρεσης συντελεστών.

    Καταρτίζεται και λύνεται ένα σύστημα δύο εξισώσεων με δύο αγνώστους. Εύρεση μερικών παραγώγων μιας συνάρτησης σε σχέση με μεταβλητές ΕΝΑΚαι σι, εξισώνουμε αυτές τις παραγώγους με μηδέν.

    Λύνουμε το προκύπτον σύστημα εξισώσεων με οποιαδήποτε μέθοδο (π.χ μέθοδος αντικατάστασηςή ) και λάβετε τύπους για την εύρεση συντελεστών χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων (LSM).

    Με δεδομένα ΕΝΑΚαι σιλειτουργία παίρνει τη μικρότερη τιμή. Η απόδειξη αυτού του γεγονότος δίνεται.

    Αυτή είναι η όλη μέθοδος των ελαχίστων τετραγώνων. Τύπος για την εύρεση της παραμέτρου έναπεριέχει τα αθροίσματα , , και την παράμετρο n- ποσότητα πειραματικών δεδομένων. Οι τιμές αυτών των ποσών συνιστάται να υπολογίζονται χωριστά. Συντελεστής σιβρέθηκε μετά τον υπολογισμό ένα.

    Ήρθε η ώρα να θυμηθούμε το αρχικό παράδειγμα.

    Λύση.

    Στο παράδειγμά μας n=5. Συμπληρώνουμε τον πίνακα για τη διευκόλυνση του υπολογισμού των ποσών που περιλαμβάνονται στους τύπους των απαιτούμενων συντελεστών.

    Οι τιμές στην τέταρτη σειρά του πίνακα λαμβάνονται πολλαπλασιάζοντας τις τιμές της 2ης σειράς με τις τιμές της 3ης σειράς για κάθε αριθμό Εγώ.

    Οι τιμές στην πέμπτη σειρά του πίνακα λαμβάνονται με τον τετραγωνισμό των τιμών της 2ης σειράς για κάθε αριθμό Εγώ.

    Οι τιμές της τελευταίας στήλης του πίνακα είναι τα αθροίσματα των τιμών στις σειρές.

    Χρησιμοποιούμε τους τύπους της μεθόδου των ελαχίστων τετραγώνων για να βρούμε τους συντελεστές ΕΝΑΚαι σι. Αντικαθιστούμε σε αυτά τις αντίστοιχες τιμές από την τελευταία στήλη του πίνακα:

    Ως εκ τούτου, y=0,165x+2,184είναι η επιθυμητή προσεγγιστική ευθεία.

    Μένει να μάθουμε ποια από τις γραμμές y=0,165x+2,184ή προσεγγίζει καλύτερα τα αρχικά δεδομένα, δηλαδή να κάνει μια εκτίμηση χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων.

    Εκτίμηση του σφάλματος της μεθόδου των ελαχίστων τετραγώνων.

    Για να γίνει αυτό, πρέπει να υπολογίσετε τα αθροίσματα των τετραγωνικών αποκλίσεων των αρχικών δεδομένων από αυτές τις γραμμές Και , μια μικρότερη τιμή αντιστοιχεί σε μια γραμμή που προσεγγίζει καλύτερα τα αρχικά δεδομένα όσον αφορά τη μέθοδο των ελαχίστων τετραγώνων.

    Από τότε η γραμμή y=0,165x+2,184προσεγγίζει καλύτερα τα αρχικά δεδομένα.

    Γραφική απεικόνιση της μεθόδου των ελαχίστων τετραγώνων (LSM).

    Όλα φαίνονται υπέροχα στα charts. Η κόκκινη γραμμή είναι η γραμμή που βρέθηκε y=0,165x+2,184, η μπλε γραμμή είναι , οι ροζ κουκκίδες είναι τα αρχικά δεδομένα.

    Σε τι χρησιμεύει, σε τι χρησιμεύουν όλες αυτές οι προσεγγίσεις;

    Προσωπικά χρησιμοποιώ για την επίλυση προβλημάτων εξομάλυνσης δεδομένων, προβλημάτων παρεμβολής και παρέκτασης (στο αρχικό παράδειγμα, θα μπορούσε να σας ζητηθεί να βρείτε την τιμή της παρατηρούμενης τιμής yστο x=3ή πότε x=6σύμφωνα με τη μέθοδο MNC). Αλλά θα μιλήσουμε περισσότερα για αυτό αργότερα σε άλλη ενότητα του ιστότοπου.

    Απόδειξη.

    Έτσι όταν βρεθεί ΕΝΑΚαι σιη συνάρτηση παίρνει τη μικρότερη τιμή, είναι απαραίτητο σε αυτό το σημείο ο πίνακας της τετραγωνικής μορφής του διαφορικού δεύτερης τάξης για τη συνάρτηση ήταν θετική οριστική. Ας το δείξουμε.

    Η διαφορά δεύτερης τάξης έχει τη μορφή:

    Αυτό είναι

    Επομένως, ο πίνακας της τετραγωνικής μορφής έχει τη μορφή

    και οι τιμές των στοιχείων δεν εξαρτώνται από ΕΝΑΚαι σι.

    Ας δείξουμε ότι ο πίνακας είναι θετικός ορισμένος. Αυτό απαιτεί οι δευτερεύουσες γωνίες να είναι θετικές.

    Γωνιακό μινόρε πρώτης τάξης . Η ανισότητα είναι αυστηρή, αφού τα σημεία δεν συμπίπτουν. Αυτό θα υπονοηθεί στα ακόλουθα.

    Γωνιακό μινόρε δεύτερης τάξης

    Ας το αποδείξουμε με τη μέθοδο της μαθηματικής επαγωγής .

    συμπέρασμα: βρέθηκαν τιμές ΕΝΑΚαι σιαντιστοιχούν στη μικρότερη τιμή της συνάρτησης , επομένως, είναι οι επιθυμητές παράμετροι για τη μέθοδο των ελαχίστων τετραγώνων.

    ΤΟ ΚΟΥΔΟΥΝΙ

    Υπάρχουν εκείνοι που διαβάζουν αυτές τις ειδήσεις πριν από εσάς.
    Εγγραφείτε για να λαμβάνετε τα πιο πρόσφατα άρθρα.
    ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
    Ονομα
    Επώνυμο
    Πώς θα θέλατε να διαβάσετε το The Bell
    Χωρίς ανεπιθύμητο περιεχόμενο