ΤΟ ΚΟΥΔΟΥΝΙ

Υπάρχουν εκείνοι που διαβάζουν αυτές τις ειδήσεις πριν από εσάς.
Εγγραφείτε για να λαμβάνετε τα πιο πρόσφατα άρθρα.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
Ονομα
Επώνυμο
Πώς θα θέλατε να διαβάσετε το The Bell
Χωρίς ανεπιθύμητο περιεχόμενο
Σχέδιο:

1. Τι είναι η υπολογιστική γλωσσολογία;

2. Αντικείμενο και αντικείμενο υπολογιστικής γλωσσολογίας

4. Καθήκοντα υπολογιστικής γλωσσολογίας

5. Ερευνητικές μέθοδοι υπολογιστικής γλωσσολογίας

6. Ιστορία και αιτίες της υπολογιστικής γλωσσολογίας

7. Βασικοί όροι υπολογιστικής γλωσσολογίας

8. Επιστήμονες που ασχολούνται με το πρόβλημα της υπολογιστικής γλωσσολογίας

9. Ενώσεις και συνέδρια για την υπολογιστική γλωσσολογία

10. Χρησιμοποιημένη βιβλιογραφία.


Υπολογιστική Γλωσσολογία -μια ανεξάρτητη κατεύθυνση στην εφαρμοσμένη γλωσσολογία, επικεντρωμένη στη χρήση υπολογιστών για την επίλυση προβλημάτων που σχετίζονται με τη χρήση της φυσικής γλώσσας. (Σχιλίχινα Κ.Μ.)


Υπολογιστική γλωσσολογία– ως ένας από τους τομείς της εφαρμοσμένης γλωσσολογίας, μελετά τα γλωσσικά θεμέλια της επιστήμης των υπολογιστών και όλες τις πτυχές της σύνδεσης μεταξύ γλώσσας και σκέψης, μοντελοποιώντας τη γλώσσα και τη σκέψη σε περιβάλλον υπολογιστή χρησιμοποιώντας προγράμματα ηλεκτρονικών υπολογιστών και τα ενδιαφέροντά της βρίσκονται στον τομέα: 1) βελτιστοποίηση της επικοινωνίας με βάση τη γλωσσική γνώση 2) ​​δημιουργία διεπαφής φυσικής γλώσσας και τυπολογιών κατανόησης γλώσσας για επικοινωνία ανθρώπου-μηχανής 3) δημιουργία και μοντελοποίηση πληροφοριακών συστημάτων πληροφορικής (Sosnina E.P.)


Αντικείμενο Υπολογιστικής Γλωσσολογίας- ανάλυση της γλώσσας στη φυσική της κατάσταση στη διαδικασία χρήσης από άτομα σε διάφορες καταστάσεις επικοινωνίας, καθώς και πώς μπορούν να διατυπωθούν τα χαρακτηριστικά της γλώσσας.


Καθήκοντα Υπολογιστικής Γλωσσολογίας:


Μέθοδοι έρευνας υπολογιστικής γλωσσολογίας:

1. μέθοδος μοντελοποίησης-ειδικό αντικείμενο μελέτης που δεν είναι διαθέσιμο σε άμεση παρατήρηση. Εξ ορισμού, μαθηματικός K. Shannon, ένα μοντέλο είναι μια αναπαράσταση ενός αντικειμένου σε κάποια μορφή που είναι διαφορετική από τη μορφή του. πραγματική ύπαρξη.

2. μέθοδος θεωρίας αναπαράστασης γνώσηςυπονοεί τρόπους αναπαράστασης της γνώσης που προσανατολίζονται στην αυτόματη επεξεργασία από σύγχρονους υπολογιστές.

3. μέθοδος θεωρίας γλώσσας προγραμματισμού(θεωρία γλώσσας προγραμματισμού) είναι ένας τομέας της επιστήμης των υπολογιστών που σχετίζεται με το σχεδιασμό, την ανάλυση, τον χαρακτηρισμό και την ταξινόμηση των γλωσσών προγραμματισμού και τη μελέτη των επιμέρους χαρακτηριστικών τους.


Αιτίες Υπολογιστικής Γλωσσολογίας

1. Η έλευση των υπολογιστών

2. Το πρόβλημα επικοινωνίας με υπολογιστές απροετοίμαστων χρηστών


1. Ένα σύστημα αναζήτησης λεξικών που αναπτύχθηκε στο Berkbeck College του Λονδίνου το 1948.

2. Υπόμνημα Warren Weaver

3. Η αρχή της εισαγωγής των πρώτων ηλεκτρονικών υπολογιστών στο χώρο της αυτόματης μετάφρασης

4. Έργο Georgetown το 1954


1. ALPAC (Automatic Language Processing Advisory Committee) / Συμβουλευτική Επιτροπή για την αυτόματη επεξεργασία γλωσσών 2. ένα νέο στάδιο στην ανάπτυξη της τεχνολογίας των υπολογιστών και των ενεργητική χρήσησε γλωσσικές εργασίες 3. δημιουργία νέας γενιάς υπολογιστών και γλωσσών προγραμματισμού 4. αυξανόμενο ενδιαφέρον για τη μηχανική μετάφραση 60

-70 του εικοστού αιώνα


Τέλη της δεκαετίας του '80 - αρχές της δεκαετίας του '90 του εικοστού αιώνα

    Η εμφάνιση και η ενεργός ανάπτυξη του Διαδικτύου

  • Ταχεία αύξηση όγκων πληροφοριών κειμένου σε ηλεκτρονική μορφή

  • Η ανάγκη για αυτόματη επεξεργασία κειμένων σε φυσική γλώσσα


1. Προϊόντα PROMT και ABBY (Lingvo) 2. Τεχνολογίες μηχανικής μετάφρασης 3. Τεχνολογίες μεταφραστικής μνήμης

Σύγχρονα εμπορικά συστήματα

  • Κινούμενα σχέδια κειμένων

  • Μοντέλα επικοινωνίας

  • Λεξικογραφία υπολογιστή

  • Μηχανική μετάφραση

  • Σώμα κειμένων


Ανάλυση κειμένων σε φυσική γλώσσα

3 επίπεδα δομής κειμένου:
  • Επιφανειακή συντακτική δομή

  • Βαθιά συντακτική δομή

  • Σημασιολογικό επίπεδο


Το έργο της σύνθεσης είναι αντίστροφο σε σχέση με την ανάλυση

Κινούμενα σχέδια του κειμένου

1. Ανταλλαγή κειμένων μέσω οπτικών εικόνων στην οθόνη

2. 2 τρόποι ανθρώπινης σκέψης: συμβολική και οπτική.


1. Μίμηση της διαδικασίας επικοινωνίας 2. Δημιουργία ενός αποτελεσματικού μοντέλου διαλόγου Μοντέλα επικοινωνίας


Υπερκείμενο- ένας ειδικός τρόπος οργάνωσης και παρουσίασης κειμένου, στον οποίο πολλά κείμενα ή τμήματα κειμένου μπορούν να διασυνδεθούν με διάφορους τύπους συνδέσμων.


Διαφορές μεταξύ υπερκειμένου και παραδοσιακού κειμένου

Υπερκείμενο


Επεξεργασία λόγου

1. αυτόματη σύνθεση ομιλίας

Α) η ανάπτυξη συνθεσάιζερ τύπου «κείμενο σε ομιλία». Περιλαμβάνει 2 μπλοκ: μπλοκ γλωσσικής επεξεργασίας κειμένουκαι μπλοκ ακουστικής σύνθεσης.

2. αυτόματη αναγνώριση ομιλίας


1) Αναγνώριση κειμένου

2) ανάλυση κειμένου

3) σύνθεση κειμένου


IPS (σύστημα ανάκτησης πληροφοριών)- πρόκειται για συστήματα λογισμικού για την αποθήκευση, αναζήτηση και έκδοση πληροφοριών που ενδιαφέρουν.

Zakharov V.P. πιστεύει ότι IPSείναι ένα ταξινομημένο σύνολο εγγράφων και τεχνολογιών πληροφοριών που έχουν σχεδιαστεί για την αποθήκευση και ανάκτηση πληροφοριών - κειμένων ή δεδομένων.


3 τύποι IPS

3 τύποι IPS

    Εγχειρίδιοείναι μια αναζήτηση βιβλιοθήκης.

  • ΜηχανοποιημένοΤα IPS είναι τεχνικά εργαλεία που διασφαλίζουν την επιλογή των απαραίτητων εγγράφων

  • Αυτόματο- αναζήτηση πληροφοριών με χρήση υπολογιστών


Λεξικογραφία υπολογιστή

Λεξικογραφία υπολογιστή- ένας από τους σημαντικούς τομείς της εφαρμοσμένης γλωσσολογίας, ασχολείται με τη θεωρία και την πράξη της σύνταξης λεξικών.

Υπάρχουν 2 κατευθύνσεις στη λεξικογραφία:
  • Παραδοσιακή λεξικογραφίασύνταξη παραδοσιακών λεξικών

  • Μηχανική λεξικογραφίααυτοματοποιεί την προετοιμασία λεξικών και επιλύει τα προβλήματα ανάπτυξης ηλεκτρονικών λεξικών


Εργασίες λεξικογραφίας υπολογιστή

  • Αυτόματη παραγωγή διαφόρων λεξικών από κείμενο

  • Δημιουργία λεξικών που είναι ηλεκτρονικές εκδόσεις παραδοσιακών λεξικών ή πολύπλοκων ηλεκτρονικών γλωσσικών λεξικών για έργα παραδοσιακών λεξικών, όπως το LINGVO

  • Ανάπτυξη θεωρητικών και πρακτικών πτυχών της σύνταξης ειδικών λεξικών υπολογιστών, για παράδειγμα, για ανάκτηση πληροφοριών, αυτόματη μετάφραση


Μηχανική μετάφραση

Μηχανική μετάφραση- μετατροπή κειμένου σε μια φυσική γλώσσα σε μια άλλη φυσική γλώσσα χρησιμοποιώντας υπολογιστή.

Τύποι αυτόματης μετάφρασης
  • FAMT(Fully Automated Machine Translation) - πλήρως αυτόματη μετάφραση

  • ΧΑΜΤ(Human Aided machine Translation) - αυτόματη μετάφραση με τη συμμετοχή ενός ατόμου

  • MAHT(Machine Aided Human Translation) είναι μια μετάφραση που πραγματοποιείται από άτομο χρησιμοποιώντας βοηθητικό λογισμικό και γλωσσικά εργαλεία.


  • 2) επαγγελματίας βουλευτής– καλύτερη μετάφραση με επακόλουθη ανθρώπινη επεξεργασία

  • 3) διαδραστικό MP- θεωρείται μεταφορά σε ειδικά συστήματα υποστήριξης, γίνεται σε λειτουργία διαλόγου με σύστημα υπολογιστή. Η ποιότητα του MT εξαρτάται από τις ρυθμίσεις, τους πόρους, τον τύπο των κειμένων.

Σώμα κειμένων

Σώμα κειμένων- αυτή είναι μια συλλογή κειμένων, η οποία βασίζεται σε μια λογική ιδέα, μια λογική ιδέα που ενώνει αυτά τα κείμενα.

Γλωσσικό σώμα-μια μεγάλη, ηλεκτρονικά παρουσιαζόμενη, ενοποιημένη, δομημένη, χαρακτηρισμένη, φιλολογικά ικανή σειρά γλωσσικών δεδομένων, σχεδιασμένη να επιλύει συγκεκριμένα γλωσσικά προβλήματα.


Η αντιπροσωπευτικότητα είναι η πιο σημαντική ιδιότητα του σώματος


Ο σκοπός του γλωσσικού σώματος είναι να δείξει τη λειτουργία των γλωσσικών ενοτήτων στο φυσικό περιβάλλον τους



Με βάση το σώμα, μπορείτε να λάβετε δεδομένα:

1. για τη συχνότητα των γραμματικών κατηγοριών

2. Σχετικά με τις αλλαγές συχνότητας

3. σχετικά με τις αλλαγές στα πλαίσια σε διαφορετικές χρονικές περιόδους

5. σχετικά με την από κοινού εμφάνιση λεξιλογικών ενοτήτων

6. για τα χαρακτηριστικά της συμβατότητάς τους


Brown Corps


Σώμα κειμένων - αυτή είναι μια συλλογή κειμένων, η οποία βασίζεται σε μια λογική ιδέα, μια λογική ιδέα που ενώνει αυτά τα κείμενα. Η ενσάρκωση αυτής της λογικής ιδέας: οι κανόνες για την οργάνωση των κειμένων σε ένα σώμα, αλγόριθμοι και προγράμματα για την ανάλυση του σώματος των κειμένων, η ιδεολογία και η μεθοδολογία που συνδέονται με αυτό. Εθνικό Σώμα αντιπροσωπεύει μια δεδομένη γλώσσα σε ένα ορισμένο στάδιο (ή στάδια) της ύπαρξής της και σε όλη την ποικιλία των ειδών, των στυλ, των εδαφικών και κοινωνικών επιλογών κ.λπ. Βασικοί όροι υπολογιστικής γλωσσολογίας

    Γλώσσες προγραμματισμού (JP) είναι μια κατηγορία τεχνητές γλώσσεςσχεδιασμένο να επεξεργάζεται πληροφορίες χρησιμοποιώντας υπολογιστή. Οποιαδήποτε γλώσσα προγραμματισμού είναι αυστηρή (επίσημη) σύστημα σημαδιών, που χρησιμοποιείται για τη γραφή προγράμματα υπολογιστή. Σύμφωνα με διάφορους υπολογισμούς, σήμερα υπάρχουν από χίλιες έως δέκα χιλιάδες διαφορετικές γλώσσες προγραμματισμού.

  • Πληροφορική(Επιστήμη των υπολογιστών) -η επιστήμη των κανονικοτήτων καταγραφής, αποθήκευσης, επεξεργασίας, μετάδοσης και χρήσης πληροφοριών με τη βοήθεια τεχνικών μέσων.



Αναζήτηση πληροφοριών (Ανάκτηση πληροφορίας) είναι η διαδικασία εύρεσης τέτοιων εγγράφων (κείμενα, αρχεία και

κ.λπ.) που ταιριάζουν με το αίτημα.

« Σύστημα ανάκτησης πληροφοριών (IPS) είναι ένα ταξινομημένο σύνολο εγγράφων (συστοιχίες εγγράφων) και Τεχνολογίες πληροφορικής, σχεδιασμένο για αποθήκευση και αναζήτηση πληροφοριών - κειμένων (έγγραφα) ή δεδομένων (γεγονότων).

Μηχανική λεξικογραφία(Υπολογιστική Λεξικογραφία)ασχολείται με την αυτοματοποίηση της προετοιμασίας λεξικών και επιλύει τα προβλήματα ανάπτυξης ηλεκτρονικών

λεξικά.

Μηχανική μετάφραση είναι ένας υπολογιστής μετασχηματισμός κειμένου σε ένα

φυσική γλώσσα σε ένα κείμενο ισοδύναμο σε περιεχόμενο με ένα άλλο

φυσική γλώσσα.

Υπερκείμενο είναι μια τεχνολογία για την οργάνωση πληροφοριών και ενός ειδικά δομημένου κειμένου, χωρισμένο σε ξεχωριστά μπλοκ, με μη γραμμική αναπαράσταση, για την αποτελεσματική παρουσίαση πληροφοριών σε περιβάλλοντα υπολογιστών.


    πλαίσιο είναι μια δομή προς αναπαράσταση δηλωτική γνώσησχετικά με μια τυπική θεματικά ενοποιημένη κατάσταση, δηλ. δομή δεδομένων σχετικά με μια στερεότυπη κατάσταση.

  • Σενάριο - αυτή είναι μια ακολουθία πολλών επεισοδίων στο χρόνο, αυτή είναι επίσης μια αναπαράσταση μιας στερεότυπης κατάστασης ή μιας στερεότυπης συμπεριφοράς, μόνο τα στοιχεία του σεναρίου είναι τα βήματα του αλγορίθμου ή οι οδηγίες.
  • Σχέδιο - αναπαράσταση γνώσεων σχετικά με τις πιθανές ενέργειες που είναι απαραίτητες για την επίτευξη ενός συγκεκριμένου στόχου.



Επιστήμονες στον τομέα της υπολογιστικής γλωσσολογίας:

  • Σοβιετικοί και Ρώσοι επιστήμονες: Alexey Lyapunov, Igor Melchuk, Olga Kulagina, Yu.D. Apresyan, Ν.Ν. Leontiev, Yu.S. Martemyanov, Z.M. Chaliapin, Igor Boguslavsky, A.S. Narignani, A.E. Kibrik, Baranov A.N.

  • Δυτικοί επιστήμονεςΠαίζουν: Γιόρικ Βιλκς, Γκρέγκορι Γκρεβενστέτ, Γκράβιλ Κόρμπετ, Τζον Κάρολ, Νταϊάνα ΜακΚάρθι, Λουίς Μάρκες, Νταν Μόλντοβαν, Γιόακιμ Νιβρέ, Βίκτορ Ράσκιν, Έντουαρντ Χόβεϊ.


Ενώσεις και Συνέδρια Υπολογιστικής Γλωσσολογίας:
  • "Διάλογος"- η κύρια ρωσική διάσκεψη με θέμα υπολογιστική γλωσσολογίαμε διεθνή συμμετοχή.

Η προτεραιότητα του Διαλόγου είναι μοντελοποίηση υπολογιστήΡωσική γλώσσα. Οι γλώσσες εργασίας του συνεδρίου είναι τα ρωσικά και τα αγγλικά. Για την προσέλκυση ξένων κριτών, το κύριο μέρος των εφαρμοζόμενων έργων υποβάλλεται στα αγγλικά.

Βασικές κατευθύνσεις του συνεδρίου:
  • Γλωσσική σημασιολογίακαι σημασιολογική ανάλυση

  • Επίσημα γλωσσικά μοντέλα και οι εφαρμογές τους

  • Θεωρητικό και υπολογιστή λεξικογραφία

  • Μέθοδοι αξιολόγησης για συστήματα ανάλυσης κειμένου και μηχανικής μετάφρασης

  • Corpus linguistics. Δημιουργία, εφαρμογή, αξιολόγηση corpus

  • Διαδίκτυοως γλωσσικό πόρο. Γλωσσικές τεχνολογίες στο Διαδίκτυο

  • Οντολογίες. Εξαγωγή Γνώσηςαπό κείμενα

  • Ανάλυση εγγράφων με υπολογιστή: περίληψη, ταξινόμηση, Αναζήτηση

  • Αυτόματη Ανάλυση Συναισθημάτων Κειμένων

  • Μηχανική μετάφραση

  • μοντέλα επικοινωνίας. Επικοινωνία, διάλογος και ομιλητική πράξη

  • Ανάλυση και σύνθεση λόγου



2. Σύνδεσμος Υπολογιστικής Γλωσσολογίας (ACL)είναι μια διεθνής επιστημονική και επαγγελματική εταιρεία ανθρώπων που εργάζονται σε προβλήματα που αφορούν τη φυσική γλώσσα και την πληροφορική. Κάθε καλοκαίρι πραγματοποιείται ετήσια συνάντηση σε τοποθεσίες όπου διεξάγεται σημαντική υπολογιστική γλωσσολογική έρευνα. Ιδρύθηκε το 1962, αρχικά ονομάστηκε Association for Machine Translation and Computational Linguistics (AMTCL). Το 1968 αυτό έγινε το ACL.
  • Το ACL έχει ευρωπαϊκό (EACL)και της Βόρειας Αμερικής (NACL)κλαδια δεντρου.

  • περιοδικό ACL, Υπολογιστική γλωσσολογία, είναι το κύριο φόρουμ για έρευνα στην υπολογιστική γλωσσολογία και την επεξεργασία φυσικής γλώσσας. Από το 1988 το περιοδικό εκδίδεται για το ACL Τύπος MIT.
  • Σειρά βιβλίων ACL, Έρευνα στην Επεξεργασία Φυσικής Γλώσσας, δημοσίευσε Cambridge University Press.

  • Κάθε χρόνο το ACL και τα παραρτήματά του διοργανώνουν διεθνή συνέδρια σε διάφορες χώρες.

Το ACL 2014 πραγματοποιήθηκε στη Βαλτιμόρη των Η.Π.Α.

  • βιβλιογραφικές αναφορές:

  • 1. Marchuk Yu.N. Υπολογιστική γλωσσολογία: σχολικό βιβλίο / Yu.N. Marchuk. - M.: AST: East-West, 2007 - 317 p.

  • 2. Shilihina K.M. Fundamentals of Applied Linguistics: εγχειρίδιο για την ειδικότητα 021800 (031301) - Theoretical and Applied Linguistics, Voronezh, 2006.

  • 3. Boyarsky K.K. Εισαγωγή στην Υπολογιστική Γλωσσολογία. Textbook.- St. Petersburg: NRU ITMO, 2013.- 72 p.

  • 4. Shchipitsina L.Yu. Τεχνολογίες πληροφοριών στη γλωσσολογία: σχολικό βιβλίο / L.Yu. Shchipitsina.- M.: FLINTA: Science, 2013.- 128 p.

  • 5. Σοσνίνα Ε.Π. Εισαγωγή στην Εφαρμοσμένη Γλωσσολογία: σχολικό βιβλίο / E.P. Sosnina - 2η έκδ., Διορθώθηκε. και επιπλέον - Ulyanovsk: UlGTU, 2012. -110 σελ.

  • 6. Baranov A.N. Introduction to Applied Linguistics: Textbook.- M.: Editorial URSS, 2001.- 360 p.

  • 7. Εφαρμοσμένη γλωσσολογία: Σχολικό βιβλίο / L.V. Bondarko, L.A. Verbitskaya, G.Ya. Martynenko και άλλοι. Μαλλομέταξο ύφασμα. Συντάκτης Α.Σ. Gerd. SPb.: εκδοτικός οίκος S.-Petersburg. Παν., 1996.- 528 σελ.

  • 8. Shemyakin Yu.I. Αρχές Υπολογιστικής Γλωσσολογίας: Εγχειρίδιο. Μ.: Εκδοτικός οίκος ΜΓΟΥ, Α/Ο «Rosvuznauka», 1992.

  • Εισαγωγή

    Τι είναι η Υπολογιστική Γλωσσολογία;

    ΓΛΩΣΣΟΛΟΓΙΑ Η/Υ , μια κατεύθυνση στην εφαρμοσμένη γλωσσολογία, επικεντρωμένη στη χρήση εργαλείων υπολογιστών - προγραμμάτων, τεχνολογιών υπολογιστών για την οργάνωση και επεξεργασία δεδομένων - για τη μοντελοποίηση της λειτουργίας μιας γλώσσας σε ορισμένες συνθήκες, καταστάσεις, προβληματικές περιοχές κ.λπ., καθώς και ολόκληρο το πεδίο εφαρμογής μοντέλων γλώσσας υπολογιστών στη γλωσσολογία και συναφείς κλάδους. Στην πραγματικότητα, μόνο στην τελευταία περίπτωση μιλάμε για εφαρμοσμένη γλωσσολογία με τη στενή έννοια, αφού η υπολογιστική μοντελοποίηση μιας γλώσσας μπορεί επίσης να θεωρηθεί ως σφαίρα εφαρμογής της επιστήμης των υπολογιστών και της θεωρίας προγραμματισμού για την επίλυση προβλημάτων της επιστήμης της γλώσσας. Στην πράξη, ωστόσο, σχεδόν οτιδήποτε σχετίζεται με τη χρήση των υπολογιστών στη γλωσσολογία αναφέρεται ως υπολογιστική γλωσσολογία.

    Ως ειδική επιστημονική κατεύθυνση, η υπολογιστική γλωσσολογία διαμορφώθηκε τη δεκαετία του 1960. Ο ρωσικός όρος "υπολογιστική γλωσσολογία" είναι ένα χαρτί ανίχνευσης από την αγγλική υπολογιστική γλωσσολογία. Δεδομένου ότι το επίθετο υπολογιστική στα ρωσικά μπορεί επίσης να μεταφραστεί ως "υπολογιστική", ο όρος "υπολογιστική γλωσσολογία" βρίσκεται επίσης στη βιβλιογραφία, αλλά στη ρωσική επιστήμη αποκτά μια στενότερη σημασία, προσεγγίζοντας την έννοια της "ποσοτικής γλωσσολογίας". Η ροή των δημοσιεύσεων σε αυτόν τον τομέα είναι πολύ υψηλή. Εκτός από τις θεματικές συλλογές, το περιοδικό Computational Linguistics δημοσιεύεται κάθε τρίμηνο στις Ηνωμένες Πολιτείες. Εξαιρετική οργανωτική και επιστημονική εργασίαδιενεργείται από την Ένωση Υπολογιστικής Γλωσσολογίας, η οποία έχει περιφερειακές δομές (ιδίως το ευρωπαϊκό παράρτημα). Κάθε δύο χρόνια πραγματοποιούνται διεθνή συνέδρια για την υπολογιστική γλωσσολογία - COLING. Τα σχετικά θέματα παρουσιάζονται συνήθως ευρέως και σε διάφορα συνέδρια για την τεχνητή νοημοσύνη.

    Καθήκοντα

    Υπολογιστική γλωσσολογία αναλαμβάνει τα πραγματικά γλωσσικά προβλήματα της υπολογιστικής μοντελοποίησης της γλωσσικής δραστηριότητας. Τα καθήκοντά του είναι να δημιουργήσει ακριβέστερα και πληρέστερα γλωσσικά μοντέλα και πιο προηγμένους αλγόριθμους για ανάλυση και σύνθεση.

    Οι κύριες κατευθύνσεις είναι:

    1) Αλληλεπίδραση ανθρώπου-υπολογιστή: έλεγχος - γλώσσες προγραμματισμού, μεταφορά πληροφοριών - διεπαφή.

    2) Εργασία με κείμενα: ευρετηρίαση, ανάλυση και ταξινόμηση, αυτόματη επεξεργασία (διόρθωση σφαλμάτων), ανίχνευση γνώσης, αυτόματη μετάφραση.

    Ιστορία

    Μια απλή δημιουργία ενός υποσυνόλου της αγγλικής γλώσσας για την πρόσβαση σε βάσεις δεδομένων παρασχέθηκε από ένα από τα πρώιμα αμερικανικά συστήματα LIFER (Language Interface Facility wich Elipsis and Recursion), που δημιουργήθηκε τη δεκαετία του '70. Μετά από αυτό, άλλα, πιο ευέλικτα συστήματα εμφανίστηκαν στην αγορά υπολογιστών, παρέχοντας μια περιορισμένη διεπαφή φυσικής γλώσσας με έναν υπολογιστή.

    Στη δεκαετία του 1980, ένας αριθμός εταιρειών δημιουργήθηκε στις Ηνωμένες Πολιτείες που ασχολούνταν με την ανάπτυξη και την πώληση διεπαφών φυσικής γλώσσας με βάσεις δεδομένων και έμπειρα συστήματα. Το 1985 Η Semantec Corporation παρουσίασε ένα τέτοιο πακέτο λογισμικού Q&A, ενώ ο Όμιλος Carnegie πρόσφερε ένα παρόμοιο πακέτο, το LanguageCraft.

    Ενεργές εργασίες βρίσκονται σε εξέλιξη για τη δημιουργία συστημάτων αυτόματης μετάφρασης. Το σύστημα αυτόματης μετάφρασης SYSTRAN, που αναπτύχθηκε υπό τις οδηγίες του D. Tom, το οποίο παρήγγειλε η Πολεμική Αεροπορία των ΗΠΑ, έχει γίνει ευρέως διαδεδομένο. Κατά την περίοδο 1974 - 1975. το σύστημα χρησιμοποιήθηκε από την Αεροδιαστημική Ένωση της NASA για τη μετάφραση εγγράφων για το έργο Apollo-Soyuz. Σήμερα, μεταφράζει από πολλές γλώσσες περίπου 100.000 σελίδες ετησίως.

    Στην Ευρώπη, οι εργασίες για τη δημιουργία συστημάτων μετάφρασης ηλεκτρονικών υπολογιστών υποκινήθηκαν με τη δημιουργία του Ευρωπαϊκού Δικτύου Πληροφοριών (EURONET DIANA). Το 1982, η Ευρωπαϊκή Οικονομική Κοινότητα ανακοίνωσε τη δημιουργία του ευρωπαϊκού προγράμματος EUROTRA, σκοπός του οποίου είναι η ανάπτυξη ενός ηλεκτρονικού συστήματος μετάφρασης για όλες τις ευρωπαϊκές γλώσσες. Αρχικά, το έργο υπολογίστηκε σε 12 εκατομμύρια δολάρια· το 1987, οι ειδικοί προσδιόρισαν το συνολικό κόστος αυτού του έργου σε περισσότερα από 160 εκατομμύρια δολάρια.

    Στην Ιαπωνία, η υπολογιστική γλωσσολογική έρευνα επικεντρώνεται γύρω από ένα εθνικό πρόγραμμα υπολογιστή πέμπτης γενιάς που ξεκίνησε το 1981.

    Υπάρχει μια σειρά από στρατιωτικά έργα για τη δημιουργία διεπαφών ανθρώπου-μηχανής σε φυσική γλώσσα. Στις Ηνωμένες Πολιτείες, πραγματοποιούνται κυρίως στο πλαίσιο του Strategic Computer Initiative, ενός δεκαετούς προγράμματος που εγκρίθηκε από το Υπουργείο Άμυνας το 1983. Στόχος του είναι να δημιουργήσει μια νέα γενιά «ευφυών» όπλων και στρατιωτικών συστημάτων προκειμένου για τη διασφάλιση της μακροπρόθεσμης τεχνολογικής υπεροχής των Ηνωμένων Πολιτειών.

    Όπως είναι φυσικό, οι ειδικοί της τεχνητής νοημοσύνης, που γνωρίζουν καλά τους υπολογιστές και τις γλώσσες προγραμματισμού, εργάζονται δυναμικά για την επίλυση του προβλήματος της κατανόησης της γλώσσας με τις δικές τους μεθόδους. Έγινε αναζήτηση για αλγόριθμους φυσικής γλώσσας. Δημιουργήθηκαν σύνθετα προγράμματα κατανόησης γλώσσας για πολύ στενούς ειδικούς τομείς, εφαρμόστηκαν προγράμματα μερικής αυτόματης μετάφρασης και μια σειρά από άλλα. Δεν υπήρξε όμως αποφασιστική πρόοδος στην επίλυση του προβλήματος της κατανόησης της γλώσσας. Γλώσσα και άνθρωπος συνδέονται τόσο πολύ που οι επιστήμονες έπρεπε να αντιμετωπίσουν το πρόβλημα της κατανόησης του κόσμου από τον άνθρωπο. Και αυτό είναι το βασίλειο της φιλοσοφίας.

    Βασικές έννοιες της γλωσσολογίας

    Φιλολογία ΛύκειοΤα Οικονομικά, εγκαινιάζεται ένα νέο μεταπτυχιακό πρόγραμμα αφιερωμένο στην υπολογιστική γλωσσολογία: υποδέχεται υποψήφιους με βασική ανθρωπιστική και μαθηματική εκπαίδευση και οποιονδήποτε ενδιαφέρεται να λύσει προβλήματα σε έναν από τους πιο υποσχόμενους κλάδους της επιστήμης. Η αρχηγός του, Anastasia Bonch-Osmolovskaya, είπε στο Theory and Practice τι είναι η υπολογιστική γλωσσολογία, γιατί τα ρομπότ δεν θα αντικαταστήσουν τους ανθρώπους και τι θα διδαχθεί στο μεταπτυχιακό πρόγραμμα HSE στην υπολογιστική γλωσσολογία.

    Αυτό το πρόγραμμα είναι σχεδόν το μοναδικό στο είδος του στη Ρωσία. Πού σπούδασες ο ίδιος;

    Σπούδασα στο Κρατικό Πανεπιστήμιο της Μόσχας στο Τμήμα Θεωρητικής και Εφαρμοσμένης Γλωσσολογίας της Φιλολογικής Σχολής. Δεν έφτασα αμέσως εκεί, στην αρχή μπήκα στο ρωσικό τμήμα, αλλά μετά ενδιαφέρθηκα σοβαρά για τη γλωσσολογία και με τράβηξε η ατμόσφαιρα που παραμένει στο τμήμα μέχρι σήμερα. Το πιο σημαντικό πράγμα που υπάρχει είναι η καλή επαφή μεταξύ καθηγητών και μαθητών και το αμοιβαίο ενδιαφέρον τους.

    Όταν έκανα παιδιά και έπρεπε να βγάλω τα προς το ζην, πήγα στον τομέα της εμπορικής γλωσσολογίας. Το 2005, δεν ήταν πολύ σαφές ποιος ήταν αυτός ο τομέας δραστηριότητας. Εργάστηκα σε διαφορετικές γλωσσικές εταιρείες: ξεκίνησα με μια μικρή εταιρεία στον ιστότοπο Public.ru - αυτή είναι μια τέτοια βιβλιοθήκη πολυμέσων, όπου άρχισα να εργάζομαι με γλωσσικές τεχνολογίες. Στη συνέχεια εργάστηκα για ένα χρόνο στη Rosnanotech, όπου είχα την ιδέα να φτιάξω μια αναλυτική πύλη ώστε τα δεδομένα σε αυτήν να δομούνται αυτόματα. Στη συνέχεια, ήμουν επικεφαλής του γλωσσικού τμήματος στην εταιρεία Avicomp - αυτή είναι ήδη μια σοβαρή παραγωγή στον τομέα της υπολογιστικής γλωσσολογίας και των σημασιολογικών τεχνολογιών. Παράλληλα, δίδαξα ένα μάθημα υπολογιστικής γλωσσολογίας στο Κρατικό Πανεπιστήμιο της Μόσχας και προσπάθησα να το κάνω πιο σύγχρονο.

    Δύο πόροι για έναν γλωσσολόγο: - ένας ιστότοπος που δημιουργήθηκε από γλωσσολόγους για επιστημονική και εφαρμοσμένη έρευνα που σχετίζεται με τη ρωσική γλώσσα. Αυτό είναι ένα μοντέλο της ρωσικής γλώσσας, που παρουσιάζεται με τη βοήθεια μιας τεράστιας σειράς κειμένων από διαφορετικά είδη και περιόδους. Τα κείμενα παρέχονται με γλωσσική σήμανση, η οποία μπορεί να χρησιμοποιηθεί για τη λήψη πληροφοριών σχετικά με τη συχνότητα ορισμένων γλωσσικών φαινομένων. Wordnet - μια τεράστια λεξιλογική βάση δεδομένων Στα Αγγλικά, η κύρια ιδέα του Wordnet είναι να συνδέσει όχι λέξεις, αλλά τις έννοιές τους σε ένα μεγάλο δίκτυο. Το Wordnet μπορεί να ληφθεί και να χρησιμοποιηθεί για τα δικά σας έργα.

    Τι κάνει η υπολογιστική γλωσσολογία;

    Αυτό είναι το πιο διεπιστημονικό πεδίο. Το πιο σημαντικό εδώ είναι να κατανοήσετε τι συμβαίνει στον ηλεκτρονικό κόσμο και ποιος θα σας βοηθήσει να κάνετε συγκεκριμένα πράγματα.

    Είμαστε περιτριγυρισμένοι από ένας μεγάλος αριθμός απόψηφιακές πληροφορίες, υπάρχουν πολλά επιχειρηματικά έργα των οποίων η επιτυχία εξαρτάται από την επεξεργασία των πληροφοριών, αυτά τα έργα μπορεί να σχετίζονται με το μάρκετινγκ, την πολιτική, την οικονομία και οτιδήποτε άλλο. Και είναι πολύ σημαντικό να μπορείτε να χειρίζεστε αποτελεσματικά αυτές τις πληροφορίες - το κύριο πράγμα δεν είναι μόνο η ταχύτητα επεξεργασίας των πληροφοριών, αλλά και η ευκολία με την οποία μπορείτε, αφού φιλτράρετε τον θόρυβο, να λάβετε τα δεδομένα που χρειάζεστε και να δημιουργήσετε ολόκληρη η εικόνα από αυτούς.

    Προηγουμένως, ορισμένες παγκόσμιες ιδέες συνδέονταν με την υπολογιστική γλωσσολογία, για παράδειγμα: οι άνθρωποι πίστευαν ότι η μηχανική μετάφραση θα αντικαθιστούσε την ανθρώπινη μετάφραση, τα ρομπότ θα λειτουργούσαν αντί για τους ανθρώπους. Αλλά τώρα φαίνεται σαν ουτοπία και η αυτόματη μετάφραση χρησιμοποιείται στις μηχανές αναζήτησης για γρήγορη αναζήτηση σε μια άγνωστη γλώσσα. Δηλαδή, τώρα η γλωσσολογία σπάνια ασχολείται με αφηρημένα καθήκοντα - κυρίως με μερικά μικρά πράγματα που μπορούν να εισαχθούν σε ένα μεγάλο προϊόν και να κερδίσουν χρήματα από αυτό.

    Ένα από τα μεγάλα καθήκοντα της σύγχρονης γλωσσολογίας είναι ο σημασιολογικός ιστός, όταν η αναζήτηση πραγματοποιείται όχι μόνο από τη σύμπτωση των λέξεων, αλλά από το νόημα, και όλοι οι ιστότοποι χαρακτηρίζονται κατά κάποιο τρόπο από σημασιολογία. Αυτό μπορεί να είναι χρήσιμο, για παράδειγμα, για αστυνομικές ή ιατρικές εκθέσεις που συντάσσονται καθημερινά. Ανάλυση εσωτερικές επικοινωνίεςδίνει πολλές απαραίτητες πληροφορίες και η ανάγνωση και η χειροκίνητη μέτρησή τους είναι απίστευτα μεγάλη.

    Με λίγα λόγια, έχουμε χίλια κείμενα, πρέπει να τα ταξινομήσουμε σε σωρούς, να παρουσιάσουμε κάθε κείμενο ως δομή και να πάρουμε έναν πίνακα με τον οποίο μπορούμε ήδη να δουλέψουμε. Αυτό ονομάζεται αδόμητη επεξεργασία πληροφοριών. Από την άλλη πλευρά, η υπολογιστική γλωσσολογία ασχολείται, για παράδειγμα, με τη δημιουργία τεχνητών κειμένων. Υπάρχει μια εταιρεία που βρήκε έναν μηχανισμό για τη δημιουργία κειμένων για θέματα που είναι βαρετό για ένα άτομο να γράφει: αλλαγές στις τιμές των ακινήτων, πρόβλεψη καιρού, αναφορά για ΑΓΩΝΕΣ ΠΟΔΟΣΦΑΙΡΟΥ. Είναι πολύ πιο ακριβό να παραγγείλετε αυτά τα κείμενα για ένα άτομο, επιπλέον, τα κείμενα στον υπολογιστή για τέτοια θέματα είναι γραμμένα σε μια συνεκτική ανθρώπινη γλώσσα.

    Η Yandex συμμετέχει ενεργά στις εξελίξεις στον τομέα της αδόμητης αναζήτησης πληροφοριών στη Ρωσία, η Kaspersky Lab προσλαμβάνει ερευνητικές ομάδες που μελετούν τη μηχανική μάθηση. Προσπαθεί κάποιος στην αγορά να βρει κάτι νέο στον τομέα της υπολογιστικής γλωσσολογίας;

    **Βιβλία Υπολογιστικής Γλωσσολογίας:**

    Daniel Jurafsky, Επεξεργασία Λόγου και Γλώσσας

    Christopher Manning, Prabhakar Raghavan, Heinrich Schütze, Introduction to Information Retrieval

    Jacob Testelec, "Introduction to General Syntax"

    Οι περισσότερες γλωσσικές εξελίξεις είναι ιδιοκτησία μεγάλων εταιρειών, δεν υπάρχει σχεδόν τίποτα ανοιχτή πρόσβαση. Αυτό εμποδίζει την ανάπτυξη του κλάδου, δεν έχουμε ελεύθερη γλωσσική αγορά, κουτιού λύσεις.

    Επιπλέον, υπάρχει έλλειψη πλήρους πληροφοριακούς πόρους. Υπάρχει ένα τέτοιο έργο όπως το Εθνικό Σώμα της Ρωσικής Γλώσσας. Πρόκειται για ένα από τα καλύτερα εθνικά σώματα στον κόσμο, που αναπτύσσεται ταχύτατα και ανοίγει απίστευτες ευκαιρίες για επιστημονική και εφαρμοσμένη έρευνα. Η διαφορά είναι περίπου η ίδια όπως στη βιολογία - πριν και μετά την έρευνα DNA.

    Αλλά πολλοί πόροι δεν υπάρχουν στα ρωσικά. Έτσι, δεν υπάρχει ανάλογο σε έναν τόσο υπέροχο αγγλόφωνο πόρο όπως το Framenet - αυτό είναι ένα τέτοιο εννοιολογικό δίκτυο, όπου παρουσιάζονται επίσημα όλες οι πιθανές συνδέσεις μιας συγκεκριμένης λέξης με άλλες λέξεις. Για παράδειγμα, υπάρχει η λέξη "fly" - ποιος μπορεί να πετάξει, πού, με ποια πρόφαση χρησιμοποιείται αυτή η λέξη, με ποιες λέξεις συνδυάζεται κ.λπ. Αυτός ο πόρος βοηθά στη σύνδεση της γλώσσας με την πραγματική ζωή, δηλαδή στον εντοπισμό του πώς συμπεριφέρεται μια συγκεκριμένη λέξη σε επίπεδο μορφολογίας και σύνταξης. Είναι πολύ χρήσιμο.

    Η Avicomp αναπτύσσει αυτήν τη στιγμή μια προσθήκη για την αναζήτηση σχετικών άρθρων. Δηλαδή, αν σας ενδιαφέρει κάποιο άρθρο, μπορείτε να δείτε γρήγορα την ιστορία της πλοκής: πότε προέκυψε το θέμα, τι γράφτηκε και πότε ήταν η κορύφωση του ενδιαφέροντος για αυτό το πρόβλημα. Για παράδειγμα, με τη βοήθεια αυτής της προσθήκης, θα είναι δυνατό, ξεκινώντας από ένα άρθρο για τα γεγονότα στη Συρία, να δούμε πολύ γρήγορα πώς πέρυσιεκεί εκτυλίχθηκαν τα γεγονότα.

    Πώς θα δομηθεί η μαθησιακή διαδικασία στο μεταπτυχιακό πρόγραμμα;

    Η εκπαίδευση στο HSE είναι οργανωμένη σε ξεχωριστές ενότητες, όπως και στα δυτικά πανεπιστήμια. Οι μαθητές θα χωριστούν σε μικρές ομάδες, mini-startups - δηλαδή, στο τέλος θα πρέπει να πάρουμε αρκετά ολοκληρωμένα έργα. Θέλουμε να αποκτήσουμε πραγματικά προϊόντα, τα οποία στη συνέχεια θα ανοίξουμε στους ανθρώπους και θα τα αφήσουμε στο δημόσιο τομέα.

    Εκτός από τους άμεσους επόπτες των έργων των μαθητών, θέλουμε να βρούμε επιμελητές από τους πιθανούς εργοδότες τους - από το ίδιο Yandex, για παράδειγμα, οι οποίοι θα παίξουν επίσης αυτό το παιχνίδι και θα δώσουν στους μαθητές μερικές συμβουλές.

    Ελπίζω ότι άνθρωποι από διάφορους τομείς θα έρθουν στο δικαστήριο: προγραμματιστές, γλωσσολόγοι, κοινωνιολόγοι, έμποροι. Θα έχουμε αρκετά μαθήματα προσαρμογής στη γλωσσολογία, τα μαθηματικά και τον προγραμματισμό. Τότε θα έχουμε δύο σοβαρά μαθήματα γλωσσολογίας, και θα συνδέονται με τις πιο σύγχρονες γλωσσικές θεωρίες, θέλουμε οι απόφοιτοί μας να μπορούν να διαβάζουν και να κατανοούν σύγχρονα γλωσσικά άρθρα. Το ίδιο συμβαίνει και με τα μαθηματικά. Θα έχουμε ένα μάθημα που ονομάζεται «Μαθηματικά θεμέλια της Υπολογιστικής Γλωσσολογίας», το οποίο θα παρουσιάζει εκείνες τις ενότητες των μαθηματικών στις οποίες βασίζεται η σύγχρονη υπολογιστική γλωσσολογία.

    Για να εγγραφείτε σε μεταπτυχιακό πρόγραμμα, πρέπει να περάσετε εισαγωγικές εξετάσειςστη γλώσσα και περάστε σε διαγωνισμό χαρτοφυλακίου.

    Εκτός από τα κύρια μαθήματα, θα υπάρχει μια σειρά από μαθήματα επιλογής. Έχουμε προγραμματίσει αρκετούς κύκλους - δύο από αυτούς επικεντρώνονται σε μια βαθύτερη μελέτη επιλεγμένα θέματα, που περιλαμβάνουν, για παράδειγμα, τη μηχανική μετάφραση και τη γλωσσολογία των σωμάτων, και, αντίθετα, σχετίζεται με συναφείς τομείς: όπως, μεσα ΚΟΙΝΩΝΙΚΗΣ ΔΙΚΤΥΩΣΗΣ, μηχανική μάθηση ή Ψηφιακές Ανθρωπιστικές Σπουδές - ένα μάθημα που ελπίζουμε να παραδοθεί στα αγγλικά.

    ΕΡΓΑΣΙΑ ΜΑΘΗΜΑΤΟΣ

    στο γνωστικό αντικείμενο "Πληροφορική"

    με θέμα: "Γλωσσολογία Υπολογιστών"


    ΕΙΣΑΓΩΓΗ

    1. Θέση και ρόλος της υπολογιστικής γλωσσολογίας στη γλωσσική έρευνα

    2. Σύγχρονες διεπαφές υπολογιστικής γλωσσολογίας

    ΣΥΜΠΕΡΑΣΜΑ

    ΒΙΒΛΙΟΓΡΑΦΙΑ


    Εισαγωγή

    Στη ζωή σύγχρονη κοινωνίαοι αυτοματοποιημένες τεχνολογίες πληροφοριών διαδραματίζουν σημαντικό ρόλο. Με την πάροδο του χρόνου η αξία τους αυξάνεται συνεχώς. Αλλά η ανάπτυξη των τεχνολογιών πληροφοριών είναι πολύ άνιση: αν το σύγχρονο επίπεδο τεχνολογίας υπολογιστών και επικοινωνιών είναι εκπληκτικό, τότε στον τομέα της σημασιολογικής επεξεργασίας πληροφοριών, οι επιτυχίες είναι πολύ πιο μέτριες. Αυτές οι επιτυχίες εξαρτώνται, πρώτα απ 'όλα, από τα επιτεύγματα στη μελέτη των διαδικασιών της ανθρώπινης σκέψης, των διαδικασιών επικοινωνία ομιλίαςμεταξύ ανθρώπων και από την ικανότητα προσομοίωσης αυτών των διαδικασιών σε έναν υπολογιστή.

    Όταν πρόκειται για τη δημιουργία πολλά υποσχόμενων τεχνολογιών πληροφοριών, τα προβλήματα της αυτόματης επεξεργασίας πληροφορίες κειμένουπαρουσιάζονται σε φυσικές γλώσσες έρχονται στο προσκήνιο. Αυτό καθορίζεται από το γεγονός ότι η σκέψη ενός ατόμου είναι στενά συνδεδεμένη με τη γλώσσα του. Επιπλέον, η φυσική γλώσσα είναι ένα εργαλείο σκέψης. Είναι επίσης ένα καθολικό μέσο επικοινωνίας μεταξύ των ανθρώπων - ένα μέσο αντίληψης, συσσώρευσης, αποθήκευσης, επεξεργασίας και μετάδοσης πληροφοριών. Τα προβλήματα χρήσης της φυσικής γλώσσας σε συστήματα αυτόματης επεξεργασίας πληροφοριών αντιμετωπίζονται από την επιστήμη της υπολογιστικής γλωσσολογίας. Αυτή η επιστήμη προέκυψε σχετικά πρόσφατα - στις αρχές της δεκαετίας του '50 και του '60 του περασμένου αιώνα. Τον τελευταίο μισό αιώνα, έχουν ληφθεί σημαντικά επιστημονικά και επιστημονικά αποτελέσματα στον τομέα της υπολογιστικής γλωσσολογίας. πρακτικά αποτελέσματα: δημιουργήθηκαν συστήματα αυτόματης μετάφρασης κειμένων από μια φυσική γλώσσα σε άλλη, συστήματα αυτοματοποιημένης αναζήτησης πληροφοριών σε κείμενα, συστήματα αυτόματης ανάλυσης και σύνθεσης προφορικού λόγου και πολλά άλλα. Αυτή η εργασία είναι αφιερωμένη στην κατασκευή μιας βέλτιστης διεπαφής υπολογιστή χρησιμοποιώντας υπολογιστική γλωσσολογία για γλωσσική έρευνα.


    ΣΤΟ σύγχρονος κόσμοςΗ υπολογιστική γλωσσολογία χρησιμοποιείται όλο και περισσότερο σε διάφορες γλωσσολογικές μελέτες.

    Η υπολογιστική γλωσσολογία είναι ένα πεδίο γνώσης που σχετίζεται με την επίλυση προβλημάτων αυτόματης επεξεργασίας πληροφοριών που παρουσιάζονται σε φυσική γλώσσα. Κεντρικός επιστημονικά προβλήματαΗ υπολογιστική γλωσσολογία είναι το πρόβλημα της μοντελοποίησης της διαδικασίας κατανόησης του νοήματος των κειμένων (μετάβαση από το κείμενο σε μια τυπική αναπαράσταση του νοήματός του) και το πρόβλημα της σύνθεσης του λόγου (μετάβαση από μια τυπική αναπαράσταση του νοήματος σε κείμενα στη φυσική γλώσσα). Αυτά τα προβλήματα προκύπτουν κατά την επίλυση ορισμένων εφαρμοζόμενων προβλημάτων και, ειδικότερα, προβλημάτων αυτόματη ανίχνευσηκαι διόρθωση σφαλμάτων κατά την εισαγωγή κειμένων σε υπολογιστή, αυτόματη ανάλυση και σύνθεση προφορικού λόγου, αυτόματη μετάφραση κειμένων από μια γλώσσα σε άλλη, επικοινωνία με υπολογιστή σε φυσική γλώσσα, αυτόματη ταξινόμηση και ευρετηρίαση εγγράφων κειμένου, αυτόματη σύνοψή τους, αναζήτηση για έγγραφα σε βάσεις δεδομένων πλήρους κειμένου.

    Τα γλωσσικά εργαλεία που δημιουργούνται και χρησιμοποιούνται στην υπολογιστική γλωσσολογία μπορούν να χωριστούν υπό όρους σε δύο μέρη: δηλωτικά και διαδικαστικά. Το δηλωτικό μέρος περιλαμβάνει λεξικά γλωσσικών και λεκτικών ενοτήτων, κείμενα και διάφορα είδη γραμματικών πινάκων, ενώ το διαδικαστικό περιλαμβάνει μέσα χειρισμού γλωσσικών και λεκτικών ενοτήτων, κείμενα και γραμματικούς πίνακες. Η διεπαφή υπολογιστή αναφέρεται στο διαδικαστικό μέρος της υπολογιστικής γλωσσολογίας.

    Η επιτυχία στην επίλυση εφαρμοζόμενων προβλημάτων της υπολογιστικής γλωσσολογίας εξαρτάται, πρώτα απ 'όλα, από την πληρότητα και την ακρίβεια της αναπαράστασης των δηλωτικών μέσων στη μνήμη του υπολογιστή και από την ποιότητα των διαδικαστικών μέσων. Μέχρι σήμερα, το απαιτούμενο επίπεδο επίλυσης αυτών των προβλημάτων δεν έχει ακόμη επιτευχθεί, αν και εργασίες στον τομέα της υπολογιστικής γλωσσολογίας εκτελούνται σε όλες τις ανεπτυγμένες χώρες του κόσμου (Ρωσία, ΗΠΑ, Αγγλία, Γαλλία, Γερμανία, Ιαπωνία κ.λπ.). ).

    Ωστόσο, μπορούν να σημειωθούν σοβαρά επιστημονικά και πρακτικά επιτεύγματα στον τομέα της υπολογιστικής γλωσσολογίας. Έτσι, σε πολλές χώρες (Ρωσία, ΗΠΑ, Ιαπωνία κ.λπ.) έχουν κατασκευαστεί πειραματικά και βιομηχανικά συστήματα για αυτόματη μετάφραση κειμένων από τη μια γλώσσα στην άλλη, έχουν κατασκευαστεί διάφορα πειραματικά συστήματα για την επικοινωνία με υπολογιστές σε φυσική γλώσσα , βρίσκονται σε εξέλιξη εργασίες για τη δημιουργία τραπεζών ορολογικών δεδομένων, θησαυρών, δίγλωσσων και πολύγλωσσων λεξικών μηχανών (Ρωσία, ΗΠΑ, Γερμανία, Γαλλία κ.λπ.), κατασκευάζονται συστήματα αυτόματης ανάλυσης και σύνθεσης προφορικού λόγου (Ρωσία, ΗΠΑ, Ιαπωνία κ.λπ. .), βρίσκεται σε εξέλιξη έρευνα στον τομέα της κατασκευής μοντέλων φυσικών γλωσσών.

    Ένα σημαντικό μεθοδολογικό πρόβλημα της εφαρμοσμένης υπολογιστικής γλωσσολογίας είναι η σωστή εκτίμηση της απαραίτητης συσχέτισης μεταξύ των δηλωτικών και διαδικαστικών στοιχείων των συστημάτων αυτόματης επεξεργασίας πληροφοριών κειμένου. Τι πρέπει να προτιμάται: ισχυρές υπολογιστικές διαδικασίες που βασίζονται σε σχετικά μικρά συστήματα λεξιλογίου με πλούσιες γραμματικές και σημασιολογικές πληροφορίες ή ένα ισχυρό δηλωτικό στοιχείο με σχετικά απλές διεπαφές υπολογιστή; Οι περισσότεροι επιστήμονες πιστεύουν ότι ο δεύτερος τρόπος είναι προτιμότερος. Θα οδηγήσει στην ταχύτερη επίτευξη πρακτικών στόχων, καθώς σε αυτήν την περίπτωση θα υπάρχουν λιγότερα αδιέξοδα και εμπόδια που είναι δύσκολο να ξεπεραστούν και εδώ θα είναι δυνατή η χρήση υπολογιστών σε μεγαλύτερη κλίμακα για την αυτοματοποίηση της έρευνας και της ανάπτυξης.

    Η ανάγκη κινητοποίησης προσπαθειών, κυρίως για την ανάπτυξη της δηλωτικής συνιστώσας των συστημάτων αυτόματης επεξεργασίας κειμένου, επιβεβαιώνεται από την εμπειρία μισού αιώνα στην ανάπτυξη της υπολογιστικής γλωσσολογίας. Άλλωστε εδώ, παρά τις αδιαμφισβήτητες επιτυχίες αυτής της επιστήμης, ο ενθουσιασμός για αλγοριθμικές διαδικασίες δεν έφερε την αναμενόμενη επιτυχία. Υπήρχε ακόμη και κάποια απογοήτευση για τις δυνατότητες των διαδικαστικών μέσων.

    Υπό το πρίσμα των παραπάνω, φαίνεται πολλά υποσχόμενος ένας τέτοιος τρόπος ανάπτυξης της υπολογιστικής γλωσσολογίας, όταν οι κύριες προσπάθειες θα κατευθυνθούν στη δημιουργία ισχυρά λεξικάενότητες γλώσσας και λόγου, η μελέτη της σημασιολογικοσυντακτικής δομής τους και η δημιουργία βασικών διαδικασιών μορφολογικής, σημασιολογικοσυντακτικής και εννοιολογικής ανάλυσης και σύνθεσης κειμένων. Αυτό θα καταστήσει δυνατή την επίλυση ενός ευρέος φάσματος εφαρμοζόμενων προβλημάτων στο μέλλον.

    Η υπολογιστική γλωσσολογία αντιμετωπίζει, πρώτα απ 'όλα, τα καθήκοντα της γλωσσικής υποστήριξης για τις διαδικασίες συλλογής, συσσώρευσης, επεξεργασίας και αναζήτησης πληροφοριών. Τα σημαντικότερα από αυτά είναι:

    1. Αυτοματοποίηση σύνταξης και γλωσσικής επεξεργασίας λεξικών μηχανών.

    2. Αυτοματοποίηση των διαδικασιών εντοπισμού και διόρθωσης σφαλμάτων κατά την εισαγωγή κειμένων σε υπολογιστή.

    3. Αυτόματη ευρετηρίαση εγγράφων και αιτημάτων πληροφοριών.

    4. Αυτόματη ταξινόμηση και αναφορά εγγράφων.

    5. Γλωσσική υποστήριξη διαδικασιών αναζήτησης πληροφοριών σε μονόγλωσσες και πολύγλωσσες βάσεις δεδομένων.

    6. Μηχανική μετάφραση κειμένων από μια φυσική γλώσσα σε άλλη.

    7. Κατασκευή γλωσσικών επεξεργαστών που διασφαλίζουν την επικοινωνία του χρήστη με αυτοματοποιημένο πνευματικό πληροφοριακά συστήματα(ιδιαίτερα, με έμπειρα συστήματα) σε φυσική γλώσσα ή σε γλώσσα κοντά στη φυσική·

    8. Εξαγωγή πραγματικών πληροφοριών από μη επισημοποιημένα κείμενα.

    Ας σταθούμε αναλυτικά στα προβλήματα που σχετίζονται περισσότερο με το ερευνητικό θέμα.

    ΣΤΟ πρακτικές δραστηριότητεςκέντρα πληροφοριών, υπάρχει ανάγκη επίλυσης του προβλήματος της αυτοματοποιημένης ανίχνευσης και διόρθωσης σφαλμάτων σε κείμενα όταν αυτά εισάγονται σε υπολογιστή. Αυτή η πολύπλοκη εργασία μπορεί να χωριστεί υπό όρους σε τρία καθήκοντα - τα καθήκοντα ορθογραφίας, συντακτικού και σημασιολογικού ελέγχου των κειμένων. Το πρώτο από αυτά μπορεί να λυθεί χρησιμοποιώντας μια διαδικασία μορφολογικής ανάλυσης χρησιμοποιώντας ένα αρκετά ισχυρό λεξικό μηχανής αναφοράς με στελέχη λέξεων. Στη διαδικασία του ορθογραφικού ελέγχου, οι λέξεις του κειμένου υποβάλλονται σε μορφολογική ανάλυση και εάν οι βάσεις τους ταυτιστούν με τις βάσεις του λεξικού αναφοράς, τότε θεωρούνται σωστές. εάν δεν εντοπιστούν, τότε, συνοδευόμενα από μικροπλαίσιο, δίνονται για προβολή από ένα άτομο. Ένα άτομο εντοπίζει και διορθώνει παραμορφωμένες λέξεις και το αντίστοιχο σύστημα λογισμικού κάνει αυτές τις διορθώσεις στο διορθωμένο κείμενο.

    Το έργο του συντακτικού ελέγχου των κειμένων για την ανίχνευση λαθών σε αυτά είναι πολύ πιο δύσκολο από το έργο του ορθογραφικού ελέγχου τους. Πρώτον, επειδή περιλαμβάνει στη σύνθεσή του το καθήκον του ορθογραφικού ελέγχου ως υποχρεωτικό συστατικό του και, δεύτερον, επειδή το πρόβλημα της συντακτικής ανάλυσης μη επισημοποιημένων κειμένων δεν έχει ακόμη επιλυθεί πλήρως. Ωστόσο, ο μερικός συντακτικός έλεγχος των κειμένων είναι αρκετά πιθανός. Υπάρχουν δύο τρόποι για να πάτε εδώ: είτε να συνθέσετε επαρκώς αντιπροσωπευτικά μηχανικά λεξικά των συντακτικών δομών αναφοράς και να συγκρίνετε τις συντακτικές δομές του αναλυόμενου κειμένου με αυτές. ή να αναπτύξουν ένα σύνθετο σύστημα κανόνων για τον έλεγχο της γραμματικής συνέπειας των στοιχείων του κειμένου. Ο πρώτος τρόπος μας φαίνεται πιο υποσχόμενος, αν και, φυσικά, δεν αποκλείει τη δυνατότητα χρήσης στοιχείων του δεύτερου τρόπου. Η συντακτική δομή των κειμένων θα πρέπει να περιγράφεται με όρους γραμματικών τάξεων λέξεων (ακριβέστερα, με τη μορφή ακολουθιών συνόλων γραμματικών πληροφοριών για λέξεις).

    Το έργο του σημασιολογικού ελέγχου των κειμένων για τον εντοπισμό σημασιολογικών λαθών σε αυτά θα πρέπει να αποδοθεί στην κατηγορία των εργασιών τεχνητή νοημοσύνη. Πλήρως, μπορεί να λυθεί μόνο με βάση τη μοντελοποίηση των διαδικασιών της ανθρώπινης σκέψης. Ταυτόχρονα, προφανώς, θα χρειαστεί να δημιουργηθούν ισχυρές βάσεις εγκυκλοπαιδικής γνώσης και εργαλεία λογισμικού για τον χειρισμό της γνώσης. Ωστόσο, για περιορισμένους θεματικούς τομείς και για επίσημες πληροφορίες, αυτό το πρόβλημα είναι αρκετά επιλύσιμο. Θα πρέπει να τεθεί και να λυθεί ως έργο σημασιολογικού-συντακτικού ελέγχου των κειμένων.

    Η σύγχρονη υπολογιστική γλωσσολογία επικεντρώνεται σε μεγάλο βαθμό στη χρήση μαθηματικών μοντέλων. Υπάρχει ακόμη και μια δημοφιλής πεποίθηση ότι οι γλωσσολόγοι δεν χρειάζονται ιδιαίτερα για την αυτόματη μοντελοποίηση φυσικής γλώσσας. Γνωστός λαϊκή έκφραση Frederic Jelinek, επικεφαλής του κέντρου αναγνώρισης ομιλίας στο Πανεπιστήμιο Johns Hopkins: Κάθε φορά που ένας γλωσσολόγος αποχωρεί από την ομάδα, το ποσοστό αναγνώρισης αυξάνεται»- κάθε φορά που ένας γλωσσολόγος αποχωρεί από την ομάδα εργασίας, η ποιότητα της αναγνώρισης αυξάνεται.

    Ωστόσο, όσο πιο πολύπλοκα και πολυεπίπεδα καθήκοντα γλωσσικής μοντελοποίησης τίθενται για τους προγραμματιστές αυτόματων συστημάτων, τόσο πιο προφανές γίνεται η επίλυσή τους αδύνατη χωρίς να ληφθεί υπόψη η γλωσσική θεωρία, η κατανόηση του τρόπου λειτουργίας της γλώσσας και η γλωσσική ικανότητα. Ταυτόχρονα, έγινε φανερό ότι οι αυτόματες μέθοδοι ανάλυσης και μοντελοποίησης γλωσσικών δεδομένων μπορούν να εμπλουτίσουν σημαντικά τη θεωρητική γλωσσική έρευνα, αποτελώντας ταυτόχρονα μέσο συλλογής γλωσσικών δεδομένων και εργαλείο ελέγχου της εγκυρότητας μιας συγκεκριμένης γλωσσικής υπόθεσης.

    Φόρουμ αξιολόγησης επεξεργασίας κειμένου

    S.Yu.Toldova, O.N. Lyashevskaya, A.A. Bonch-Osmolovskaya

    Πώς να επισημοποιήσετε το λεξιλογικό νόημα, να το κάνετε "αναγνώσιμο από μηχανή"; Η απάντηση σε αυτό δίνεται από διανεμητικά μοντέλα της γλώσσας, στα οποία η σημασία μιας λέξης είναι το άθροισμα των συμφραζόμενών της σε ένα αρκετά μεγάλο σώμα. Τα τεχνητά νευρωνικά δίκτυα σάς επιτρέπουν να εκπαιδεύετε γρήγορα και αποτελεσματικά τέτοια μοντέλα.

    Denis Kiryanov, Tanya Panova (επόπτης B.V. Orekhov)

    Αυτό το πρόγραμμα έχει δύο λειτουργίες: α) κανονικοποίηση του κειμένου Γίντις, β) μεταγραφή από τετράγωνα γράμματα στα λατινικά. Αυτά τα προβλήματα είναι πολύ σχετικά: μέχρι τώρα, δεν έχει υπάρξει ούτε ένας κανονικοποιητής, εκτός από τους ορθογραφικούς ελέγχους. Εν τω μεταξύ, σχεδόν κάθε εκδοτικός οίκος που εξέδιδε βιβλία στα Γίντις ακολούθησε την ορθογραφία του. Ο κανονικοποιητής χρειάζεται για να εργαστεί στο σώμα της γλώσσας Γίντις: για τη μείωση όλων των κειμένων σε μια ενιαία ορθογραφία που αναγνωρίζεται από τον αναλυτή. Η μεταγραφή θα επιτρέψει στους τυπολόγους να εργαστούν και με υλικό Γίντις.

    VIDEO του προσωπικού της Γλωσσολογικής Σχολής:

    Προαιρετικά; Ενότητα 3 ετών, 2, 3

    Απαιτείται; 1ο έτος, 2 ενότητα

    Προαιρετικά; 3 χρόνια, 3 ενότητα

    Απαιτείται; 4ο έτος, 1-3 ενότητα

    Απαιτείται; 4ο έτος, 2 ενότητα

    Απαιτείται; 2ο έτος, 1, 2, 4 ενότητα

ΤΟ ΚΟΥΔΟΥΝΙ

Υπάρχουν εκείνοι που διαβάζουν αυτές τις ειδήσεις πριν από εσάς.
Εγγραφείτε για να λαμβάνετε τα πιο πρόσφατα άρθρα.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
Ονομα
Επώνυμο
Πώς θα θέλατε να διαβάσετε το The Bell
Χωρίς ανεπιθύμητο περιεχόμενο