CLOPOTUL

Sunt cei care citesc aceasta stire inaintea ta.
Abonați-vă pentru a primi cele mai recente articole.
E-mail
Nume
Nume de familie
Cum ți-ar plăcea să citești Clopoțelul
Fără spam
Plan:

1. Ce este lingvistica computațională?

2. Obiect şi subiect al lingvisticii computaţionale

4. Sarcini de lingvistică computaţională

5. Metode de cercetare de lingvistică computaţională

6. Istoria și cauzele lingvisticii computaționale

7. Termeni de bază ai lingvisticii computaționale

8. Oamenii de știință implicați în problema lingvisticii computaționale

9. Asociaţii şi conferinţe de lingvistică computaţională

10. Literatură folosită.


Lingvistică computațională - o direcție independentă în lingvistică aplicată, axată pe utilizarea computerelor pentru rezolvarea problemelor legate de utilizarea limbajului natural. (Schilihina K.M.)


Lingvistică computațională– fiind una dintre domeniile lingvisticii aplicate, ea studiază fundamentele lingvistice ale informaticii și toate aspectele relației dintre limbaj și gândire, modelarea limbajului și gândirea într-un mediu informatic folosind programe de calculator, iar interesele ei se situează în domeniul: 1) optimizarea comunicării pe baza cunoștințelor lingvistice 2) crearea interfeței limbajului natural și a tipologiilor de înțelegere a limbajului pentru comunicarea om-mașină 3) crearea și modelarea sistemelor informatice informatice (Sosnina E.P.)


Obiect de lingvistică computațională- analiza limbii în starea sa naturală în procesul de utilizare de către oameni în diverse situații de comunicare, precum și modul în care pot fi formulate trăsăturile limbii.


Sarcini ale lingvisticii computaționale:


Metode de cercetare a lingvisticii computaționale:

1. metoda de modelare- un obiect special de studiu care nu este disponibil în observarea directă. Prin definiție, matematicianul K. Shannon, un model este o reprezentare a unui obiect într-o formă diferită de forma lor. existenta reala.

2. metoda teoriei reprezentării cunoștințelor implică modalităţi de reprezentare a cunoştinţelor care sunt orientate către prelucrarea automată de către calculatoarele moderne.

3. Metoda teoriei limbajului de programare(teoria limbajului de programare) este un domeniu al informaticii asociat cu proiectarea, analiza, caracterizarea și clasificarea limbajelor de programare și studiul caracteristicilor lor individuale.


Cauzele lingvisticii computaționale

1. Apariția computerelor

2. Problema comunicării cu computerele utilizatorilor nepregătiți


1. Un sistem de căutare în dicționar dezvoltat la Berkbeck College din Londra în 1948.

2. Memorandumul Warren Weaver

3. Începutul introducerii primelor calculatoare în domeniul traducerii automate

4. Proiectul Georgetown în 1954


1. ALPAC (Automatic Language Processing Advisory Committee) / Advisory Committee on automat language processing 2. o nouă etapă în dezvoltarea tehnologiei informatice și a acestora utilizare activăîn sarcini lingvistice 3. crearea unei noi generații de calculatoare și limbaje de programare 4. interes în creștere pentru traducerea automată 60

-70 ai secolului XX


Sfârșitul anilor 80 - începutul anilor 90 ai secolului XX

    Apariția și dezvoltarea activă a Internetului

  • Creșterea rapidă a volumelor de informații text în formă electronică

  • Necesitatea procesării automate a textelor în limbaj natural


1. Produse PROMT și ABBY (Lingvo) 2. Tehnologii de traducere automată 3. Tehnologii de memorie de traducere

Sisteme comerciale moderne

  • Animarea textelor

  • Modele de comunicare

  • Lexicografia computerizată

  • Traducere automată

  • Corpus de texte


Analiza textelor în limbaj natural

3 niveluri de structură a textului:
  • Structura sintactică de suprafață

  • Structura sintactică profundă

  • Nivel semantic


Sarcina de sinteză este inversă față de analiză

Animația textului

1. Schimb de texte prin imagini vizuale pe ecranul de afișare

2. 2 modalități de gândire umană: simbolică și vizuală.


1. Imitarea procesului de comunicare 2. Crearea unui model de dialog eficient Modele de comunicare


Hipertext- un mod special de organizare și prezentare a textului, în care mai multe texte sau fragmente de text pot fi interconectate prin diverse tipuri de legături.


Diferențele dintre hipertext și textul tradițional

Hipertext


Procesarea vorbirii

1. sinteza automată a vorbirii

A) dezvoltarea sintetizatoarelor de tip „text-to-speech”. Include 2 blocuri: bloc de prelucrare lingvistică a textuluiși bloc de sinteză acustică.

2. recunoaștere automată a vorbirii


1) recunoașterea textului

2) analiza textului

3) sinteza textului


IPS (sistem de recuperare a informațiilor)- sunt sisteme software pentru stocarea, căutarea și emiterea de informații de interes.

Zaharov V.P. crede că IPS este un set ordonat de documente și tehnologii informaționale concepute pentru stocarea și regăsirea informațiilor - texte sau date.


3 tipuri de IPS

3 tipuri de IPS

    Manual este o căutare în bibliotecă.

  • Mecanizat IPS sunt instrumente tehnice care asigură selectarea documentelor necesare

  • Automat- căutarea de informații folosind computere


Lexicografia computerizată

Lexicografia computerizată- una dintre domeniile importante ale lingvisticii aplicate, se ocupă de teoria și practica alcătuirii dicționarelor.

Există 2 direcții în lexicografie:
  • Lexicografia tradițională alcătuirea dicționarelor tradiționale

  • Lexicografie automată automatizează pregătirea dicționarelor și rezolvă problemele dezvoltării dicționarelor electronice


Sarcini de lexicografie pe computer

  • Derivarea automată a diferitelor dicționare din text

  • Crearea de dicționare care sunt versiuni electronice ale dicționarelor tradiționale sau dicționare lingvistice electronice complexe pentru lucrări tradiționale de dicționar, cum ar fi LINGVO

  • Dezvoltarea aspectelor teoretice și practice ale compilării dicționarelor speciale de calculator, de exemplu, pentru regăsirea informațiilor, traducerea automată


Traducere automată

Traducere automată- conversia textului dintr-o limbă naturală într-o altă limbă naturală folosind un computer.

Tipuri de traducere automată
  • FAMT(Fully Automated Machine Translation) - traducere complet automată

  • HAMT(Human Assistance machine Translation) - traducere automată cu participarea unei persoane

  • MAHT(Machine Assisted Human Translation) este o traducere efectuată de o persoană folosind software auxiliar și instrumente lingvistice.


  • 2) deputat profesionist– traducere mai bună cu editare umană ulterioară

  • 3) MP interactiv- este considerat un transfer în sisteme speciale de suport, are loc în regim de dialog cu un sistem informatic. Calitatea MT depinde de setări, resurse, tipul de texte.

Corpus de texte

Corpus de texte- aceasta este o colecție de texte, care se bazează pe o idee logică, o idee logică care unește aceste texte.

Corpus de limbă- o gamă largă de date lingvistice, prezentate electronic, unificate, structurate, etichetate, competente din punct de vedere filologic, concepute pentru a rezolva probleme lingvistice specifice.


Reprezentativitatea este cea mai importantă proprietate a corpusului


Scopul corpusului lingvistic este de a arăta funcționarea unităților lingvistice în mediul lor contextual natural



Pe baza corpus, puteți obține date:

1. despre frecvenţa categoriilor gramaticale

2. Despre schimbările de frecvență

3. despre schimbările de contexte în diferite perioade de timp

5. despre apariţia în comun a unităţilor lexicale

6. despre caracteristicile compatibilităţii lor


Corpul Brown


Corpus de texte - aceasta este o colecție de texte, care se bazează pe o idee logică, o idee logică care unește aceste texte. Întruchiparea acestei idei logice: regulile de organizare a textelor într-un corpus, algoritmi și programe pentru analiza corpusului de texte, ideologia și metodologia asociate acestuia. Corpul Național reprezintă o limbă dată la o anumită etapă (sau etape) a existenței sale și în toată varietatea de genuri, stiluri, opțiuni teritoriale și sociale etc. Termeni de bază ai lingvisticii computaționale

    Limbaje de programare (JP) este o clasă limbaje artificiale concepute pentru a procesa informații folosind un computer. Orice limbaj de programare este strict (formal) sistem de semne folosit pentru a scrie programe de calculator. Potrivit diverselor estimări, în prezent există între o mie și zece mii de limbaje de programare diferite.

  • Informatica(Informatică) -știința regularităților de înregistrare, stocare, prelucrare, transmitere și utilizare a informațiilor cu ajutorul mijloacelor tehnice.



Căutați informații (Recuperarea informațiilor) este procesul de găsire a unor astfel de documente (texte, înregistrări și

etc.) care se potrivesc cu cererea.

« Sistem de regăsire a informațiilor (IPS) este un set ordonat de documente (matrice de documente) și tehnologia Informatiei, conceput pentru a stoca și a căuta informații - texte (documente) sau date (fapte).

Lexicografie automată(Lexicografie computațională) se angajează în automatizarea pregătirii dicționarelor și rezolvă problemele dezvoltării electronice

dicționare.

Traducere automată este o transformare computerizată a textului pe unul

limbajul natural într-un text echivalent ca conținut cu altul

limbaj natural.

Hipertext este o tehnologie de organizare a informațiilor și a unui text special structurat, împărțit în blocuri separate, având o reprezentare neliniară, pentru prezentarea eficientă a informațiilor în medii informatice.


    cadru este o structură de reprezentat cunoștințe declarative despre o situație tipificată unificată tematic, i.e. structura datelor despre o situație stereotipă.

  • Scenariu - aceasta este o succesiune de mai multe episoade în timp, aceasta este și o reprezentare a unei situații stereotipe sau a unui comportament stereotip, doar elementele scenariului sunt pașii algoritmului sau instrucțiunilor.
  • Plan - reprezentarea cunoștințelor despre posibilele acțiuni care sunt necesare pentru atingerea unui anumit scop.



Oamenii de știință din domeniul lingvisticii computaționale:

  • Oameni de știință sovietici și ruși: Alexey Lyapunov, Igor Melchuk, Olga Kulagina, Yu.D. Apresyan, N.N. Leontiev, Yu.S. Martemyanov, Z.M. Chaliapin, Igor Boguslavsky, A.S. Narignani, A.E. Kibrik, Baranov A.N.

  • Oamenii de știință occidentali Distribuție: Yorick Vilks, Gregory Grevenstette, Grail Corbett, John Carroll, Diana McCarthy, Luis Marquez, Dan Moldovan, Joachim Nivre, Victor Raskin, Eduard Hovey.


Asociații și Conferințe de Lingvistică Computațională:
  • "Dialog"- principala conferință rusă privind lingvistică computațională cu participare internationala.

Prioritatea Dialogului este modelare pe calculator Limba rusă. Limbile de lucru ale conferinței sunt rusă și engleză. Pentru a atrage recenzori străini, cea mai mare parte a lucrărilor aplicate este prezentată în limba engleză.

Direcțiile principale ale conferinței:
  • Semantică lingvisticăși analiza semantică

  • Modele de limbaj formal și aplicațiile acestora

  • Teoretic și informatic lexicografie

  • Metode de evaluare a sistemelor de analiză a textului și traducere automată

  • Lingvistica corpusului. Crearea, aplicarea, evaluarea corpusului

  • Internet ca resursă lingvistică. Tehnologii lingvistice pe internet

  • Ontologii. Extragerea de cunoștințe din texte

  • Analiza computerizată a documentelor: rezumare, clasificare, Căutare

  • Analiza automată a sentimentelor textelor

  • Traducere automată

  • modele de comunicare. Comunicare, dialog și act de vorbire

  • Analiza si sinteza vorbirii



2. Asociația pentru Lingvistică Computațională (ACL) este o societate științifică și profesională internațională de oameni care lucrează la probleme care implică limbajul natural și calculul. O întâlnire anuală are loc în fiecare vară în locații în care se desfășoară cercetări semnificative în lingvistică computațională. Fondată în 1962, numită inițial Asociația pentru traducere automată și lingvistică computațională (AMTCL). În 1968, acesta a devenit ACL.
  • ACL are un european (EACL)și din America de Nord (NACL) ramuri.

  • revista ACL, Lingvistică computațională, este principalul forum de cercetare în lingvistică computațională și procesarea limbajului natural. Din 1988, revista a fost publicată pentru ACL MIT Press.
  • Seria de cărți ACL, Cercetare în procesarea limbajului natural, publicat Cambridge University Press.

  • În fiecare an, ACL și filialele sale organizează conferințe internaționale în diferite țări.

ACL 2014 a avut loc la Baltimore, SUA.

  • Referințe:

  • 1. Marchuk Yu.N. Lingvistică computațională: manual / Yu.N. Marchuk.- M.: AST: Est-Vest, 2007 - 317 p.

  • 2. Shilihina K.M. Fundamentele lingvisticii aplicate: manual pentru specialitatea 021800 (031301) - Lingvistică teoretică și aplicată, Voronezh, 2006.

  • 3. Boyarsky K.K. Introducere în lingvistica computațională. Manual.- Sankt Petersburg: NRU ITMO, 2013.- 72 p.

  • 4. Shchipitsina L.Yu. Tehnologii informaționale în lingvistică: manual / L.Yu. Shchipitsina.- M.: FLINTA: stiinta, 2013.- 128 p.

  • 5. Sosnina E.P. Introducere în Lingvistică Aplicată: manual / E.P.Sosnina.- ed. a II-a, Corect. si suplimentare - Ulyanovsk: UlGTU, 2012. -110 p.

  • 6. Baranov A.N. Introducere în lingvistica aplicată: manual.- M.: Editorial URSS, 2001.- 360 p.

  • 7. Lingvistică aplicată: Manual / L.V. Bondarko, L.A. Verbitskaya, G.Ya. Martynenko și alții; Reprezentant. Editorul A.S. Gerd. SPb.: editura S.-Petersburg. Univ., 1996.- 528 p.

  • 8. Shemyakin Yu.I. Începuturile lingvisticii computaționale: manual. M.: Editura MGOU, A/O „Rosvuznauka”, 1992.

  • Introducere

    Ce este lingvistica computațională?

    LINGVISTICA INFORMATICĂ , o direcție în lingvistică aplicată, axată pe utilizarea instrumentelor informatice - programe, tehnologii informatice de organizare și prelucrare a datelor - pentru modelarea funcționării unei limbi în anumite condiții, situații, arii problematice etc., precum și a întregului domeniu de aplicare. a modelelor de limbaj informatic în lingvistică și discipline conexe. De fapt, doar în acest din urmă caz ​​vorbim de lingvistică aplicată în sens strict, întrucât modelarea computerizată a unui limbaj poate fi considerată și ca o sferă de aplicare a informaticii și a teoriei programării la rezolvarea problemelor științei limbajului. În practică, totuși, aproape tot ceea ce este legat de utilizarea computerelor în lingvistică este denumit lingvistică computațională.

    Ca direcție științifică specială, lingvistica computațională a luat contur în anii 1960. Termenul rusesc „lingvistică computațională” este o hârtie de urmărire din lingvistica computațională engleză. Deoarece adjectivul computațional în limba rusă poate fi tradus și ca „computațional”, termenul „lingvistică computațională” se găsește și în literatură, dar în știința domestică capătă un sens mai restrâns, abordând conceptul de „lingvistică cantitativă”. Fluxul de publicații în acest domeniu este foarte mare. Pe lângă colecțiile tematice, revista Computational Linguistics este publicată trimestrial în Statele Unite. Excelent organizatoric si munca stiintifica este realizat de Asociația pentru Lingvistică Computațională, care are structuri regionale (în special, filiala europeană). La fiecare doi ani au loc conferințe internaționale de lingvistică computațională - COLING. Problemele relevante sunt de obicei prezentate pe scară largă și la diferite conferințe despre inteligența artificială.

    Sarcini

    Lingvistică computațională preia problemele lingvistice propriu-zise ale modelării computerizate a activității lingvistice. Sarcinile sale sunt de a construi modele lingvistice mai precise și mai complete și algoritmi mai avansați pentru analiză și sinteză.

    Direcțiile principale sunt:

    1) Interacțiunea om-calculator: control - limbaje de programare, transfer de informații - interfață.

    2) Lucrați cu texte: indexare, analiză și clasificare, editare automată (corectarea erorilor), detectarea cunoștințelor, traducere automată.

    Poveste

    O generație simplă a unui subset al limbii engleze pentru accesarea bazelor de date a fost oferită de unul dintre primele sisteme americane LIFER (Language Interface Facility wich Elipsis and Recursion), creat în anii 70. În urma acesteia, pe piața calculatoarelor au apărut alte sisteme, mai flexibile, oferind o interfață limitată în limbaj natural cu un computer.

    În anii 1980, în Statele Unite s-au înființat un număr de companii angajate în dezvoltarea și vânzarea de interfețe în limbaj natural cu baze de date și sisteme expert. În 1985 Corporația Semantec a prezentat un astfel de pachet software de întrebări și răspunsuri, Grupul Carnegie a oferit un pachet similar, LanguageCraft.

    Se lucrează activ pentru a crea sisteme de traducere automată. Sistemul de traducere automată SYSTRAN, dezvoltat sub conducerea lui D. Tom, comandat de US Air Force, a devenit larg răspândit. În perioada 1974 - 1975. sistemul a fost folosit de Asociația Aerospațială NASA pentru a traduce documente pentru proiectul Apollo-Soyuz. În prezent, ea traduce din mai multe limbi aproximativ 100.000 de pagini anual.

    În Europa, munca la crearea sistemelor de traducere pe calculator a fost stimulată de formarea Rețelei Europene de Informații (EURONET DIANA). În 1982, Comunitatea Economică Europeană a anunțat crearea programului european EUROTRA, al cărui scop este dezvoltarea unui sistem de traducere computerizată pentru toate limbile europene. Inițial, proiectul a fost estimat la 12 milioane de dolari; în 1987, experții au determinat costul total al acestui proiect la peste 160 de milioane de dolari.

    În Japonia, cercetarea lingvistică computațională este centrată în jurul unui program de computer de generația a cincea la nivel național, lansat în 1981.

    Există o serie de proiecte militare pentru a crea interfețe om-mașină în limbaj natural. În Statele Unite, acestea se desfășoară în principal ca parte a Strategic Computer Initiative, un program de zece ani adoptat de Departamentul Apărării în 1983. Scopul său este de a crea o nouă generație de arme și sisteme militare „inteligente” pentru pentru a asigura superioritatea tehnologică pe termen lung a Statelor Unite.

    Desigur, specialiștii în inteligență artificială, cunoscători de calculatoare și limbaje de programare, s-au apucat cu energie să rezolve problema înțelegerii limbajului cu propriile metode. A existat o căutare a algoritmilor în limbaj natural. Au fost create programe complexe de înțelegere a limbii pentru zone speciale foarte înguste, au fost implementate programe de traducere automată parțială și o serie de altele. Dar nu a existat un progres decisiv în rezolvarea problemei înțelegerii limbii. Limba și omul sunt atât de legate, încât oamenii de știință au fost nevoiți să se ocupe de problema înțelegerii lumii de către om. Și acesta este tărâmul filozofiei.

    Concepte de bază ale lingvisticii

    Facultatea de filologie a Școlii Superioare de Științe Economice lansează o nouă Program de master, dedicat lingvisticii computaționale: candidații cu o educație de bază umanitară și matematică și toți cei interesați de rezolvarea problemelor într-una dintre cele mai promițătoare ramuri ale științei sunt bineveniți aici. Șeful acesteia, Anastasia Bonch-Osmolovskaya, a spus Teorie și practică ce este lingvistica computațională, de ce roboții nu vor înlocui oamenii și ce va fi predat în programul de master HSE în lingvistică computațională.

    Acest program este aproape singurul de acest gen din Rusia. Unde te-ai studiat singur?

    Am studiat la Universitatea de Stat din Moscova la Departamentul de Lingvistică Teoretică și Aplicată a Facultății de Filologie. Nu am ajuns imediat acolo, la început am intrat la catedra de rusă, dar apoi m-am interesat serios de lingvistică și m-a atras atmosfera care rămâne la catedră până astăzi. Cel mai important lucru este contactul bun între profesori și elevi și interesul lor reciproc.

    Când aveam copii și trebuia să-mi câștig existența, am intrat în domeniul lingvisticii comerciale. În 2005, nu era foarte clar care este acest domeniu de activitate ca atare. Am lucrat în diferite companii lingvistice: am început cu o companie mică pe site-ul Public.ru - aceasta este o astfel de bibliotecă media, unde am început să lucrez cu tehnologii lingvistice. Apoi am lucrat un an la Rosnanotech, unde mi-a venit ideea să fac un portal analitic astfel încât datele de pe el să fie structurate automat. Apoi am condus departamentul de lingvistică la compania Avicomp - aceasta este deja o producție serioasă în domeniul lingvisticii computaționale și al tehnologiilor semantice. În același timp, am predat un curs de lingvistică computațională la Universitatea de Stat din Moscova și am încercat să-l modernizez.

    Două resurse pentru un lingvist: - un site creat de lingviști pentru cercetări științifice și aplicate legate de limba rusă. Acesta este un model al limbii ruse, prezentat cu ajutorul unei game uriașe de texte din diferite genuri și perioade. Textele sunt prevăzute cu marcaj lingvistic, care poate fi folosit pentru a obține informații despre frecvența anumitor fenomene lingvistice. Wordnet - o bază de date lexicală uriașă de limba engleză, ideea principală a Wordnet este să conecteze nu cuvintele, ci semnificațiile lor într-o singură rețea mare. Wordnet poate fi descărcat și utilizat pentru propriile proiecte.

    Ce face lingvistica computațională?

    Acesta este cel mai interdisciplinar domeniu. Cel mai important lucru aici este să înțelegeți ce se întâmplă în lumea electronică și cine vă va ajuta să faceți lucruri specifice.

    Suntem inconjurati de un numar mare de informații digitale, există multe proiecte de afaceri al căror succes depinde de prelucrarea informațiilor, aceste proiecte pot fi legate de marketing, politică, economie și orice altceva. Și este foarte important să puteți gestiona eficient aceste informații - principalul lucru nu este doar viteza de procesare a informațiilor, ci și ușurința cu care puteți, după ce ați filtrat zgomotul, să obțineți datele de care aveți nevoie și să creați un imagine completă de la ei.

    Anterior, unele idei globale erau asociate cu lingvistica computațională, de exemplu: oamenii credeau că traducerea automată va înlocui traducerea umană, roboții ar funcționa în loc de oameni. Dar acum pare o utopie, iar traducerea automată este folosită în motoarele de căutare pentru a căuta rapid într-o limbă necunoscută. Adică, acum lingvistica se ocupă rar cu sarcini abstracte - mai ales cu niște lucruri mici care pot fi inserate într-un produs mare și pot face bani din el.

    Una dintre marile sarcini ale lingvisticii moderne este rețeaua semantică, când căutarea este efectuată nu doar prin coincidența cuvintelor, ci prin sens, iar toate site-urile sunt cumva marcate de semantică. Acest lucru poate fi util, de exemplu, pentru rapoartele de poliție sau medicale care sunt scrise în fiecare zi. Analiză comunicatii interne oferă o mulțime de informații necesare, iar citirea și numărarea manuală a acestora este incredibil de lungă.

    Pe scurt, avem o mie de texte, trebuie să le sortăm în grămezi, să prezentăm fiecare text ca o structură și să obținem un tabel cu care să putem lucra deja. Aceasta se numește procesare nestructurată a informațiilor. Pe de altă parte, lingvistica computațională se ocupă, de exemplu, de crearea de texte artificiale. Există o companie care a venit cu un mecanism pentru generarea de texte pe subiecte despre care o persoană să scrie plictisitoare: modificări ale prețurilor imobiliare, prognoza meteo, raport despre meciuri de fotbal. Este mult mai costisitor să comanzi aceste texte pentru o persoană, în plus, textele computerizate pe astfel de subiecte sunt scrise într-un limbaj uman coerent.

    Yandex este implicat activ în dezvoltările în domeniul căutării de informații nestructurate în Rusia, Kaspersky Lab angajează grupuri de cercetare care studiază învățarea automată. Încearcă cineva din piață să vină cu ceva nou în domeniul lingvisticii computaționale?

    ** Cărți despre lingvistică computațională:**

    Daniel Jurafsky, Procesarea vorbirii și a limbajului

    Christopher Manning, Prabhakar Raghavan, Heinrich Schütze, Introducere în regăsirea informațiilor

    Jacob Testelec, „Introducere în sintaxa generală”

    Majoritatea dezvoltărilor lingvistice sunt proprietatea marilor companii, aproape nimic nu se găsește acces deschis. Acest lucru împiedică dezvoltarea industriei, nu avem o piață lingvistică liberă, soluții în cutie.

    În plus, există o lipsă de complet resurse informaționale. Există un astfel de proiect precum Corpusul Național al Limbii Ruse. Acesta este unul dintre cele mai bune corpusuri naționale din lume, care se dezvoltă rapid și deschide oportunități incredibile pentru cercetarea științifică și aplicată. Diferența este aproximativ aceeași ca și în biologie - înainte și după cercetarea ADN-ului.

    Dar multe resurse nu există în rusă. Deci, nu există un analog cu o astfel de resursă minunată în limba engleză precum Framenet - aceasta este o astfel de rețea conceptuală, în care toate conexiunile posibile ale unui anumit cuvânt cu alte cuvinte sunt prezentate în mod formal. De exemplu, există cuvântul „zbură” - cine poate zbura, unde, cu ce pretext este folosit acest cuvânt, cu ce cuvinte este combinat și așa mai departe. Această resursă ajută la conectarea limbajului cu viața reală, adică la urmărirea modului în care un anumit cuvânt se comportă la nivel de morfologie și sintaxă. E foarte folositor.

    Avicomp dezvoltă în prezent un plug-in pentru a căuta articole similare. Adică, dacă sunteți interesat de un articol, puteți vedea rapid istoria intrigii: când a apărut subiectul, ce a fost scris și când a fost vârful interesului pentru această problemă. De exemplu, folosind acest plugin, va fi posibil, pornind de la un articol despre evenimentele din Siria, să vedem foarte repede cum anul trecut evenimentele s-au derulat acolo.

    Cum va fi structurat procesul de învățare din programul de master?

    Educația la HSE este organizată în module separate, la fel ca în universitățile occidentale. Elevii vor fi împărțiți în echipe mici, mini-startup-uri - adică la final ar trebui să obținem mai multe proiecte finalizate. Vrem să obținem produse reale, pe care apoi să le deschidem oamenilor și să le lăsăm în domeniul public.

    Pe lângă supraveghetorii direcți ai proiectelor studenților, dorim să găsim curatori dintre potențialii lor angajatori - de la același Yandex, de exemplu, care să joace și ei acest joc și să ofere studenților câteva sfaturi.

    Sper ca la magistratura sa vina oameni din diverse domenii: programatori, lingvisti, sociologi, marketeri. Vom avea mai multe cursuri de adaptare la lingvistică, matematică și programare. Apoi vom avea două cursuri serioase de lingvistică, și vor fi conectate cu cele mai actuale teorii lingvistice, ne dorim ca absolvenții noștri să poată citi și înțelege articole lingvistice moderne. La fel este și cu matematica. Vom avea un curs numit „Fundamentele matematice ale lingvisticii computaționale”, care va prezenta acele secțiuni de matematică pe care se bazează lingvistica computațională modernă.

    Pentru a vă înscrie într-un program de master, trebuie să promovați examen de admitereîn limbă și promovează un concurs de portofoliu.

    Pe lângă cursurile principale, vor exista o serie de discipline opționale.Am planificat mai multe cicluri - două dintre ele sunt concentrate pe un studiu mai profund subiectele selectate, care includ, de exemplu, traducerea automată și lingvistica corpus și, dimpotrivă, una este asociată cu domenii conexe: cum ar fi, retele sociale, machine learning sau Digital Humanities - un curs care sperăm să fie susținut în limba engleză.

    LUCRARE DE CURS

    la disciplina "Informatica"

    pe tema: „Linguistică computerizată”


    INTRODUCERE

    1. Locul și rolul lingvisticii computaționale în cercetarea lingvistică

    2. Interfeţe moderne ale lingvisticii computaţionale

    CONCLUZIE

    LITERATURĂ


    Introducere

    In viata societate modernă tehnologiile informatice automatizate joacă un rol important. Odată cu trecerea timpului, valoarea lor crește continuu. Dar dezvoltarea tehnologiilor informaționale este foarte inegală: dacă nivelul modern al tehnologiei informatice și al comunicațiilor este uimitor, atunci în domeniul prelucrării informației semantice, succesele sunt mult mai modeste. Aceste succese depind, în primul rând, de realizările în studiul proceselor gândirii umane, proceselor comunicarea vorbiriiîntre oameni și din capacitatea de a simula aceste procese pe un computer.

    Când vine vorba de crearea de tehnologii informaționale promițătoare, problemele procesării automate informații text prezentate în limbi naturale ies în prim-plan. Acest lucru este determinat de faptul că gândirea unei persoane este strâns legată de limbajul său. Mai mult, limbajul natural este un instrument de gândire. Este, de asemenea, un mijloc universal de comunicare între oameni - un mijloc de percepție, acumulare, stocare, procesare și transmitere a informațiilor. Problemele utilizării limbajului natural în sistemele automate de procesare a informațiilor sunt tratate de știința lingvisticii computaționale. Această știință a apărut relativ recent - la începutul anilor cincizeci și șaizeci ai secolului trecut. În ultima jumătate de secol, s-au obținut rezultate științifice și științifice semnificative în domeniul lingvisticii computaționale. rezultate practice: au fost create sisteme de traducere automată a textelor dintr-o limbă naturală în alta, sisteme de căutare automată a informațiilor în texte, sisteme de analiză și sinteză automată a vorbirii orale și multe altele. Această lucrare este dedicată construcției unei interfețe optime de calculator folosind lingvistica computațională pentru cercetarea lingvistică.


    LA lumea modernă Lingvistica computațională este din ce în ce mai utilizată în diverse studii lingvistice.

    Lingvistica computațională este un domeniu de cunoaștere legat de rezolvarea problemelor de prelucrare automată a informațiilor prezentate în limbajul natural. Central probleme științifice lingvistica computațională reprezintă problema modelării procesului de înțelegere a sensului textelor (tranziția de la text la o reprezentare formalizată a sensului acestuia) și problema sintezei vorbirii (tranziția de la o reprezentare formalizată a sensului la textele în limbaj natural). Aceste probleme apar atunci când se rezolvă o serie de probleme aplicate și, în special, probleme detecție automatăși corectarea erorilor la introducerea textelor într-un computer, analiza și sinteza automată a vorbirii orale, traducerea automată a textelor dintr-o limbă în alta, comunicarea cu un computer în limbaj natural, clasificarea și indexarea automată a documentelor text, rezumarea lor automată, căutarea documente în baze de date full-text.

    Instrumentele lingvistice create și utilizate în lingvistica computațională pot fi împărțite condiționat în două părți: declarative și procedurale. Partea declarativă include dicționare de limbă și unități de vorbire, texte și diverse tipuri de tabele gramaticale, în timp ce partea procedurală include mijloace de manipulare a limbajului și unităților de vorbire, texte și tabele gramaticale. Interfața computerului se referă la partea procedurală a lingvisticii computaționale.

    Succesul în rezolvarea problemelor aplicate de lingvistică computațională depinde, în primul rând, de completitudinea și acuratețea reprezentării mijloacelor declarative în memoria computerului și de calitatea mijloacelor procedurale. Până în prezent, nivelul necesar de rezolvare a acestor probleme nu a fost încă atins, deși lucrări în domeniul lingvisticii computaționale se desfășoară în toate țările dezvoltate ale lumii (Rusia, SUA, Anglia, Franța, Germania, Japonia etc. ).

    Cu toate acestea, pot fi remarcate realizări științifice și practice serioase în domeniul lingvisticii computaționale. Astfel, într-o serie de țări (Rusia, SUA, Japonia etc.) au fost construite sisteme experimentale și industriale pentru traducerea automată a textelor dintr-o limbă în alta, au fost construite o serie de sisteme experimentale de comunicare cu computerele în limbaj natural. , se lucrează la crearea unor bănci de date terminologice, tezaure, dicționare automate bilingve și multilingve (Rusia, SUA, Germania, Franța etc.), se construiesc sisteme de analiză și sinteză automată a vorbirii orale (Rusia, SUA, Japonia etc.). .), cercetările sunt în desfășurare în domeniul construirii modelelor de limbaje naturale.

    O problemă metodologică importantă a lingvisticii computaționale aplicate este evaluarea corectă a corelației necesare între componentele declarative și procedurale ale sistemelor automate de procesare a informațiilor de text. Ce ar trebui să fie preferat: proceduri de calcul puternice bazate pe sisteme de vocabular relativ mici, cu informații gramaticale și semantice bogate, sau o componentă declarativă puternică cu interfețe de calculator relativ simple? Majoritatea oamenilor de știință cred că a doua cale este de preferat. Va duce mai repede la atingerea obiectivelor practice, deoarece în acest caz vor exista mai puține puncte fără fund și obstacole greu de depășit, iar aici va fi posibilă utilizarea computerelor la scară mai mare pentru automatizarea cercetării și dezvoltării.

    Necesitatea mobilizării eforturilor, în primul rând pe dezvoltarea componentei declarative a sistemelor automate de procesare a textului, este confirmată de o jumătate de secol de experiență în dezvoltarea lingvisticii computaționale. Până la urmă, aici, în ciuda succeselor incontestabile ale acestei științe, entuziasmul pentru procedurile algoritmice nu a adus succesul așteptat. A existat chiar și o oarecare dezamăgire în ceea ce privește posibilitățile mijloacelor procedurale.

    În lumina celor de mai sus, pare promițătoare o asemenea modalitate de dezvoltare a lingvisticii computaționale, când eforturile principale vor fi îndreptate spre crearea dicționare puternice unități de limbaj și vorbire, studiul structurii lor semantico-sintactice și crearea unor procedee de bază pentru analiza și sinteza morfologică, semantico-sintactică și conceptuală a textelor. Acest lucru va face posibilă rezolvarea unei game largi de probleme aplicate în viitor.

    Lingvistica computațională se confruntă, în primul rând, cu sarcinile de suport lingvistic pentru procesele de colectare, acumulare, prelucrare și căutare a informațiilor. Cele mai importante dintre ele sunt:

    1. Automatizarea compilarii si procesarii lingvistice a dictionarelor masini;

    2. Automatizarea proceselor de detectare și corectare a erorilor la introducerea textelor într-un computer;

    3. Indexarea automată a documentelor și a solicitărilor de informații;

    4. Clasificarea și referirea automată a documentelor;

    5. Suport lingvistic al proceselor de căutare a informațiilor în baze de date monolingve și multilingve;

    6. Traducerea automată a textelor dintr-o limbă naturală în alta;

    7. Construirea de procesoare lingvistice care asigură comunicarea utilizatorului cu intelectualul automatizat sisteme de informare(în special, cu sisteme expert) în limbaj natural, sau într-un limbaj apropiat de natural;

    8. Extragerea de informații faptice din texte neformalizate.

    Să ne oprim în detaliu asupra problemelor cele mai relevante pentru tema de cercetare.

    LA activitati practice centre de informare, este nevoie de rezolvare a problemei detectării și corectării automate a erorilor din texte atunci când acestea sunt introduse într-un computer. Această sarcină complexă poate fi împărțită condiționat în trei sarcini - sarcinile de ortografie, controlul sintactic și semantic al textelor. Prima dintre ele poate fi rezolvată folosind procedura de analiză morfologică, care folosește un dicționar de mașini de referință destul de puternic de tulpini de cuvinte. În procesul de control ortografic, cuvintele textului sunt supuse analizei morfologice, iar dacă bazele lor sunt identificate cu bazele dicționarului de referință, atunci sunt considerate corecte; dacă nu sunt identificate, atunci ele, însoțite de un micro-context, sunt date spre vizionare de către o persoană. O persoană detectează și corectează cuvintele distorsionate, iar sistemul software corespunzător face aceste corecții textului corectat.

    Sarcina controlului sintactic al textelor pentru a detecta erorile din ele este mult mai dificilă decât sarcina controlului ortografiei lor. În primul rând, pentru că include în componența sa sarcina controlului ortografiei ca componentă obligatorie și, în al doilea rând, pentru că problema analizei sintactice a textelor neformalizate nu a fost încă pe deplin rezolvată. Cu toate acestea, controlul sintactic parțial al textelor este destul de posibil. Există două căi de mers aici: fie să alcătuiești dicționare de mașină suficient de reprezentative ale structurilor sintactice de referință și să compari structurile sintactice ale textului analizat cu acestea; sau dezvolta sistem complex reguli de verificare a consistenței gramaticale a elementelor textului. Prima modalitate ni se pare mai promițătoare, deși, desigur, nu exclude posibilitatea de a folosi elemente ale celei de-a doua modalități. Structura sintactică a textelor ar trebui descrisă în termeni de clase gramaticale de cuvinte (mai precis, sub formă de secvențe de seturi de informații gramaticale pentru cuvinte).

    Sarcina de control semantic al textelor pentru a detecta erorile semantice din acestea ar trebui să fie atribuită clasei de sarcini inteligenţă artificială. În totalitate, poate fi rezolvată doar pe baza modelării proceselor gândirii umane. În același timp, aparent, va fi necesar să se creeze baze de cunoștințe enciclopedice puternice și instrumente software pentru manipularea cunoștințelor. Cu toate acestea, pentru domenii limitate și pentru informații formale, această problemă este destul de rezolvabilă. Ar trebui pusă și rezolvată ca o sarcină de control semantico-sintactic al textelor.

    Lingvistica computațională modernă se concentrează foarte mult pe utilizarea modelelor matematice. Există chiar și o credință populară că lingviștii nu sunt deosebit de necesari pentru modelarea automată a limbajului natural. Cunoscut expresie populară Frederic Jelinek, șeful centrului de recunoaștere a vorbirii de la Universitatea Johns Hopkins: „ Ori de câte ori un lingvist părăsește grupul, rata de recunoaștere crește”- de fiecare dată când un lingvist părăsește grupul de lucru, calitatea recunoașterii crește.

    Cu toate acestea, cu cât sarcinile de modelare lingvistică sunt mai complexe și pe mai multe niveluri sunt stabilite pentru dezvoltatorii de sisteme automate, cu atât devine mai evident că soluția lor este imposibilă fără a lua în considerare teoria lingvistică, înțelegerea modului în care funcționează limbajul și competența expertului lingvistic. În același timp, a devenit evident că metodele automate de analiză și modelare a datelor lingvistice pot îmbogăți semnificativ cercetarea lingvistică teoretică, fiind atât un mijloc de colectare a datelor lingvistice, cât și un instrument de testare a consistenței unei anumite ipoteze lingvistice.

    Forumul de evaluare a procesării textului

    S.Yu.Toldova, O.N. Lyashevskaya, A.A. Bonch-Osmolovskaya

    Cum să formalizezi sensul lexical, să îl faci „lizibil de mașină”? Răspunsul la aceasta este oferit de modelele distributive ale limbii, în care sensul unui cuvânt este suma contextelor sale într-un corpus suficient de mare. Rețelele neuronale artificiale vă permit să antrenați rapid și eficient astfel de modele.

    Denis Kiryanov, Tanya Panova (supervizor B.V. Orehov)

    Acest program are două funcții: a) normalizarea textului idiș, b) transliterarea din litere pătrate în latină. Aceste probleme sunt foarte relevante: până acum nu a existat un singur normalizator, cu excepția verificatorilor ortografic. Între timp, aproape fiecare editură care a publicat cărți în idiș și-a urmat practica ortografică. Normalizatorul este necesar pentru a lucra asupra corpus limbii idiș: pentru a reduce toate textele la o singură ortografie recunoscută de parser. Transliterarea va permite tipologilor să lucreze și cu material idiș.

    VIDEO al personalului Școlii de Lingvistică:

    Opțional; 3 ani, 2, 3 module

    Necesar; Anul I, 2 module

    Opțional; 3 ani, 3 module

    Necesar; Anul 4, modul 1-3

    Necesar; Anul 4, 2 module

    Necesar; Anul 2, 1, 2, 4 modul

CLOPOTUL

Sunt cei care citesc aceasta stire inaintea ta.
Abonați-vă pentru a primi cele mai recente articole.
E-mail
Nume
Nume de familie
Cum ți-ar plăcea să citești Clopoțelul
Fără spam