Caracteristicile Limbajului Natural

PARTEA TEORETICĂ

1 INTRODUCERE

1.1 Rolul limbajului natural

Dezvoltarea accelerată a domeniului tehnologiei informațiilor a condus la o schimbare majoră în modul de percepere a lumii în care trăim. Puterea computațională a crescut exponențial în ultimii ani, ducând la dezvoltarea unor sisteme computaționale din ce în ce mai sofisticate și mai performante. Astăzi acestea fac parte din viața cotidiană a milioane de oameni, fiind utilizate în aproape orice domeniu al activității umane, atât în activitatea profesională cât și în viața privată.

Un aspect important al vieții de zi cu zi a oamenilor la ora actuală este Internetul. Datorită acestuia, cantitatea de date disponibilă este enormă așa că găsirea unei anumite informații în acest spațiu informațional este o operație anevoioasă și mare consumatoare de timp. Dezvoltarea unor instrumente care să găsească informația sau să o extragă din acest volum imens de date în timp util a devenit extrem de importantă. Acesta este unul din motivele dezvoltării domeniului prelucrării limbajului natural. Un alt motiv foarte important al acesteia este realizarea traducerii automate, care ar permite ștergerea barierelor lingvistice dintre utilizatorii obișnuiți ai Internetului.

Totuși folosirea sistemelor și dispozitivelor IT necesită acumularea unor cunoștințe și dezvoltarea anumitor abilități, ceea ce le face mai puțin utilizabile de o anumită categorie de oameni. Acesta este principalul motiv pentru care a crescut interesul față de dezvoltarea unor sisteme de dialog om – mașină cât mai prietenoase și mai ușor de folosit.

Dezvoltarea unor interfețe de dialog om-mașină performante implică înțelegerea foarte bună a proceselor prin care două ființe umane comunică. Oamenii folosesc limbajul natural pentru a comunica între ei prin intermediul vorbirii, scrierii sau prin semne și au abilitatea de a prelucra limbajul natural cu o mare viteză și eficiență. Când conversează, ființele umane sunt capabile să treacă în mod repetat de la producerea la înțelegerea limbajului natural și viceversa. Modul în care oamenii realizează fără efort aceste treceri succesive și cum folosesc cunoștințele pe care le dețin (cunoștințele lingvistice și cele de de fond) este departe de a fi în totalitate înțeles. O bună înțelegere a mecanismelor și proceselor implicate în prelucrarea limbajului natural de către om poate conduce la îmbunătățirea comunicării om – mașină.

Deoarece cel mai natural mod de a comunica al oamenilor este vorbirea, cel mai ușor de folosit sistem de dialog om-mașină este cel bazat pe vorbire. Acesta este și motivul pentru care în ultimii ani s-au dezvoltat sisteme IT capabile să recunoască și să înțeleagă vorbirea sau să o genereze în mod artificial. Dezvoltarea acestor sisteme a permis nu numai îmbunătățirea comunicării om-mașină, ci și înțelegerea mai profundă a modului în care se formează structurile unei limbi (ex: propoziție, frază), a relațiilor care există între componentele structurilor respective și a modului în care „înțelesul” este codat în acestea. Dar deși s-au făcut pași importanți în acest domeniu, rezultatele obținute sunt mult inferioare față de cele ale omului. Datorită faptului că semnalul vocal este complex, el este greu de prelucrat și recunoașterea automată a vorbirii este departe de a fi la același nivel cu recunoașterea realizată de o ființă umană.

Pe de altă parte, deși inteligibilitatea vorbirii sintetice realizată până în prezent este crescută, naturalețea acesteia este mult inferioară celei umane. Acest lucru se datorează faptului că producerea vorbirii umane se bazează pe efecte articulatorii complexe care sunt greu de modelat matematic și apoi de reprodus de către o mașină.

Pentru a îmbunățăți performanțele sistemelor de recunoaștere și sinteză a vorbirii s-a introdus în arhitectura acestora câte un modul de prelucrare lingvistică. Acesta este unul din motivele pentru care prelucrarea limbajului natural (Natural Language Processing – NLP) a cunoscut în ultimii ani o dezvoltare deosebită. Scopul prelucrării limbajului natural este acela de a construi modele computaționale de limbă capabile să analizeze și să genereze limba respectivă. Datorită faptului că limbajele naturale nu sunt finite (nu este posibil să ne imaginăm toate propozițiile limbii române) și au foarte multe caracteristici (împărțite pe nivelurile lingvistice), ele sunt foarte greu de prelucrat. De aceea pentru rezolvarea ambiguităților inerente limbii au fost dezvoltate mai multe teorii și metode.

De-a lungul timpului s-au folosit diferite categorii de cunoștințe lingvistice pentru a se crea modele de limbă capabile să îmbunătățească recunoaștrea vorbirii continue. Una din abordările pentru prelucrarea limbajului natural a fost folosirea gramaticilor. Până acum au fost dezvoltate multe tipuri de gramatici (ex: gramatici independente de context, gramatici cu stări finite, etc.), dar s-a constatat că modele de limbă bazate pe gramatici sunt foarte restrictive și folosirea lor în sistemele de recunoaștere a vorbirii spontane este limitată.

În ultimii ani s-au dezvoltat modele de limbă statistice, care au ajuns ca astăzi să fie unele dintre cele mai folosite, deoarece sunt capabile să utilizeze aproape orice tip de cunoștință lingvistică. Aceste modele de limbă statistice sunt acum componente nu numai a sistemelor de înțelegere și sinteză a vorbirii, dar și a diferitelor sisteme de prelucrare a limbajului natural, cum ar fi cele de extragere a informațiilor, recuperarea informațiilor, traducerea automată, etc.

Pentru dezvoltarea modelelor de limbă sunt necesare mari resurse lingvistice computaționale. Realizarea acestor colecții de resurse lingvistice computaționale care să poată fi folosite cu succes în sistemele IT sunt foarte greu de realizat. Realizarea acestora implică nu numai un efort financiar deosebit, ci și a unei resurse umane speciale (lingviști, cercetători, ingineri, programatori, vorbitori ai limbii din toate zonele în care se vorbește limba respectivă, etc.). Dacă pentru limba engleză există la ora actuală multe resurse lingvistice computaționale disponibile, pentru limba română însă lucrurile nu au evoluat într-o manieră asemănătoare, astfel că astăzi resursele pentru limba română sunt puține și nu sunt accesibile pe scară largă pentru a fi folosite de comunitatea științifică.

În ceea ce privește domeniul recunoașterii vorbirii pentru limba română cercetări au fost efectuate încă din anii 1960 de către colectivul de cercetare conduse de profesorul Nicolau în care au fost studiate sinteza și recunoașterea vocalelor limbii române (Nicolau, Weber și Gavăt, 1963a; Nicolau, Weber și Gavăt, 1963b) și ulterior, în anul 1975 a fost realizată recunoașterea cifrelor vorbite (Gavăt,1975).

Cercetările în domeniu au continuat, astfel că începând cu anii 80 erau deja mai multe colective care se ocupau cu recunoașterea vorbirii care studiau probleme simple cum ar fi recunoașterea vocalelelor (Burileanu, 1983; Drăgănescu, 1986; Gavăt și Zirra, 1996; Grigore și alt., 1996; Grigore și alt., 1998), recunoașterea cuvintelor izolate (Burileanu, 1998; Valsan, 1998; Sabac, 1998; ) and word spotting algorithms (Valsan, 1998b; Burileanu, 2003).

Ulterior, cercetările s-au concentrat pe recunoșterea vorbirii continue, inițial pentru un vocabular limitat (Gavat și alt., 2003, Oancea, 2004; Oancea și alt., 2005; Munteanu, 2006; Dumitru și alt., 2006; Gavăt și Dumitru 2007; Dumitru și alt., 2007; Dumitru, 2008, Gavat și alt., 2008) ajungându-se până la sistemul de recunoaștere a vorbirii continue pentru limba română folosind un vocabular mic specific unui domeniu restrâns (Militaru, 2009; Domokos, 2009 ).

Faptul că nu exista nici o bază de date standard accesibilă pentru vorbirea în limba română, fiecare grup de cercetare (Munteanu, 2006; Dumitru, 2008) fiind nevoit să își creeze propria bază de date, a condus la încetinirea dezvoltării unor sisteme peformante de recunoaștere a vorbirii pentru vocabulare mari în limba română. Eforturile depuse în ultimii ani pentru dezvoltarea bazelor de date pentru vorbire au avut ca rezultat dezvoltarea unor sisteme de recunoaștere a vorbirii continue în limba română pentru vocabulare mari (Cucu, 2011).

Performanțele acestor sisteme de recunoașterea a vorbirii continue pentru limba română se pot îmbunăți dacă modelele de limbă folosite de acestea sunt mai performante. Dar pentru dezvoltarea unor modele de limbă performante trebuie să fie dezvoltate baze de date computaționale cu resurse lingvistice pentru limba română. În ultimii ani s-au dezvoltat astfel de resurse (Erjavec, 2010; Ion și alt., 2012) dar acestea nu sunt suficiente, fiind mici ca dimensiuni.

Pentru trecerea de la recunoașterea vorbirii la înțelegerea acesteia este însă necesară o înțelegere profundă a semanticii textelor. În contextul interpretării semantice a propozițiilor și frazelor din corpusuri largi de texte sintaxa și sematica componentelor acestora joacă un rol important. Sensul sintagmelor este determinat atât de înțelesul cuvintelor componente cât și de modul în care cuvintele sunt ordonate și grupate împreună. Relațiile care se pot stabili între aceste cuvinte sunt multiple ceea ce conduce la ambiguitatea propozițiilor, frazelor și a enunțurilor.

Deoarece relațiile stabilite între diferitele componente ale textului (cuvinte, propoziții, fraze) sunt foarte importante pentru înțelegerea sensului textelor, o varietate mare de cercetări au fost efectuate pentru detectarea automată a rolurilor și relațiile semantice, în mod special pentru limba engleză dar nu numai. Detectarea automată a rolurilor semantice pentru limba engleză a fost studiată în (Gildea și Jurafsky, 2002), (Gildea și Palmer, 2002), (Gildea, și Hockenmaier, 2003), (Fleischman, Kwon și Hovy2003), (Lim, Hwang, Park și Rim, 2004), (Moldovan, Girju, Olteanu și Fortu, 2004), (Surdeanu, Harabagiu, William și Aarseth, 2003), etc.

Pentru rezolvarea problemei identificării și descoperirii automate a relațiilor semantice au fost utilizate diferite metode pornind de la metode pur probabilistice (Berland și Charniak, 1999), și ajungându-se la arbori de decizie (Girju, Badulescu și Moldovan, 2003) sau reguli scrise manual (Girju, 2002). Începând cu anii 90 pentru detectarea relațiilor semantice s-au utilizat din ce în ce mai mult metode bazate pe extragerea și potrivirea tiparelor. Astfel pentru limba engleză au fost extrase multe relații semantice printre care:

relația de meronimie (relația semantică parte întreg) (Girju, Badulescu și Moldovan, 2006), (Berland și Charniak, 1999), (Girju, 2002), (Girju, Badulescu și Moldovan, 2003), etc;

relațiile stabilite între componentele grupurilor nominale (Rosario și Hearst, 2001), etc;

relația de hipernimie (Finin, 1980) , (Alexander și Staab, 2000), (Hearst, 1992), (Moldovan și Girju, 2000), etc;

relația de hiponimie (Hearst, 1992), (Oakes, 2005), (Barbu Mititelu, 2008), etc;

relația de cauzalitate (Garcia, 1997), (Girju și Moldovan, 2002), etc.

Cercetări privind detectarea automată a relațiilor semantice au fost efectuate și pentru limba română. În 2008 Girju (Girju, 2008) a investigat proprietățile sintactice și semantice ale prepozițiilor în contextul interpretării semantice a frazelor nominale (de tipul Nume Prepoziția Nume) și compușii (Nume Nume) pentru limba engleză și limbile Romanice printre care și româna. Detectarea automată a relației de hiponimie pentru limba română a fost studiată în (Mititelu, 2011).

1.2 Instrumente existente pentru prelucrarea limbajului natural

Aproape toate sistemele de recunoaștere, înțelegere sau de sinteză a vorbirii folosesc module lingvistice construite pe baza unor corpusuri sau colecții de texte care conțin diverse informații lingvistice. Deoarece realizarea acestor colecții de resurse lingvistice computaționale care să poată fi folosite cu succes în asemenea sisteme IT este dificilă și presupune un efort financiar deosebit, există puține astfel de resurse care să fie și disponibile în mod gratuit.

Multe din corpusurile existente la această oră au fost realizate de către universități sau institute de cercetare cu scopul de a îmbunătăți rezultatele cercetărilor efectuate de acestea. Cele mai multe resurse lingvistice disponibile astăzi sunt cele pentru limba engleză. Printre acestea se numără următoarele colecții de texte adnotate:

Penn Treebank. Această bază de date conține text adnotat sintactic. Ea este de fapt o colecție de arborii lingvistici care modelează structura sintactică a unei propoziții.

Corpusul Brown pentru Engleza Americană (Standard Brown Corpus of Standard American English) (Francis, 1979; Francis și Kucera, 1982). Acesta a fost dezvoltat în anii 1960 de către Henry Kucera și W. Nelson Francis la Universitatea Brown (Providence, Rhode Island) pentru engleza americană actuală. Corpusul conține o colecție de texte în limba engleză, cuprinzând aproximativ un milion de cuvinte.

Corpusul C7 (Garside și al., 1997)

Corpusul Național Britanic (http://www.natcorp.ox.ac.uk/). Acest corpus s-a format pe baza unor surse din domenii diferite și conține în jur de o sută de milioane de cuvinte, în formă scrisă și vorbită.

Corpusul Englezei Americane Contemporane (The Corpus of Contemporary American English – COCA) (http://corpus.byu.edu/coca/). Acesta este cel mai mare corpus pentru limba engleză și este format din texte din diferite domenii cum ar fi beletristică, texte academice, ziare, etc. Corpusul conține mai mult de 450 de milioane de cuvinte și este disponibil gratis.

Pentru limba română în schimb există foarte puține astfel de resurse. Printre acestea se numără următoarele corpusuri:

MULTEXT-East: Multilingual Text Tools and Corpora for Central and Eastern European Languages (http://nl.ijs.si/ME/);

ROMBAC – the Balanced Annotated Corpus of Romanian (Ion și alt., 2012).

De asemenea, în lume au fost dezvoltate diferite instrumente software care pot fi folosite în modelarea limbajului natural. Câteva dintre instrumentele disponibile gratuit pentru a putea fi utilizate de către comunitatea științifică sunt enumerate în continuare:

SRI LM – The SRI Language Modeling Toolkit

Pachetul software SRLIM (Stolcke, 2002) permite crearea unor modele de limbă de tip n-gram care ulterior pot fi utilizare în sistemele de recunoaștere a vorbirii. Acest toolkit rulează pe platforme Windows și Linux. Acest pachet are și o extensie care realizează modele de limbă factoriale. Este scris în C și este open source.

Carnegie Mellon Statistical Language Modeling Toolkit (CMU SLM)

Setul de programe software ”Carnegie Mellon Statistical Language Modeling Toolkit” (CMU SLM) este format dintr-o serie de unelte software proiectate pentru a facilita modelarea statistică a limbajului natural. Acestea permit realizarea unor modele de limbă de tip n-gram care pot fi folosite ulterior în recunoasterea vorbirii. Este scris în C și este open source.

HTK Language Modeling Toolkit

HTK Toolkit este un pachet software dezvoltat pentru prelucrarea vorbirii, în special pentru realizarea recunoașterii vorbiriri. Acesta conține și un modul pentru modelarea lingvistică care realizează crearea, testarea și evaluarea modelelelor de limbă statistice (modele n-gram bazate pe cuvinte și modele n-gram bazate pe clase de cuvinte) și a gramaticii cu stări finite. Este scris în C și este open source.

NLTK

NLTK (http://nltk.sf.net/) este o platformă formată dintr-o suită de programe software (open source), manuale și seturi de probleme dezvoltată pentru prelucrarea limbajului natural. NLTK a fost dezvoltat cu scopul de a sprijini cercetarea și predarea prelucrării limbajului natural. Acesta permite utilizarea mai multor limbi dacă există resurse disponibile pentru acestea. Este scris în Phyton și este open source.

Stanford Core NLP

Stanford Core NLP face parte din suita de programe software pentru prelucrarea limbajului natural dezvoltate de către Universitatea Stanford pentru limbile engleză, spaniolă și chineză. Acestea sunt scrise în Java și sunt open source.

1.3 Obiectivele tezei

Datorită complexității limbajului natural și a nevoii de a obține o recunoștere și înțelegere a vorbirii cu performanțe ridicate s-au încercat de-a lungul timpului diferite metode de modelare a limbii. În timp s-a dovedit că unele din cele mai bune rezultate sunt obținute de modelele de limbă statistice. De aceea, în această teză primul obiectiv este acela de realiza mai multe modele de limbă statistice pentru limba română și de a observa modul în care acestea își îmbunătățesc performanțele prin combinarea mai multor trăsături lingvistice și studierea modului în care fiecare influențează perfomanțele modelului obținut.

Al doilea obiectiv al tezei este descoperirea relațiilor lexico-sintactice care codează anumite relații semantice. Identificarea relațiilor semantice existente în texte este foarte importantă deoarece acestea pot fi folosite ulterior pentru rezolvarea altor probleme ale domeniului prelucrării limbajului natural. Detectarea automată a relațiilor semantice care pot apărea între diferite cuvinte și segmente de text poate conduce la o înțelegere mai bună a modului în care oamenii realizează înțelegerea unui text. Deoarece substantivul și adjectivul sunt două dintre cele mai importante părți de vorbire ale limbii române, în această teză am detectat și clasificat automat relațiile lexico-sintactice care se stabilesc între aceste două părți de vorbire.

1.4 Structura tezei

Teza este structurată în două părți ce cuprind nouă capitole, organizate astfel încât să i se asigure coerență și unitate. Prima parte, intitulată Partea Teoretică, constă din prezentarea teoriilor considerate relevante și importante pentru tematica tezei. Această parte este organizată în cinci capitole, fiecare prezentând un anume aspect teoretic al problematicii abordate în teză.

În capitolul Capitol I se face o scurtă descriere a domeniului prelucrării limbajului natural, a realizărilor obținute și a limitărilor acestuia. Acest capitol continuă cu prezentarea stadiului actual în prelucrarea limbajului natural și a obiectivelor tezei.

Datorită complexității limbajul natural selectarea cunoștințelor lingvistice care pot fi folosite la realizarea unor modele de limbă presupune o cunoaștere profundă a gramaticii unei limbi. Prin urmare, în această teză, înainte de a trata modalitățile de creare a modelelor de limbă sunt prezentate în Capitolul 2 caracteristicile limbajului natural. La început se face prezentarea câtorva noțiuni de limbă și limbaj, urmate de o scurtă prezentare a nivelurilor lingvistice și a proprietăților acestora. Deoarece pe fiecare nivel lingvistic există anumite ambiguități, am considerat necesară prezentarea pe scurt a acestor ambiguități și a modalităților de rezolvare a acestora. Capitolul continuă cu o prezentare sumară a părților de vorbire ale limbii române subliniind importanța acestor părți de vorbire în prelucrarea automată a limbajului. Capitolul se încheie cu prezentarea pe scurt a substantivului, adjectivului și a relațiilor semantice dintre ele.

Capitolul 3 este consacrat modelării limbajului natural. În general pentru modelarea limbajului natural sunt folosite două tehnici: una bazată pe statistică și cealaltă bazată pe cunoștințe. Deoarece în această teză am realizat mai multe modele de limbă statistice, capitolul 3 începe cu prezentarea acestora (modele n-gram, modele n-gram bazate pe clase de cuvinte, modele factoriale). Acest capitol continuă cu prezentarea modelelor de limbă structurale și a celor mai cunoscute tipuri de modelele de limbă bazate pe cunoștințe. Capitolul se încheie cu prezentarea metodelor de evaluare a modelelor de limbă.

Modelele de limbă statistice se confruntă cu problema insuficienței datelor de antrenare și de aceea rezultatele obținute sunt diferite de cele obținute în realitate. Pentru rezolvarea acestei probleme se folosesc diferite metode de redistribuire a datelor descrise în Capitolul 4.

Capitolul 5 conține o scurtă descriere a instrumentelor și a resurselor lingvistice pe care le-am folosit pentru realizarea modelării limbii române.

Partea a doua, Partea experimentală, consacrată cercetărilor proprii prezintă rezultatele obținute în urma acestora și este structurată în patru capitole, prezentate mai jos.

În Capitolul 6 este prezentată metoda de realizare a modelului de limbă bigram bazat pe clase de cuvinte și analizate rezultatele experimetale obținute la recunoașterea vorbirii pentru limba română folosind modelul respectiv.

Deoarece limba română are o morfologie complexă am studiat modalitatea de introducerea a unor trăsături morfologice în modelele de limbă factoriale și am realizat mai multe astfel de modele. Modelele și rezultatele obținute sunt prezentate în capitolul 7.

Capitolul 8 este dedicat problemei detectării tiparelor lexico – sintactice care codează anumite relații semantice. În acest capitol sunt prezentate metodele utilizate pentru identificarea tiparelor și detectarea relațiilor semantice stabilite între două substantive și între un substantiv și un adjectiv. Tot aici sunt analizate rezultatele obținute în urma experimentelor efectuate.

În Capitolul 9 sunt reluate pe scurt cele mai importante aspecte tratate în teză, sunt prezentate principalele contribuții ale autorului și concluziile.

2 CARACTERISTICILE LIMBAJULUI NATURAL

2.1 Limbă și limbaj

Limbajul reprezintă un sistem de comunicare între două entități. Un limbaj este constituit dintr-o colecție de simboluri (ex: sunete, gesturi, elemente grafice, etc.) realizabile fizic de către utilizatorii acestuia. El poate fi natural (uman și animal) sau artificial (de programare, de marcare, etc.). Pentru ființele umane limbajul reprezintă unul din aspectele fundamentale ale comportamentului lor fiind necesar pentru comunicarea interrumană prin intermediul vorbirii, scrierii sau prin semne.

Funcția primară a limbajului natural este aceea de comunicare, adică de transmitere a unei informații. Pentru a putea fi comunicată informația trebuie să fie codată într-un șir al limbajului natural de către emitent și apoi extrasă de către receptor din acel șir. Pentru transmiterea corectă a informației este necesară identificarea relațiilor care pot fi stabilite între informație și șirul care o codează. Aceasta implică o înțelegere foarte bună a limbajului natural/limbii și o intuire a mecanismelor utilizate de aceasta.

Dar ce este limba? După cum spune Ferdinand de Saussure (Saussure, 1998) limba nu trebuie confundată cu limbajul natural putând fi considerată ca fiind:

parte (esențială / determinantă) a limbajului;

un produs al facultății limbajului;

ansamblu de convenții sociale;

posibilitate de folosire a limbajului.

Așadar putem spune că limba este un ansamblu de semne de comunicare (în acest caz semnul lingvistic) folosite în comunicare (Saussure, 1998).

Dacă considerăm că limba este un instrument, funcția sa esențială este aceea de comunicare. De exemplu, limba româna este instrumentul care permite vorbitorilor limbii române să se înțeleagă unii cu alții. Dacă nu ar exista această necesitate a oamenilor de a comunica unii cu alții, limba fiecărei persoane s-ar degrada într-o perioadă de timp relativ scurtă. Nevoia permanentă de interacțiune și comunicare a ființelor umane determină păstrarea instrumentului "limbă" într-o formă adecvată care să permită comunicarea interrumană prin intermediul vorbirii.

Pentru a înțelege maniera în care ființele umane comunică prin intermediul limbajului natural, este important să se înțeleagă foarte bine modul cum informația este codată în șirul limbajului natural și cum este extrasă din acest șir de către cititor. Scopul identificării structurii limbajului este acela de a stabili o relație între informație și șirul care o codează înainte de a scrie gramaticile și proiecta sistemele de prelucrare a limbajului natural.

Un șir este, în general, un termen pentru sintagme, paragrafe, propoziții sau fraze. Unitatea de bază a unui șir scris este cuvântul. Un cuvânt este o secvență continuă de caractere alfanumerice (uneori incluzând cratima). Acest șir conține o informație. Anumite secvențe de cuvinte pot fi grupate împreună într-un grup de cuvinte pentru a exprima ceva inteligibil. Acest lucru înseamnă că pentru un asemenea grup de cuvinte există un șablon sau o regulă care ajută la definirea grupului. Informația conținută într-un grup de cuvinte de obicei corespunde informației conținute de cuvintele care îl constituie. Similar un grup de cuvinte poate fi combinat cu alte grupuri de cuvinte sau cuvinte pentru a forma grupuri mai mari. La fel și aici, informația conținută în grupul mai mare este aceeași cu informația conținută în grupurile constituente.

În general, prin gruparea a două sau mai multe elemente într-o unitate mai mare, se formează o structură care conține elementele respective și relațiile dintre ele. Informația conținută în unitățile mai mari, de obicei depinde de structură, adică de constituenți și de relațiile dintre ei.

Pentru realizarea analizei unei limbii cuvintele și structurile posibile ale acesteia sunt împărțite în categorii. Pentru clasificarea cuvintelor se folosesc categoriile lexicale (ex: substantiv (N), verb (V), adjectiv etc.), fiecărei categorii lexicale corespunzându-i o anumită structură (ex: grupul nominal (GN) pentru substantiv, grupul verbal pentru verb (GV), etc.). Astfel că o propoziție poate fi structurată în funcție de constituenții ei astfel:

Figura 1 Exemplu de arbore sintactic al unei propoziții

2.2 Niveluri lingvistice

Pentru decodificarea informației existente într-o rostire sau într-un text scris sunt folosite mai multe surse de cunoștințe. Acestea pot fi clasificate în:

(1) cunoștințe despre limbă: (a) gramatica, (b) lexicon, (c) pragmatica și discursul;

(2) cunoștințe generale: (a) cunoștințe generale despre lumea înconjurătoare, (b) cunoștințe specifice unui domeniu (incluzând cunoștințele specializate din domeniul despre care se discută), (c) contextul, (d) nivelul de cultură.

În general ascultătorul/cititorul poate folosi toate aceste surse de cunoștințe pentru a extrage informațiile dintr-o rostire sau un text dat.

Se știe că atunci când un om produce (vorbește sau scrie într-o limbă) sau înțelege limba el utilizează mai multe tipuri de prelucrări ale limbii. Noțiunea de “nivelurile analizei lingvistice” este strâns legată de aceast aspect. Se consideră că oamenii în mod normal utilizează informații de pe toate aceste niveluri lingvistice din moment ce fiecare dintre aceste niveluri furnizează înțelesuri de tip diferit. Sistemele de prelucrare a limbajului natural încercând să atingă performanțele omului utilizează la rândul lor analiza lingvistică efectuată pe diferitele niveluri sau combinații de niveluri.

Abordarea studiului limbii bazat pe informația conținută furnizează legături între ceea ce numim morfologie, sintaxă, semantică și pragmatică. Pentru fiecare dintre aceste niveluri s-au elaborat teorii care încearcă să explice cât mai bine comportamentul limbii. Această împărțire a cunoștințelor despre limbă pe mai multe niveluri lingvistice ajută la crearea categoriilor și utilizarea lor ulterioară.

Nivelurile pe care este structurată limba sunt:

fonetica;

morfologia;

sintaxa;

semantica;

pragmatica.

Fiecare dintre aceste niveluri lingvistice conține un anumit tip de informație lingvistică. Această structurare pe mai multe niveluri ajută la împărțirea cunoștințelor despre limbă în categorii pemițând elaborarea unor metode specifice de analiză lingvistică pentru fiecare dintre acestea. Între aceste niveluri lingvistice există legături strînse, fiecare nivel inferior oferind informații care ajută la efectuarea analizei pe nivelul superior.

a.Fonetica este ramura lingvisticii, care se ocupă cu studierea structurii sonore a limbii, avându-se în vedere producerea, transmiterea, audiția și evoluția sunetelor vorbite. Fonetica analizează producerea tuturor sunetelor vorbirii umane indiferent de limbaj. Deoarece ea se ocupă nu numai de studierea fiziologică și acustică a sunetelor articulate izolate, ci și cu studierea regulilor de îmbinare a lor în componența unităților lingvistice (silabe, lexeme, expresii, propoziții) ea este în strânsă legătură cu cu celelalte discipline lingvistice.

b.Morfologia este acea parte a lingvisticii care studiază forma cuvântului, modificările formei și ale conținutului, valorile gramaticale exprimate prin formele cuvântului. În cadrul morfologiei cuvântul este studiat din punctul de vedere al variației formei sale (al flexiunii) pentru exprimarea diverselor categorii gramaticale.

Deoarece morfologia este domeniul lingvisticii care se ocupă de studiul structurii interne a cuvintelor, analiza la nivel morfologic studiază regulile de combinare a morfemelor lexicale și gramaticale în cuvinte, stabilirea paradigmelor lor în dependență de categoriile de gen, număr, caz etc. sau a regulilor privitoare la modificările formale ale lor în diferite întrebuințări.

Analiza morfologică încearcă să identifice cuvintele și să le analizeze structura lor pentru a le putea atribui categorii lexicale și înțeles. Cuvintele sunt compuse din morfeme care reprezintă cele mai mici unități care au înțeles. Deoarece înțelesul fiecărei morfeme rămâne aceași, oamenii pot sparge un cuvânt necunoscut în morfemele constituente cu scopul de a înțelege sensul cuvântului respectiv. La fel poate proceda și un sistem de prelucrare a limbajului natural pentru a recunoaște înțelesul furnizat de fiecare morfemă și a obține sensul cuvintelor. De exemplu în limba română adăugarea sufixului –ând verbelor (ex: mergând) transmite faptul că verbul exprimă o acțiune în curs de desfășurare, fără referire la momentul vorbirii.

Cuvintele, la rândul lor, sunt clasificate în anumite clase lexico-gramaticale, numite părți de vorbire, pe baza sensului, formei sau funcției pe care acestea le îndeplinesc în comunicare. Definirea acestor clase se face pe baza a trei criterii de clasificare: semantic, morfologic și sintactic. Aceste criterii se regăsesc în definițiile clasice ale părților de vorbire, în care se arată ce exprimă clasa respectivă (sensul lexical), caracteristicile de formă (flexiunea în raport cu diverse categorii gramaticale) și funcțiile sintactice ale cuvintelor (rolul acestora) într-un text. Această clasificare în clase lexico-gramaticale ar trebui să asigure posibilitatea de încadrare a oricărei unități lexicale într-o anumită clasă, fiecare clasă delimitându-se clar în raport cu celelalte. Există totuși și cuvinte care pot aparține la două sau mai multe clase lexico-gramaticale.

În gramatica tradițională a limbii române aceste clase lexico-gramaticale sunt numite părți de vorbire fiind recunoscute zece părți de vorbire: substantivul, pronumele, articolul, adjectivul, verbul, adverbul, numeralul, prepoziția, conjuncția și interjecția. Dintre acestea, primele șase se grupează în categoria cuvintelor flexibile, adică pot prezenta modificări formale, ultimele patru în cea a cuvintelor neflexibile.

De asemenea pentru a se putea studia modul în care se poate realiza flexiunea părților de vorbire s-au introdus categoriile gramaticale. Pentru limba română acestea sunt: genul, numărul, cazul, determinarea, gradul de comparație, persoana, diateza, modul și timpul.

Analiza morfologică este importantă în prelucrarea limbajului și a vorbirii pentru realizarea diferitelor sarcini ale prelucrării limbajului cum ar fi: corectarea ortografiei, traducerea automată, extragerea informațiilor, căutarea pe web. Importanța părților de vorbire pentru prelucrarea limbajului este dată de dată de cantitatea mare de informații pe care acestea o dau despre un cuvântul respectiv și despre vecinii săi (ex: substantiv contra verb). Aceste informații sunt foarte utile atunci când se modelează limbajul pentru realizarea recunoașterii și înțelegerii vorbirii.

c. Sintaxa

Sintaxa este acea parte a lingvisticii care studiază combinarea cuvintelor și funcțiile pe care acestea le iau în cadrul combinațiilor (propozițiilor, frazelor, enunțurilor). Cu alte cuvinte sintaxa realizează studierea principiilor și regulilor care guvernează structura propozițiilor și frazelor unei limbi. Spre deosebire de morfologie, care se concentrează pe studiul cuvintelor, sintaxa se concentrează pe identificarea secvențelor de cuvinte permise de o limbă.

Propozițiile oricărei limbi au o organizare internă, ordonarea cuvintelor în acestea fiind făcută după anumite reguli mai mult sau mai puțin stricte. Limbile utilizate astăzi pot fi privite, din punct de vedere al ordinii cuvintelor, ca limbi în care ordinea cuvintelor nu contează, contează într-o anumită măsură sau gradul de ordine este ridicat (cum ar fi engleza). Putem așadar spune că în limbile în care ordinea cuvintelor nu contează ea determină în principal informația pragmatică, în timp ce în limbile cu un grad de ordine a cuvintelor mai ridicat furnizează și informații despre structură și sintaxă.

Astfel că, în limbile în care ordinea și dependența cuvintelor contribuie la înțeles sintaxa aduce sens. De exemplu în propozițiile următoare au fost folosite aceleași cuvinte dar înțelesul furnizat este diferit:

“Pisica urmărește șoarecele.”

“Șoarecele urmărește pisica.”.

Odată ce a fost identificată structura unei propoziții este mai ușor să se rezolve anumite aspecte legate de înțelesul acesteia.

d. Semantica

Partea lingvisticii care se ocupă cu studiul sensului (înțelesului) expresiilor lingvistice este semantica. Aceasta încearcă să clarifice problema sensului încercând să răspundă la întrebarea de ce și cum se schimbă sensul cuvintelor și al frazelor și care sunt relațiile semantice (sinonimia, antinomia, hiponimia, etc.) care pot exista între acestea. Câteva dintre problemele abordate de către semantică sunt: identificarea sensului unui cuvânt, determinarea înțelesului furnizat de cuantificatori, relațiile dintre substantiv și modificatorii acestuia, identificarea sensului implicat de folosirea unui anumit timp pentru verbe.

Majoritatea oamenilor cred că semantica este nivelul la care este determinat sensul (înțelesul) unui cuvânt sau al unei propoziții, dar de fapt la determinarea sensului participă toate nivelurile (fonetica, morfologia, sintaxa, pragmatica). La nivel semantic se determină sensul posibil al propoziției prin concentrarea pe interacțiunea dintre înțelesurile la nivel de cuvânt a cuvintelor dintr-o propoziție. Prelucrarea la nivelul semantic include și dezambiguizarea semantică a cuvintelor cu mai multe sensuri într-un mod analog dezambiguizării sintactice a cuvintelor care pot funcționa ca mai multe părți de vorbire. Dezambiguizarea semantică permite selectarea unui singur sens pentru cuvintele polisemantice și includerea acestuia în reprezentarea semantică a propoziției.

Pentru a înțelege un text o persoană trebuie să înțeleagă sensul cuvintelor, relațiile dintre cuvinte, modul de formare și sensul propozițiilor și al frazelor. Dacă la om acest lucru este natural, pentru a învăța un calculator să atingă nivelul uman de înțelegere a comunicării trebuie realizate modele și metode necesare învățării automate.

e. Pragmatica

Pragmatica este acea parte a lingvisticii care studiază folosirea practică a limbii în diferite situații și modul în care contextul contribuie la sens. Ea studiază relațiile dintre limbă și contextul în care aceasta este folosită pentru a explica modul în care contextul poate contribui la sens. Spre deosebire de semantică care se ocupă cu studiul sensului cuvintelor individuale și a textului întreg, pragmatica studiază motivația oamenilor de a produce anumite propoziții sau enunțuri într-o situație particulară. Analiza pragmatică examinează contextului comunicării, a condițiilor în care are loc o comunicare, a intențiilor și posibilităților de comunicare a interlocutorilor, așadar vizează, interacțiunea dintre emițător și receptor.

La acest nivel nu se interpretează textul (sau rostirea) interpretându-se fiecare propoziție separat, ci se concentrează atenția pe proprietățile textului/discursului ca un întreg care furnizează înțeles prin efectuarea conexiunilor dintre propozițiile componente. Scopul este de a explica modalitatea în care înțelesul suplimentar este extras din text sau rostire, fără ca acesta să fi fost de fapt codat text/rostire.

În pragmatică, atenția se concentrează asupra celui care emite mesajul, deoarece de personalitatea, educația și de modul în care acesta percepe realitatea depinde construcția mesajului. Atunci când o persoană comunică, ea construiește mesajul apelând la strategii discursive fără să fie conștientă de asta. În procesul de înțelegere a mesajului, din perspectivă pragmatică, interlocutorul trebuie să coreleze mesajul exprimat cu intenția comunicativă. Cu alte cuvinte el trebuie să extragă adevăratul mesaj ascuns în spatele textului/rostirii deoarece mesajul din spatele textului/rostirii decodifică nu numai intenția comunicativă, dar și starea de spirit a interlocutorului nostru.

Interpretarea sensului pe care vorbitorul vrea să îl transmită folosind anumite cuvinte este adesea influențat de diverși factori cum ar fi presupunerile ascultătorului referitoare la vorbitor și context. Contextul de utilizare include contextul discursului și astfel pragmatica cuprinde studii atât despre modul în care discursul este structurat cât și despre modul în care ascultătorul reușește să interpreteze ceea ce un interlocutor îi transmite într-o conversație.

2.3 Analiza ambiguităților limbii române

Metodele specifice de analiză lingvistică dezvoltate pentru fiecare nivel lingvistic rezolvă un anumit tip de ambiguitate care apare în limbajul natural. Oamenii rezolvă ambiguitățile din limbă fără a fi conștienți de apariția acestora deoarece au cunoștințe despre limbă și lume. Atunci când omul interpretează o frază dintr-o anumită limbă, el utilizează cunoștințele lexicale despre sensul cuvintelor, cunoștințele despre structura sintactică, cunoștințele pragmatice despre modul în care limba este folosită și cunoștințele generale despre lume pe care el le posedă.

Pentru a învăța mașina să folosească toate aceste cunoștințe s-au depus eforturi considerabile, însă problema ambiguităților în domeniul prelucrării limbajului este departe de a fi rezolvată. Pentru a construi modele computaționale de limbă care să permită realizarea de sisteme IT capabile să recunoască sau să genereze vorbire cu performanțe asemănătoare omului trebuie să fie identificate și rezolvate ambiguitățile inerente limbajului natural.

Ambiguitatea reprezintă posibilitatea atribuirii mai multor interpretări (înțelesuri) unui cuvânt sau unei expresii și poate apărea la orice nivel lingvistic. Ambiguitatea prezentă pe fiecare nivel inferior generează ambiguități pe nivelurile superioare. O ambiguitate care apare la nivel morfologic și nu este rezolvată poate genera mai multe ambiguități la nivel sintactic și semantic. Fiecare sintagmă ambiguă structural poate conduce la interpretări sintactice multiple, acestea la rândul lor producând numeroase interpretări semantice datorită faptului că sintaxa este și ea purtătoare de sens. Analiza semantică poate elimina unele structuri generate anterior cauzate de încălcarea unor restricții semantice impuse de universul de discurs. În sfârșit, prin analiza la nivel pragmatic se presupune că sunt rezolvate ambiguitățile rămase prin utilizarea restricțiilor pragmatice. Este așadar important ca ambiguitățile să fie identificate și rezolvate la nivelul pe care ele apar.

În funcție de nivelul lingvistic la care acestea apar ele pot fi clasificate astfel:

ambiguități la nivel morfologic;

ambiguități la nivel sintactic;

ambiguități la nivel semantic;

ambiguități la nivel pragmatic.

a. Ambiguitățile la nivel morfologic apar atât datorită schimbării formelor cuvintelor cât și ale conținutului acestora. Variația formei unui cuvânt pentru a-i atribui un anume sens conduce la o serie de ambiguități. Cea mai mică unitate purtătoare de sens este morfemul și cum cuvintele sunt formate din morfeme, descoperirea morfemelor dintr-un cuvânt poate conduce la dezambiguizarea acestuia. De exemplu în cuvântul lucrătorului deosebim morfemul lucr urmat de ător (,,persoană care face o acțiune”) + ul (cu sensul de articol hotărât) + ui (cu sens de dativ sau de genitiv). E clar că nici lucr, nici ător, ul, sau ui nu se pot descompune aici în unități mai mici care să aibă un sens determinat.

Când analizează un text sau un discurs se pare că oamenii interpretează înțelesul fiecărui cuvânt individual. Pentru a înțelege cuvintele sunt necesare mai multe operații: identificarea lor, analiza structurii lor, împărțirea lor în categorii lexicale și atribuirea sensului corect. Prima prelucrare care se realizează asupra unui text este atribuirea unei etichete (care să indice partea de vorbire căreia cuvântul îi aparține) unice fiecărui cuvânt. Această problemă de etichetare a părților de vorbire este o problemă dificil de rezolvat pentru limba română deoarece există multe cuvinte cărora li se pot atașa mai multe etichete de parte de vorbire. Această ambiguitate se numește ambiguitate la adnotarea sau etichetarea morfosintactică a cuvintelor.

Problema care apare la etichetarea morfosintactică este aceea de a alege eticheta corectă de parte de vorbire în contextul dat. Un etichetator trebuie să delimiteze cuvântul, să determine posibilele lui interpretări și conform contextului să îi atribuie eticheta ce reflectă categoria morfosintactică corectă. În figura 2 este prezentat modul în care cuvântul drept poate fi etichetat.

Acest tip de ambiguitate se rezolvă pe baza contextului. Cuvântului căruia i se pot atribui mai multe părți de vorbire i se atașează eticheta care are cea mai mare probabilitate (probabilitatea este calculată pe baza contextului în care apare cu ajutorul etichetatoarelor statistice) sau în fucție de regula scrisă de lingviști (etichetatoare bazate pe reguli).

Figura 2 Etichetarea morfosintactică a cuvântului drept

b. Ambiguitățile la nivel sintactic sau ambiguitățile structurale apar la nivel de propoziție când cea care o cauzează este structura gramaticală. În acest caz gramatica atribuie mai multe posibile analize sintactice unei propoziții. Cu alte cuvinte unei structuri gramaticale îi pot fi atribuiți mai mulți arbori sintactici. În cadrul interacțiunii umane aceste ambiguități sunt rezolvate prin contextul în care aceste cuvinte sau fraze apar. Este importantă determinarea corectă a structurii unei propoziții deoarece după ce se identifică structura acesteia este mai ușor să se rezolve anumite aspecte legate de înțelesul ei deoarece sintaxa aduce sens în limbile în care ordinea și dependența cuvintelor contribuie la înțeles.

Modul de combinare a ambiguităților de tip structural în propoziții reale este complex. Faptul că există mai multe analize nerezonabile pentru propozițiile care apar în mod natural într-o limbă este o problemă extrem de supărătoare care afectează performanțele tuturor analizorilor creați în prelucrarea limbajului natural. În cele din urmă, toate sistemele de prelucrare a limbajului natural trebuie să fie capabile să aleagă analiza corectă din multitudinea de analize posibile prin intermediul dezambiguizării sintactice. Din nefericire, algoritmii de dezambiguizare efectivă necesită cunoștințe statistice, semantice și pragmatice care nu sunt disponibile în timpul prelucrării sintactice.

O ambiguitate la nivel sintactic specifică limbii române apare datorită asemănării dintre formele cazurilor genitiv și dativ (omonimie sintactică). Aceasta este un fenomen asemănător omonimiei dintre cuvinte (omonimie lexicală). Două (eventual mai multe) enunțuri se numesc omonime dacă sunt formate din aceleași cuvinte, așezate în aceeași ordine și dacă organizarea lor sintactică e diferită.

Problema care apare atunci când încearcă rezolvarea ambiguității de tip sintactic este aceea că pe măsură ce gramatica se extinde pentru a acoperi o arie din ce în ce mai mare din construcțiile posibile ale unei limbi, are loc o creștere a numărului de analize care sunt admise pentru oricare dintre ele. Cu alte cuvinte ambiguitatea crește odată cu acoperirea gramaticii. Din nefericire pe măsură ce acoperirea gramaticii se îmbunătățește și lungimea propozițiilor de la intrare crește, crește rapid (cu o viteză foarte mare) și numărul arborilor sintactici făcând din ce în ce mai dificilă construcția unor analizoare performante

Figura 3 Exemplu de omonimie sintactică în care se observă că cele două propoziții au sensuri diferite:

(a) „Citește scrisoarea lui Andrei.” (genitiv)

(b) „Citește scrisoarea lui Andrei.” (dativ)

c. Ambiguitățile la nivel semantic apar datorită conținutului lexical. Actualizarea și evoluția sensului unor cuvinte, existența cuvintelor cu mai multe sensuri (sens de bază și sensuri derivate), contextul (denotativ, conotativ, etc.) în care un cuvânt este folosit, existența cuvintelor cu sens figurat, relațiile existente între cuvinte sunt câteva din cauzele care duc la apariția ambiguităților la nivel semantic în limbajul natural.

La nivel semantic trebuie rezolvate două probleme: descoperirea sensurilor cuvintelor în context și compunerea înțelesului exprimărilor din înțelesul cuvintelor componente. Prima problemă, cunoscută sub numele de dezambiguizarea sensurilor cuvintelor, presupune cunoscut un inventar al sensurilor cuvintelor, corespunzător unui dicționar, și își propune să determine sensurile cuvintelor în context, în conformitate cu acest inventar. Cea de-a doua problemă, compunerea înțelesului exprimărilor, este o problemă greu de formulat riguros, pentru că limbajul natural abundă în exprimări omonimice, metaforice, personificări, cuvinte polisemantice, în implicații conversaționale specifice cauzate de contexte pragmatice diferite, etc.

Așadar, pentru a înțelege o limbă, un sistem de prelucrare a vorbirii trebuie să fie capabil nu numai să identifice constituienții lexicali și sintactici și să înțeleagă sensul lor, ci trebuie să înțeleagă și relațiile dintre ei și apoi să organizeze informația. Cu alte cuvinte nu este de ajuns să se cunoască înțelesul unui cuvânt, ci este necesar să se știe și modul în care acesta se poate asocia cu alte cuvinte.

d. Ambiguitățile la nivel pragmatic apar datorită folosirii practice a unei limbii. În procesul comunicării dintre două sau mai multe entități trebuie "decodată" interacțiunea dintre emitent și receptor. Pentru a întelege un mesaj din perspectivă pragmatică trebuie să corelăm mesajul exprimat cu intenția comunicativă (adevăratul mesaj ascuns în spatele textului), deoarece mesajul din spatele textului/discursului decodifică nu numai intenția comunicativă, dar și starea de spirit a interlocutorului nostru.

La nivel pragmatic trebuie studiate elementele folosite de utilizatorul limbii pentru a exprima sensul dorit și modul cum acesta este perceput. În cadrul înțelegerii unui text/discurs se studiază nu numai structura acestuia (determinându-se ce înțeles adaugă fiecare constituent al discursului/textului), ci se ia în considerare și rolul contextului, modul de schimbare a înțelesurilor în funcție de situație (persoană, loc, timp, istoric, etc.), a succesului sau eșecului comunicării. Multe din actele vorbirii, cum ar fi promisiunile, cererile, informările, politețea, sunt surse de ambiguități la nivel pragmatic. De exemplu structura interogativă "Ați putea, vă rog, să deschideți fereastra?" evident că nu este o întrebare referitoare la abilitatea persoanei de a deschide fereastra, ci este o solicitare politicoasă.

Prelucrarea a textului pe diferite niveluri lingvistice

Așadar pentru înțelegerea profundă a unui text sunt necesare foarte multe cunoștințe. Aceste cunoștințe sunt apoi combinate pentru a deduce informația dintr-un text. Ca exemplu, să considerăm textul "Maria este arheolog. Ea cercetează ruinele din cetatea Histria." și să vedem cum se poate prelucra acest text pe fiecare nivel lingvistic (figura 4).

Cunoștințele de pe nivelul morfologic ne ajută să identificăm structura cuvintelor, modul în care ele au fost construite, rădăcina și lema (cuvânt explicat într-un vocabular) lor. După identificarea structurii cuvintelor, acestea se pot clasifica în una din cele zece clase lexico-gramaticale și li se atribuie o etichetă de parte de vorbire care ne precizează fiecare parte de vorbire ce informație poate furniza. Atribuirea etichetelor de parte de vorbire se face folosind cunoștințele de pe nivelul sintactic, care ne precizează rolul pe care părțile de vorbire le pot juca într-o propoziție. Tot la nivelul sintactic se realizează segmentarea textului în propoziții și se determină modul și ordinea în care cuvintele pot apărea într-o propoziție pentru a fi corectă din punct gramatical. În această fază a procesului de înțelegere sunt necesare cunoștințele de pe nivelul semantic care precizează sensul cuvintelor și al propozițiilor și relațiile semantice dintre acestea. Următorul tip de cunoștințe necesare pentru înțelegerea textului sunt cele pragmatice. Acestea ne arată cum contextul poate influența sensul unui cuvânt sau a unei propoziții/fraze.

Figura 4 Exemplu de prelucrarea a textului pe diferite niveluri lingvistice

2.4 Importanța părților de vorbire în prelucrarea automată a limbajului

Părțile de vorbire joacă un rol important în prelucrarea limbajului natural fiind folosite frecvent în modelarea limbii. Din punctul de vedere al prelucrării computaționale a limbii părțile de vorbire sunt importante deoarece:

conțin o cantitate mare de informație despre cuvintele cărora le sunt atribuite (ex: substantivul denumește un obiect, pronumele ține locul unui substantiv, verbul exprimă acțiuni, procese, stări, etc.);

conțin informație despre vecinii cuvintelor cărora le sunt atribuite (știind partea de vorbire atribuită unui cuvânt putem deduce ce poate părți de vorbire se pot găsi în vecinătatea sa);

ne poate spune cum se pronunță un cuvânt (ex: vesélă când este substantiv și veselă când este adjectiv);

pot fi folosite în analiza gramaticală;

pot fi folosite în realizarea algoritmilor de dezambiguizare a sensului unui cuvânt (ex: adjectivul exprimă o însușire calitativă sau cantitativă a unui obiect denumit de un substantiv);

pot fi folosite în realizarea algoritmilor de dezambiguizare sintactică ( ex: crearea unor bănci de arbori lingvistici );

pot fi folosite în procesul de identificare a rădăcinii cuvântului în extragerea informațiilor deoarece cunoscând partea de vorbire a unui cuvânt putem spune ce afixe morfologice poate lua cuvântul;

pot fi folosite în aplicațiile de extragere a informațiilor (information retrieving) pentru a căuta după un anumit tip de cuvinte (ex: selectarea și scoaterea substantivelor sau altor cuvinte importante dintr-un document);

se folosesc în analiza parțială a textelor pentru a găsi repede nume, date, ore sau alte denumiri ale entităților în aplicațiile de extragere a informațiilor;

pot fi folosite pentru realizarea unor modele de limbă (ex: modelele de limbă structurale);

pot fi folosite în diferite cercetări lingvistice (ex: pot fi folosite pentru determinarea instanțelor sau frecvențelor de apariție a anumitor construcții într-o anumită limbă).

În prelucrarea limbajului natural selectarea setului de etichete de parte de vorbire care vor fi folosite este foarte importantă pentru prelucrările care vor avea loc ulterior. Dacă etichetele nu au fost alese corect, sau nu sunt destul de discriminatorii, rezultatele obținute în urma operațiilor care se execută după etichetare (ex: extragerea informațiilor, analiza gramaticală, etc.) sunt slabe sau prezintă multe erori.

Modul de stabilire a setului de etichete de parte de vorbire trebuie să fie bazat pe niște criterii clare care să permită discriminarea chiar și în cazurile în care există cel mai mic dubiu (ex: există mai multe etichete pentru un singur cuvânt). Există situații în care este greu să hotărască ce etichetă trebuie să îi fie atașată unui cuvânt chiar și pentru oameni nu numai pentru mașini. De exemplu în limba română cuvântul „măsură” poate primi trei etichete, dar fiecare marchează altă parte de vorbire diferită.

Într-o măsură oarecare situația putea fi îmbunătățită. (măsură este substantiv)

Pe măsură ce ne apropiam vuietul cascadei se auzea din ce în ce mai tare. („pe măsură ce” este conjuncție)

Ea măsură stofa pentru a-și croii o rochie. (măsură este verb)

În schimb în propoziția „Vin miercuri cu trenul de la ora 15.” lucrurile se complică. Cuvântul vin poate fi substantiv și verb, însă ca verb acesta poate fi utilizat în mai multe situații (ex: eu vin, ei vin, să vin) de aceea la stabilirea setului de etichete trebuie să se facă distincție între toate aceste cazuri pentru ca în final cuvântului vin să îi poată fi atașată eticheta corectă.

De-a lungul timpului au fost realizate mai multe clasificări ale cuvintelor în părți de vorbire și odată cu creșterea puterii computaționale numărul de etichete a crescut. Pentru limba engleză au fost definite: 45 pentru Penn Treebank (Mercus și al., 1993), 87 pentru corpusul Brown (Francis, 1979; Francis și Kucera, 1982) și 146 pentru C7 (Garside și al., 1997). Pentru limbile aglutinante (ex: finlandeza, turca, maghiara, etc.) și limbile foarte flexionare (cum este și româna), care au un vocabular mult mai mare decât limba engleză, este necesară definirea unui număr și mai mare de etichete. De exemplu în corpusul MULTEXT-East (Erjavec, 2010) au fost folosite pentru limba română 616 etichete morfosintactice.

2.5. Substantivul

Substantivul este partea de vorbire flexibilă care exprimă nume de obiecte (ființe, lucruri, fenomene ale naturii, acțiuni, stări, însușiri, relații, noțiuni abstracte) (Academia Romană, 1963). Acesta este caracterizat morfologic de categoriile gramaticale gen, număr, caz și determinare. Din punct de vedere sintactic, substantivul poate forma nucleul unui enunț datorită asocierii sale cu un verb și de asemenea este centrul grupului nominal. Din punct de vedere semantic însă, substantivul denumește obiecte.

Genul este o trăsătură inerentă a substantivului fiind impus de obiectele denumite din realitate. Categoria genului este proprie substantivului și nu constituie un criteriu de flexiune pentru acesta. Genul indică trăsăturile masculine, feminine și neutre ale obiectelor și constituie un criteriu de clasificare morfologică în vederea flexiunii.

Substantivul este flexibil în raport cu categoriile gramaticale: număr, caz și determinare.

Categoria numărului este impusă de cantitate exprimând distincția semantică dintre un exemplar și mai multe exemplare dintr-o clasă de obiecte de același fel. Numărul este deci categoria gramaticală care exprimă opoziția singular – plural.

Cazul este categoria gramaticală care indică raporturile stabilite între obiecte sau cele dintre obiecte și acțiuni. Cazul arată raporturile sintactice care se pot stabili într-un enunț între cuvinte. Limba română are cinci cazuri: nominativ, genitiv, dativ, acuzativ și vocativ. Fiecare caz corespunde unui anumite funcții a cuvântului în alcătuirea propoziției: nominativul are funcția de subiect, genitivul are funcția de atribut, dativul are funcția de complement indirect, acuzativul are funcția de complement direct și vocativul exprimă o chemare/îndemn din partea vorbitorului adresată unei persoane.

Categoria determinării (articulării) caracterizează exclusiv flexiunea substantivului. Determinarea este exprimată cu ajutorul unor morfeme care indică separarea unui obiect de mulțimea obiectelor de același fel și individualizarea lui (ex: elev /elevul / un elev). De asemenea, determinarea fiind o caracteristică specifică substantivului, prin articulare orice altă parte de vorbire devine substantiv (ex: scris/ scrisul, verde/verdele).

2.6. Adjectivul

Adjectivul este partea de vorbire flexibilă care exprimă însușiri (calitative sau cantitative) sau proprietăți ale obiectelor (ființe, lucruri, fenomene ale naturii, acțiuni, stări, însușiri, relații, noțiuni abstracte) și care se acordă cu substantivul sau cu partea de vorbire care îl substituie. Așadar, caracteristica de bază a adjectivului este faptul că el se referă la substantiv, precizându-l prin adăugarea unei indicații suplimentare de înțeles (Coteanu, 1983).

Adjectivul este caracterizat de categoriile gramaticale gen, număr, caz și comparația. Categoriile gramaticale gen, număr și caz apar datorită acordului cu substantivul. Acordarea adjectivului în gen, număr și caz cu substantivul pe care îl determină conduce la modificari formale: (N.Ac.) strălucitoarea stea / (G.D.) strălucitoarei stele; (N.Ac.) strălucitoarele stele / (G.D.) strălucitoarelor stele; (N.Ac.) stelele strălucitoare/ (G. D.) stelelor strălucitoare, etc.

Categoria comparației indică în ce măsură un substantiv are calitatea exprimată de acel adjectiv. Pentru exprimarea comparației au fost definite mai multe grade de comparație (pozitiv, comparativ și superlativ) care arată intensitatea însușirii (ex: lac limpede, lac mai limpede, cel mai limpede lac,etc.).

2.7. Relații semantice

Relațiile semantice sunt relațiile care apar între cuvinte, fraze sau enunțuri. Fiecare limbă permite diferite moduri de organizare semantică, existând un complex de relații (sinonimie, hiperonimia, hiponimia, etc.) care se pot stabili între cuvinte și care complică înțelesul textului făcându-l ambiguu.

Pentru un cuvânt relațiile semantice pe care acesta le poate stabili se întrepătrund. Detectarea relațiilor semantice depinde de dezambiguizarea sensului cuvintelor. Prinderea sensurilor cuvintelor și a relațiile semantice dintre ele nu este o sarcină ușoară. Unele cuvinte au mai multe sensuri iar sensurile diferite pot da diferite relații între ele de aceea descoperirea acestor relațiilor este foarte importantă pentru înțelegerea sensului textului.

Relațiile semantice au fost introduse în gramaticile generative în perioada 1965 – 1970 (Fillmore, 1960; Jackendoff, 1972; Gruber, 1976), ca un mod de a clasifica argumentele predicatelor limbajului natural într-un set închis de tipuri de participanți (actanți) care se consideră că au un statut special în gramatică. Rolul semantic este de fapt relația pe care un participant o are cu verbul principal dintr-o propoziție. Rolul semantic este rolul concret pe care un participant îl joacă într-o situație reală sau imaginară, separat de codarea lingvistică a acestor situații. Statutul teoretic al rolurilor semantice în teoria lingvistică este o problemă încă nerezolvată.

Relațiile semantice sunt folosite în domeniul prelucrării limbajului natural pentru rezolvarea multor probleme care apar în procesul de înțelegere a textului. Aceste relații sunt codate în diferite tipare lexico – sintactice care arată relațiile pe care cuvintele le pot stabili într-o limbă pentru a putea forma un enunț cu sens. Cuvintele fiind clasificate în anumite clase lexico-gramaticale (părți de vorbire), prin identificarea secvențelor de cuvinte permise de o limbă putem identifica de fapt tiparele lexico – sintactice care sunt permise de o limbă și relațiile semantice pe care tiparele respective le pot coda.

Similar Posts