Adnotare Pos Aplicatie Pentru Limba Romana
=== Doc1 ===
I. INTRODUCERE
Majoritatea oamenilor de știință: lingviști, filozofi, logicieni, specialiști în informatică și cibernetică, admit că principala funcție a limbii o reprezintă comunicarea și deci transmiterea de informații, dar odată cu acestea sunt transmise și diferite cunoștințe. Limbajul natural a fost izvorul din care s-au născut limbajele: literar, istoric, poetic, filozofic, logic, științific și în final limbajele formalizate și convenționale și respectiv limbajele utilizate la programarea calculatoarelor.
Savanții aceptă în prezent ideea că informația este o un concept primar, care poate fi transmisă cu un minim de energie, dar cantitatea de informație nu depinde de valoarea acestui minim. Teoria informației în prezent este considerată ca un domeniu de sine stătător, cu toate că are o istorie relativ scurtă.
In anul 1838 savantul francez A. M. Ampère a introdus termenul de cibernetică și în 1868 Maxwell a prezentat principiul unui dispozitiv cu feedback și tot el în 1871 a legat noțiunea de informație cu noțiunea energetică de entropie.
L. Boltzmann în 1877, a stabilit pentru entropia energetică formula:
n
S= -k S pi * log pi (1.1)
i=1
unde : k – este constanta lui Boltzmann;
pi – este probabilitatea ca sistemul să se afle în starea i, 1 < i < n;
Sub forma dată de Boltzmann, entropia exprimă gradul de dezordine al sistemului fizic.
In 1948 apar două lucrări de bază în acest domeniu:
– SHANNON, C.E. A mathematical theory of comunication. Bell System Technical Journal;
– WIENER, N,. Cybernetics. Herman, Paris.
Formula entropiei pentru informație conform lui Shannon, este asemănătoare cu relația (1.1).
Pentru a transmite o cantitate de informație în condiții optime, semnalul trebuie să fie organizat după anumite principii. Practica transmiterii informației este cea care impune măsuri suplimentare de redundanță, care să limiteze perturbațiile date de sursele de zgomote.
În plus apar intonațiile, apoi la operele literare metafore, comparații, sinonime, etc, care duc la o transmitere specială a informației.
Limbajul natural este unul mai direct, mai expresiv, mai plastic, mai concret, dar în același timp mai confuz, mai particular, mai intuitiv.
Din această cauză, limbajul natural nu poate fi înțeles până în prezent de calculator.In prezent se fac cercetări pentru cunoașterea cuvintelor cele mai uzuale transmise oral sau în scris ( transmise prin scanare sau microfonie, nu cele transmis normal prin tastatura calculatorului), de către calculator.
Cugetarea filozofică reprezintă și ea o experiență umană, dar având o altă optică. Experiența filozofică se orientează pe alte căi și anume caută cauza reală a lucrurilor și căuta explicații complete și fundamentale. O întrebare care a frământat filozofii de-a lungul timpului, a fost determinarea cauzei tuturor lucrurilor din univers și generarea acestora. Limbajul filozofic este aparent natural, dar în realitate este unul criptic în care parabola, supoziția și simbolul joacă un rol decisiv. Pe parcurs, mai ales în ultimul secol, limbajul filozofic s-a orientat în mare parte spre un limbaj logic. Cu toate acestea nici acest limbaj nu poate fi folosit în discuția cu calculatorul sau pentru transmiterea unor comenzi de programare.
Crearea unui limbaj abstract a fost necesar după ce s-a constatat că limbajul natural are practic probleme în transmiterea și analiza noțiunilor din domeniul cunoașterii științifice. Aceasta deoarece în limbajul natural cuvintele exprimă anumite obiecte și stări, dar în limbajul științific se lucrează și cu noțiuni.
Astfel noțiunea poartă ca semnificație, un conținut nu al indivizilor unei clase, ci al clasei formate dintr-o mulțime de indivizi. Câtă vreme cuvântul exprimă obiecte sau stări, este cuvânt, când exprimă clase de obiecte, devine noțiune.
Prin judecăți și silogisme, limbajul logic suplinește aptitudinea limbajului natural de a exprima adecvat formele dinamice ale realității. Judecata în limbajul logic este o aserțiune la modul indicativ, apoi judecata logică este o expresie a timpului prezent și în fine judecata logică a devenit expresia unei simple relații de apartenență a predicatului la subiect, apartenență modificată pe parcurs prin raportul de existentă.
Judecata logică clasică permite doar exprimarea indicativului prezent, a relației de apartenență sau existență, afirmația sau negația, apoi totalitatea, parțialitatea și singularitatea raporturilor dintre subiect și predicat, la forma impersonală.
Limbajul științific este un limbaj obiectiv, impersonal, atemporal, aspațial și amodal. El descrie fapte și relații între acestea, delimitând cu precizie obiectele fizice de cele logice și faptele certe de cele incerte.
Apoi, limbajul științific este sobru în descrieri, schematic în demonstrații, tinde să se matematizeze, mai ales în ultimele decenii când o mare parte din gândirea de rutină a fost transferată calculatoarelor.
Limbajul logico-matematic este unul abstract, folosind o gamă largă de relații și renunțând la noțiuni, din pricina conținutului lor ontologic. Noțiunea logico-matematică a devenit un simbol al oricărui obiect.
Știința începând cu Aristotel, are trei părți distincte: cunoaștere, exprimare și demonstrație.
O teorie axiomatică, conform principiilor date de metateorie, are următoarea structură:
· Partea axiomatică:
– termeni primitivi, acceptați convențional;
– propoziții primitive (axiome), acceptate convențional;
– reguli de derivare.
· Partea derivativă:
– pentru termeni (reguli de definiție);
– pentru propoziții numite și teoreme (reguli de deducție).
Axiomele trebuie să satisfacă condițiile:
· să fie necontradictorii;
· să fie suficiente.
Axiomatica aristotelică, dominantă până la sfârșitul secolului trecut, se garanta singură, fiindcă avea garanția din afară ei (garanție obținută în urma multor observații).
Axiomatica contemporană, trebuie să se garanteze singură, dar această fundamentare nu este în general ușoară.
În multe sisteme axiomatice moderne, axiomele și deci și teoremele nu sunt expresia unor adevăruri reale, ci doar a unor situații convenționale care se găsesc într-o strictă și riguroasă dependentă fată de axiomele date, prin intermediul unor reguli de deducție stabilite.
În sistemele axiomatice moderne, transferul de informație se face respectând doar corespondența dintre mecanismul de gândire și regulile impuse pentru desfășurarea lui corectă. Dacă gândirea se desfășoară mecanic în conformitate strictă cu regulile care o comandă în sistemul respectiv, sistemul devine un transmițător de informații.
Cu toate acestea, de multe ori anumite algebre elaborate de savanți cu timpul au găsit și aplicații practice. De exemplu: algebra Fuzzi, algebra cataclismelor, etc.
Din punct de vedere semiotic, majoritatea specialiștilor susțin că unele dintre limbajele de programare sunt mai apropiate de cele logice, pe când altele mai apropiate de cele naturale.
Cronologic, limbajul în cod mașină, a fost primul limbaj de programare utilizat. Pornindu-se de la descrierea semantică a algoritmului, programul cuprinde un sir finit de instrucțiuni, redactate sub forma unor secvențe cu caractere binare. Aceasta comportă un efort foarte mare din partea programatorilor, și în prezent este utilizată doar la programarea unor microprocesoare pentru automatele simple.
Astăzi,o mare parte din etapele necesare în programarea în limbajul mașină au fost transferate calculatorului, prin crearea unor tipuri de limbaje de programare. Aceste limbaje sunt recunoscute de calculator care este utilat cu anumite programe în acest sens, denumite compilatoare, care le transformă în limbaj mașină.
II. Prezentare NLP (Natural Language Processing)
II.1 Prezentare lingvistică computațională
În procesul de prelucrare a limbajului natural (PLN) este necesară folosirea lingvisticii computaționale (CL), care conține următoarele domenii:
Lingvistica
Știinta computerelor
Știintele cognitive
Inteligența artificială (AI)
Lingvistica computațională conține și componente teoretice. CL teoretică cuprinde:
Teorii formale despre cunoașterea lingvistică de care omul are nevoie pentru a genera și ințelege limbajul;
Modele formale care simulează aspecte ale aptitudinilor limbajului uman si implementarea acestuia ca și un program pentru calculator;
Psihologii cognitive – psiho-lingvistica examinează procesele cognitive care constituie folosirea limbajului uman;
Aplicarea CL
Rezultatul practic al modelarii uzului limbajului uman;
Metodele, tehnicile,uneltele și aplicațiile din acest domeniu sunt adesea folosite sub termenul de ingineria limbajului sau tehnologia limbajului. În ciuda faptului ca sistemele CL existente sunt departe de a atinge abilitățile umane , ele au numeroase posibile aplicații. Scopul este de a creea produse software care să aibă unele cunostințe ale limbajului uman, îmbunătățind astfel interactiunea om-mașină, folosind interfețe de limbaj natural, aplicații ale caror interfețe să fie interogări ale bazelor de date, informații regăsite în texte, sisteme expert, control robotizat,translatare cu ajutorul mașinii, căutări prin internet. Limbajul multimedia este considerat cheia pentru căutarea, filtrarea, clasificarea, sumarizarea, generarea automata de rapoarte.
Obiective realistice pe termen scurt: incluzând planul, realizarea si menținerea sistemelor care faciliteaza munca de zi cu zi, ca de exemplu verificarea gramaticii pentru programele de procesare a cuvintelor, filtrele inteligente de e-mail si router-ele, sistemele de clasificare a textului, și sistemele pentru informația extrasă din textele semistandardizate;
NLP este de obicei divizat in două domenii de cercetare principale:
-Înțelegerea limbajului natural(Natural language understanding) (NLU):gramatici folosite pentru înțelegere, ambiguitatea limbajului natural, contextul, etc.
-Generarea limbajului natural(Natural language generation)(NLG): ce este necesar pentru a genera un rezumat în limbajul natural? Ce fel de reprezentare, etc;
II.2 Cum se face cercetarea in NLP:
-prin imitare
-prin copiere
-ghicind?
Limbajul are o structură.
Sintaxa – rezumatul poate fi corect din punct de vedere sintactic, dar fară inteles.
Semantica – rezumatul poate să aibă înțeles, dar nu este corect din punct de vedere sintactic.
Pragmatica – proverbele in context – pronumele, etc.
Nivele de abordare a limbajului:
-sintactic
-morfologic
-fonetic
-pragmatic
-semantic
Deoarece citirea unei clauze nu este unică, iar cuvintele au mai multe ințelesuri, contextul schimbă înțelesul unei propoziții, fraze.
Un exemplu general este rezumarea automata a textului, care răspunde urmatoarelor întrebari:
Este nevoie să înțelegem un text pentru a-l rezuma?
Putem să rezumăm un articol intr-o limbă pe care nu o ințelegem?
Care sunt semnele pe care le folosim intr-un articol pentru a-l rezuma?(cuvinte cheie, structura, părți importante)
O varietate de metode: înțelegerea, numai informatii statistice?(cele mai comune cuvinte…) sau ceva între ele (cuvinte similare…)
Avem nevoie de înțelegere si apoi să regenerăm?
Ce este o rezumare bună? Cum putem să o evaluăm?
În rezumarea automată a textului un calculator creeaza automat un rezumat abstract dintr-un text sursă original. În rezumarea automată a textului se evidentiază doua tehnici distincte: extragerea textului si abstractizarea textului. Extragera textului constă în extragera unor părți din textul original pe baza unei statistici sau cu metode heuristice si puse apoi împreună într-un nou text mai scurt cu acelasi conținut de informație.
Există trei pași în efectuarea extragerii de text. Prima dată trebuie să fie ințeles topicul textului, denumit identificarea topicului, in al doilea rând trebuie interpretat textul și în final se face generarea textului. În extragerea textului, metoda de lucru constă de fapt în a numerota fiecare propoziție în funcție de importanța acesteia și atunci când se creeaza rezumatul, cele mai semnificante propoziții se păstrează. Numerotarea poate fi bazata pe cea mai frecventa apariție a unui cuvânt dintr-o clasă de cuvinte, cel mai insemnat sau textul numeric, substantive proprii, poziția în text, etc.
Abstractizarea textului constă în analiza gramaticală (parsing) a textului original in sens lingvistic, interpretarea textului și găsirea de noi concepte pentru a descrie textul și apoi generarea unui nou text mai scurt cu același conținut de informație.
Generarea automată a rezumatului unui text poate fi folosită pentru:
Generarea automată a rezumatului unor textelor din ziare (pentru jurnalism, afaceri, tehnologie, etc);
Generarea automată a rezumatului rapoartelor (pentru membrii parlamentului, investigații, oameni de afaceri, etc);
În inginerie pentru a extrage cuvinte cheie și a obține un rezumat a textului gasit;
Cercetare în limbi straine și obținerea de rezumate automate de la translatoarele de texte;
Extragerea de cuvinte cheie și rezumate ale poștei electronice pentru SMS în telefonia mobilă;
Generarea automată a rezumatului unui text care a fost download-at de pe internet pentru un telefon mobil WAP;
Posibilitatea de a citi pagini www a căror rezumat a fost generat automat în prealabil, pe un telefon mobil;
Această tehnică își are radacina in anii ‘60 si a fost dezvoltată in decursul a 30 de ani, dar în zilele noastre având în vedere Internetul si tehnica paginilor web, a devenit mult mai importantă.
SweSum este primul rezumarizator automat de text din Suedia. Acesta rezumă textul știrilor suedeze in HTML. Pe parcursul rezumării, 5-10 cuvinte cheie – un mini sumar este produs. Acuratetea este de 84% pana la 40%, iar rezumatul știrilor are o medie a lungimii originale de 181 cuvinte.
Rezumarea automată a textului este bazata pe metode statistice și lingvistice unde sistemul rezumării calculează cât de des un anumit cuvânt cheie apare ( sistemul suedez are 700000 posibile intrări, reprezentînd 40000 cuvinte cheie suedeze de bază). Cuvintele cheie aparțin clasei de cuvinte deschise. Sistemul rezumării calculează frecvența cuvintelor cheie în text, în care propoziții apar acestea, si unde apar aceste propozitii in text. Se ia în considerare prima etichetă, primul paragraf sau valorile numerice, dacă textul este analizat în funcție de cea ami importantă etichetă din text. Toate aceste informații sunt compilate și folosite pentru a rezuma textul original.
SweSum a fost evaluat si performanța sa este estimata ca fiind la fel de buna ca si tehnicile cele mai bune din ziua de azi, pentru engleză, de exemplu din 2-3 pagini de text ar rezulta în medie un rezumat de 30%, ceea ce reprezintă un rezumat bun.
II.3 Ce inseamna parte de vorbire(POS):
Partea de vorbire este o clasă de echivalentă;
O clasificare semantică de bază POS, care constiuie clasele deschise:
-Substantive – persoane, loc sau lucru;
-Verbe – acțiuni sau stare de fapt;
-Adjective – modificator ce exprima calitatea, cantitatea sau marimea, starea;
-Adverbe – modificator ce exprima maniera, calitatea, locul, timpul, numărul, cauza, afirmarea sau negarea, intensitatea;
-Prepoziții – modificator ce indica locul sau originea;
-Pronumele – modificator ce indică persoane, animale sau lucruri(eu, voi, el…);
-Altele: conjuncții(și, sau…) și determinanți(mai mulți…).
Clase inchise(prepozitii, abrevieri…) și cuvinte din clase deschise.
III. Etichetarea
Studiul MULTEXT publicat în 10 mai 2004 prezintă o abordare standard a adnotării POS. Acest studiu a fost facut de lingviști și informaticieni bulgari, croați, cehi, estonieni, englezi, maghiari, români(D. Tufiș și A. M. Barbu), sârbi și sloveni. În această lucrare este descrisă adnotarea limbilor est-europene, printre care este descrisă și adnotarea limbii române.
Notațiile din acestă lucrare au fost alese în conformitate cu practicile curente din NLP, unde informația este reprezentată de formalismele atribut – valoare și este urmărită ideea că această informație ar trebui să fie deasemenea cu caracter informativ pentru înțelegerea umană. În același timp, a fost menținută o compactitate relativă a codului. Notația are următoarele caracteristici principale: – atributele sunt marcate de către poziții;
– valorile sunt reprezentate de către un singur caracter;
– un marcaj special reflectă faptul că un atribut dat nu poate fi aplicat.
Șirurile liniare de caractere care reprezintă descrierea morfosintactică a cuvintelor/expresiilor dintr-o anumită limbă, sunt construite în concordanță cu filozofia Intermediate Format propusă de către Eagles, care propune folosirea de simboluri, asupra cărora s-a căzut de acord, atât în pozițiile predefinite cât și în cele fixate: pozițiile șirului de caractere sunt numerotate cu 0, 1, 2, etc în felul următor:
Caracterele asupra cărora s-a căzut de acord codifică partea de vorbire(part-of-speech) pe poziția 0;
Fiecare caracter de pe pozițiile 1, 2, n, codifică valoarea unui atribut (persoană, gen, număr, etc.);
Dacă un atribut nu corespunde, poziția corespunzătoare din șir conține un marcator special , cratima(‘-’).
De exemplu: Ncms- (Noun, common, masculine, singular, nocase)
Marcajul ‘-’ are o semantică specială și înseamnă că ‘nu este aplicabil’. Cu alte cuvinte, rolul său este de păstra relațiile existente dintre atribute și valori. Este folosit în următoarele situații:
Nu este aferent unei anumite limbi, de exemplu genul din Estoniană;
Nu poate fi aplicat unei anumite combinații atribut – valoare, cu toate că atributul este folosit de către o anumită categorie dintr-o limbă dată, acesta nu corespunde unei subclase particulare a acelei categorii; de exemplu persoana corespunde pronumelui, dar nu si la tipul demonstrativ;
Nu poate fi aplicat unui obiect lexical particular, cu toate că atributul corespunde cu restul paradigmelor sale; de exemplu Genul în paradigma Pronumelui Personal din Engleză corespunde numai la persoana a treia, I, you vs. she, he.
În cele din urmă, cratima este omisă din lexic, deoarece aceasta adesea duce la o codificare mai compactă. Deci, un cod, ca de exemplu Ncms-, este scris Ncms.
Tabela categoriilor de atribute
=============== ==== ====
Part-of-Speech Code Atts
=============== ==== ====
Noun N 10
Verb V 15
Adjective A 12
Pronoun P 17
Determiner D 10
Article T 6
Adverb R 6
Adposition S 4
Conjunction C 7
Numeral M 12
Interjection I 2
Residual X 0
Abbreviation Y 5
Particle Q 3
=============== ==== ====
Fiecare categorie acționează asupra unui tip, adică introduce perechi cu valoarea atributului. Echivalența unei perechi atribut – valoare, oarecare, cu o anumita poziție din descrierea morfo – sintactică este că aceasta se definește doar dacă se ia în considerare categoria dată.
Tabelele comune de valori ale atributelor sunt date pentru toate categoriile și au o structură rigidă, ceea ce le face să fie potrivite pentru verificarea automată a conformanței unei descrieri morfosintactice particulare cu tabelele, sau pentru extinderea unei descrieri morfosintactice intr-o forma mai prolixă.
La începutul fiecărei categorii este dat numărul atributelor prezentate de catre categoria respectivă. Acesta este urmat de un șir de caractere care rezumă atributele valide ale acelei categorii. Caracteristicile care constituie partea centrală minimală, sunt reținute între șiruri de stele(*). Această informație este urmată de tabela corespunzătoare. Tabela are următoarele coloane:
Poziția reprezintă poziția unui atribut într-un șir de descriere morfosintactică;
Atributul reprezintă numele atributului;
Valoarea reprezintă numele și codul format dintr-o singură literă al valorii atributului;
SUBSTANTIV(N)
= ============== ============== = EN RO
P ATT VAL C x x
= ============== ============== =
1 Tip comun c x x
propriu p x x
– –––––––- ––––––––– –
– –––––––- ––––––––– –
2 Gen masculin m x x
feminin f x x
neutru n x x
– –––––––- ––––––––– –
3 Număr singular s x x
plural p x x
– –––––––- ––––––––– –
4 Caz vocative v x
direct r x
oblic o x
* ********************************* *
5 Articulare nearticulat n x
articulat y x
– –––––––- ––––––––– –
6 Clitic enclitic n x
preclitic y x
================================= EN RO
În limba română, cazul cu valoarea ‘direct’ este o combinație între ‘nominativ’ și ‘acuzativ’, în timp ce valoarea ‘oblique’ este o combinație între ‘genitiv’ și ‘dativ’.
VERB(V)
= ============== ============== = EN RO
P ATT VAL C x x
= ============== ============== =
1 Tip principal m x x
auxiliar a x x
modal o x x
copulativ c x x
de bază b x
– –––––––– ––––––––- –
2 VForma indicativ i x x
conjunctiv s x
imperativ m x
conditional c x
infinitiv n x x
participiu p x x
gerunziu g x
– –––––––– ––––––––- –
3 Timp prezent p x x
imperfect i x
trecut s x x
mai-mult-ca-perfect l x
– –––––––– ––––––––- –
4 Persoana întâi 1 x x
a doua 2 x x
a treia 3 x x
– –––––––– ––––––––- –
5 Numărul singular s x x
plural p x x
– –––––––– ––––––––– –
6 Genul masculin m x x
feminin f x x
neutru n x x
– –––––––– ––––––––- –
7 Clitic preclitic n x
enclitic y x
================================ EN RO
ADJECTIV(A)
= ============== ============== = EN RO
P ATT VAL C x x
= ============== ============== =
1 Tip calificativ f x x
– –––––––– –––––––– –
2 Grad de comparație pozitiv p x x
comparativ c x x
superlativ s x x
– –––––––– –––––––– –
3 Genul masculin m x
feminin f x
neutru n x
– –––––––– ––––––––- –
4 Număr singular s x
plural p x
– –––––––– ––––––––- –
5 Caz vocativ v x
direct r x
oblic o x
* ******************************** *
6 Articulare nearticulat n x
articulat y x
– –––––––– –––––––– –
6 Clitic preclitic n x
enclitic y x
=============================== EN RO
PRONUME(P)
= ============== ============== = EN RO
P ATT VAL C x x
= ============== ============== =
1 Tip personal p x x
demonstrativ d x
nedefinit i x
posesiv s x x
interogativ q x
relativ r x
reflexiv x x x
negativ z x
general g x
nehotarât w x
ordinal h x
ex_there t x
– –––––––– –––––––– –
2 Persoana întâi 1 x x
a doua 2 x x
a treia 3 x x
– –––––––– ––––––––– –
3 Gen masculin m x x
feminin f x x
neutru n x x
– –––––––– ––––––––– –
4 Numărul singular s x x
plural p x x
– –––––––– ––––––––– –
5 Caz nominativ n x x
genitiv g x
dativ d x
acuzativ a x
vocativ v x
direct r x
oblic o x
– –––––––– ––––––––– –
6 Număr_proprietar singular s x x
plural p x x
– –––––––– ––––––––– –
7 Gen_proprietar masculin m x
feminin f x
* ********************************** * EN RO
8 Clitic preclitic n x
enclitic y x
– ––––––– ––––––––– –
14 Forma_pronumelui tare s x
slab w x
– ––––––– –––––––––- –
17 Wh_Tip relativ r x
interogativ q x
================================ EN RO
DETERMINANT(D)
= ============== ============== = EN RO
P ATT VAL C x x
= ============== ============== =
1 Tip demonstrativ d x x
nedefinit i x x
posesiv s x x
general g x
int_rel w x
negativ z x
emfatic h x
– –––––––– –––––––– –
2 Persoana a întâia 1 x x
a doua 2 x x
a treia 3 x x
– –––––––– –––––––– –
3 Genul masculin m x
feminin f x
neutru n x
– –––––––- –––––––– –
4 Număr singular s x x
plural p x x
– –––––––- –––––––– –
5 Cazul nominativ-acuzativ r x
genitiv-dativ o x
– ––––––– ––––––––- –
6 Număr_proprietar singular s x x
plural p x x
– ––––––– ––––––––- –
7 Gen_proprietar masculin m x
feminin f x
neutru n x
* ******************************** *
8 Clitic preclitic n x
enclitic y x
– ––––––– ––––––––- –
9 Modific_Tip prenominal e x
postnominal o x
– ––––––– ––––––––- –
10Wh_Tip relativ r x
interogativ q x
============================== EN RO
ARTICOL(T)
= ============== ============== = EN RO
P ATT VAL C x x
= ============== ============== =
1 Tip hotărât f x
nehotărât i x
posesive s x
demonstrativ d x
– –––––––– –––––––– –
2 Gen masculin m x
feminine f x
neutru n x
– –––––––– –––––––– –
3 Număr singular s x
plural p x
– –––––––– –––––––– –
4 Caz nominativ-acuzativ n x
genitiv-dativ o x
* ********************************* *
5 Clitic preclitic n x
enclitic y x
================================= EN RO
ADVERB(R)
= ============== ============== = EN RO
P ATT VAL C x x
= ============== ============== =
1 Tip general g x
participiu p x
negativ z x
modificator m x x
specificator s x
int_rel w x
lingo c x
– –––––––– ––––––––- –
2 Grad de comparație positiv p x x
comparativ c x x
superlativ s x x
* ********************************* *
3 Clitic preclitic n x
enclitic y x
– –––––––– –––––––– –
4 Wh_Tip relative r x
interogativ q x
================================= EN RO
APOZIȚIE(S)
= ============== ============== = EN RO
P ATT VAL C x x
= ============== ============== =
1 Tip prepoziție p x x
postpoziție t x
– –––––––– ––––––––- –
2 Formare simplă s x
compusă c x
* ********************************* *
3 Caz dative d x
(cerut de prep.) genitiv g x
acuzativ a x
– –––––––– ––––––––– –
4 Clitic preclitic n x
Enclitic y x
================================ EN RO
CONJUNCȚIE(C)
= ============== ============== = EN RO
P ATT VAL C x x
= ============== ============== =
1 Tip coordonator c x x
subordonat s x x
lingo r x
* ********************************* *
2 Formare simplă s x
compusă c x
– –––––––– ––––––––- –
3 Coord_Tip simplu s x
repetitiv r x
corelat c x
inițial i x
non_inițial n x
– –––––––– –––––––– –
4 Sub_Tip negativ z x
pozitiv p x
– –––––––– ––––––––- –
5 Clitic preclitic n x
enclitic y x
================================ EN RO
NUMERAL(M)
= ============== ============== = EN RO
P ATT VAL C x x
= ============== ============== =
1 Tip cardinal c x x
ordinal o x
fractal f x
multiplu m x
colectiv l x
– –––––––– –––––––– –
2 Genul masculin m x
feminin f x
neutru n x
– –––––––– –––––––- –
3 Număr singular s x
plural p x
– –––––––– –––––––- –
4 Caz nominativ-acuzativ r x
dativ-genitiv o x
* ******************************* *
5 Formă cifră d x
cifre romane r x
litere l x
ambele b x
– –––––––– –––––––- –
6 Articulare nearticulat n x
articulat y x
– –––––––– ––––––– –
7 Clitic preclitic n x
enclitic y x
================================ EN RO
INTERJECȚIA(I)
REZIDUAL(X)
ABREVIERI(Y)
= ============== ============== = EN RO
P ATT VAL C x x
= ============== ============== =
1 Tipul_sintactic nominal n x
verbal v x
adjectival a x
adverbial r x
pronominal p x
– –––––––– ––––––––- –
2 Genul masculin m x
feminin f x
neutru n x
– –––––––– ––––––––- –
3 Numărul singular s x
plural p x
– –––––––- ––––––––- –
4 Caz nominativ-acuzativ r x
dativ-genitiv o x
vocativ v x
– –––––––– ––––––––- –
5 Articulare articulat y x
nearticulat n x
================================ EN RO
CORPUS(Q)
= ============== ============== = EN RO
P ATT VAL C x x
= ============== ============== =
1 Tip negativ z x
infinitiv n x
subjonctiv s x
aspect a x
viitor f x
– –––––––– –––––––– –
3 Clitic preclitic n x
enclitic y x
================================ EN RO
În continuare vor fi prezentate tabelele de atribute în ordine alfabetică, iar pentru acele atribute pentru care denumirea nu este explicită, va fi dată o scurtă descriere a semanticii acestora.
Articulare: corespunde articolului hotărât și nehotărât în Engleză, cre este exprimat în limbile slave prin sufixe. Articolele sunt folosite deasemenea și în România.
Forma_pronumelui: folosit pentru a codifica pronumele slab și tare în limba Română.
Formă: este folosită pentru a distinge diferitele forme ale numeralelor(romane, cifre, litere).
Formare: aferent componentelor grafice: simplu,conține un singur cuvânt; compus, conține mai multe cuvinte.
Genul_proprietarului: folosit pentru a codifica genul posesorului la Pronume și Determinanți(în Română).
Modific_tip: aferent pozițiilor prenominal și postnominal ai Determinanților care distinge forme diferite în limba Română.
Numărul_proprietarului folosit pentru a specifica numărul posesorului la Pronume și Determinanți (în limba Română).
Sub_tip: folosit în România pentru a distinge Conjuncțiile negative de cele pozitive.
Sintactic_tip: folosit la Abreviere pentru a semnala parte de vorbire(POS) a abrevierii;folosit în mod curent în România și Estonia.
III.1 Etichetarea limbii Române
Următoarea secțiune va conține etichetarea limbii Române, atât perechile atribut-valoare cât și exemple pentru fiecare dintre perechi.
1. Substantiv(N)
Atribut valoare exemplu
1.1 Tip – comun (c) carte
– propriu (p) Ion
1.2 Gen – masculin (m) baiatul
– feminin (f) casa
– neutru (n) fir (m.sg.), fire (m.pl.)
În limba Română declinarea unui substantiv neutru, urmează întotdeauna la singular o paradigmă masculină iar la plural una feminină. Implementările specifice ar putea profita de această regulă și prin organizarea modelului în modele parțiale (masc-sing, masc-pl, fem-sing, fem-pl) pentru a scăpa de valoarea ‘neutru’ al atributului gen.
1.3 Număr – singular (s) fată
– plural (p) fete
1.4 Cazul – nominativ-acuzativ (d) omul
– dativ-genitiv (o) omului
– vocativ (v) omule
În limba Română există cinci cazuri funcționale (nominativ, genitiv, dativ, acuzativ și vocativ) dar ele sunt exprimate de cel mult trei forme sincretice pentru fiecare număr: nominativ-acuzativ, genitiv-dativ, vocativ. Ambiguitatea unei forme sincretice de caz poate fi rezolvată la nivel sintactic. La nivel de cuvânt, diferența dintre cele trei forme sincretice se poate face numai pentru substantivele precise. Substantivele masculine nedefinite nu se diferențiază prin caz ( excepție, câteodată pentru vocativ). Substantivele feminine nedefinite au diferite forme la singular pentru nominativ-acuzativ, genitiv-dativ și vocativ, dar formele genitiv-dativ-ul la singular sunt deasemenea imperceptibile față de formele de la plural:
fată – nominativ-acizativ, vocativ singular, nedefinit
fato – vocativ singular, nedefinit
fete – genitiv-dativ singular, nominativ-acuzativ, genitiv-dativ, vocativ plural, nedefinit
baiat – nominativ-acizativ, genitiv-dativ, vocativ singular, nedefinit
baiete – vocativ singular, nedefinit
baieți – nominativ-acuzativ, genitiv-dativ, vocativ plural, nedefinit
1.5 Articulare – articulat (y) omul
– nearticulat (n) om
În Română, substantivele pot fi marcate pentru articulare cu articolul hotărât enclitic.â
1.6 Clitic – preclitic (n) sora
– enclitic (y) soru-mea
LEXICON
Aici și în toate secțiunile care urmează, cratimele au fost șterse.
=========================
Etichetă Exemplu
=========================
Ncmsrn frate
Ncmson frate
Ncmsvn frate
Ncmsry fratele
Ncmsoy fratelui
Ncmprn frați
Ncmpon frați
Ncmpvn frați
Ncmpry frații
Ncmpoy fraților
Ncmpvy fraților
Ncfsrn soră
Ncfsvn soro
Ncfson surori
Ncfprn surori
Ncfpon surori
Ncfpvn surori
Ncfsoyy soră(-sii)
Ncfpry surorile
Ncfpoy surorilor
Ncfpvy surorilor
Ncfsryy soră(-sa)
Ncmsrn creion
Ncmson creion
Ncmsryy creionu-(i)
Ncmsoy creionului
Ncfprn creioane
Ncfpon creioane
Ncfpry creioanele
Ncfpoy creioanelor
Npfsr Ioana
Npfso Ioanei
Npmsrn București
Npmsry Bucureștiul
2. VERB(V)
Atribut valoare exemplu
2.1 Tip – de bază (m) a vedea
– auxiliar (a) a avea, a fi, a voi
– modal (o) a putea, a trebui
– copulativ (c) a fi, a deveni
2.2 VForma – indicativ (i) vine
– subjonctiv (s) vină
– imperativ (m) vino
– infinitiv (n) veni
– participiu (p) venit
– gerunziu (g) venind
Tradițional, în lingvistica Română se face o diferență între starea predicativă și cea non-predicativă. Această diferență poate fi ușor catalogată într-o dicotomie finită/non-finită: indicativul, subjonctivul și imperativul sunt finite; participiul și gerunziul sunt non-finite(doar stările sintetice(necompuse) au fost menționate; se folosește opoziția sintetic-analitic pentru a face diferența între concatenare (sintetic) și compunere (analitic) din cadrul fenomenelor morfo-lexicale).
Din moment ce numai formele sintetice au fost luate în considerare, valorile condițional și prezumptiv ale atributului VForma au fost omise. O altă valoare pentru VForma care a fost omisă este supinul. Acesta apare ăn cele mai multe cazuri împreună cu o prepoziție, excepție făcînd câteva verbe intranzitive, în cazurile ăn care acestea sunt subordonate verbului impersonal a trebui. Numai prepoziția permite diferențierea supinului de participiu-masculin-singular.
2.3 Timp – prezent (p) văd
– imperfect (i) vedeam
– trecut ( s) vazui
– mai mult ca perfect (l) vazusem
2.4 Persoana – a întâia (1) văd
– a doua (2) vezi
– a treia (3) vede
Următoarele caracteristici sunt adecvate acelor stări care permit o valoare adjectivală, adică participiul și gerunziul. Oricum valoarea adjectivală a gerunziului este foarte rară (o mână tremurândă ) și deci genul și numărul se aplică în general pentru participiu.
2.5 Numărul – singular (s) bătut
– plural (p) bătuți
2.6 Genul – masculin (m) bătut
– feminin (f) bătută
– neutru (n) bătut-bătute
2.7 Clitic – preclitic (n) am ridicat
– enclitic (y) tridicându-l
Fenomenul de cliticizare în Română nu este restricționat de relația verb-pronume, dar poate fi deasemenea întâlnit împreună cu un verb (de bază) și cu cel auxiliar, cu substantiv sau adjectiv cu pronume, cu substantiv sau adjectiv cu cuvânt de legătură, pronume cu auxiliar, prepoziție cu articol (nehotărât), numeral sau pronume (nedefinit), adverb negativ cu verb, auxiliar sau pronume, și altele (în principal create prin formele micșorate ale verbului ‘a fi’). Se ia în considerare numai cliticizările marcate grafic, caz în care cele două, trei și câteodată patru constituente ale formei cuvîntului cliticizat sunt întotdeauna separate de cratimă. Omițînd cratima în asemenea cazuri, este o eroare inacceptabilă în scrierea Românească. Următoarele exemple ilustrează tipurile specifice de cliticizare:
Dă-mi-l ; lăsatu-ne-ai ; sparge-ți-s-ar lampa ; fața-i ; roșu-i ; m-au ; într-o gaură ; într-o oră ; într-unele ; n-aud ; n-am ; nu-mi .
Ordinea în care apar diferiți constituienți ai unei cliticizări este guvernată de reguli morfologice precise. De exemplu, cuvintele auxiliare apar întotdeauna pe ultima poziție. Verbele de bază, excepție făcînd acelea care fie încep cu ‘a’ ori cu litera ‘î’ și formele micșorate (-s și -i) ale verbului ‘a fi’, întotdeauna apar pe prima poziție, substantivele și adjectivele precedă întotdeauna pronumele cliticizate, particulele adverbiale negative ‘nu-‘ și ‘n-’ apar doar pe prima poziție, și așa mai departe. Oricum, în vederea reducerii falsei ambiguități din cadrul unei decodări morfo-lexicale, atributul CLITIC se consideră ca fiind relevant numai în acele cazuri în care fenomenul de cliticizare rezultat din modificarea grafemică a cuvântului cliticizat (la fel cum este ‘u-ul’ epentetic în forma de gerunziu din tabele de mai jos).
LEXICON
========================
Etichetă Exemplu
========================
Vmii1s abandonam
Vmii2s abandonai
Vmii3s abandona
Vmii1p abandonam
Vmii2p abandonați
Vmii3p abandonau
Vmis1s abandonai
Vmis2s abandonași
Vmis3s abandonă
Vmis1p abandonarăm
Vmis2p abandonarăți
Vmis3p abandonă
Vmil1s abandonasem
Vmil2s abandonaseși
Vmil3s abandonase
Vmil1p abandonaserăm
Vmil2p abandonaserăți
Vmil3p abandonaseră
Vmip1s abandonez
Vmsp1s abandonez
Vmip2s abandonezi
Vmsp2s abandonezi
Vmip3s abandonează
Vmip3p abandonează
Vmsp3s abandoneze
Vmsp3p abandoneze
Vmsp1p abandonăm
Vmsp2p abandonați
Vmm-2s abandoneaz
Vmm-2p abandonați
Vmnp abandona
Vmp–sm abandonat
Vmp–sm–y abandonatu
Vmp–sf abandonat_ a
Vmp–pf abandonate
Vmp–pm abandonați
Vmg abandonând
Vmg––-y abandonându
Va–1s as,
Voip trebuie
Vcip1s sunt
Vcip3p sunt
Vcip1s–-y -s
Vcip3p–-y -s
3. Adjectiv(A)
Atribut valoare exemplu
3.1 Tip – calificativ (f) frumos
3.2 Grad de comparație – pozitiv (p) frumos
– comparativ (c) ulterior
– superlativ (s) extrem
Valoarea inițială este pozitiv; adjectivele au deasemenea grade de comparație comparativ și superlativ, dar în cele mai multe cazuri acesteasunt exprimate cu ajutorul unor forme analitice (de exemplu comp. mai bun, superl. cel mai bun ).Câteva adjective au înțelesuri etimologice intrinsece la comparativ sau superlativ (de exemplu comparativ: anterior, major; superlativ:optim, maxim, extrem etc.). Prefixele ‘super-’, ‘extra-’,’ultra-’ etc., sunt destul de productive în formarea superlativelor quasi-analytic1 .
3.3 Gen – masculin (m) bun
– feminin (f) bună
– neutru (n) sg. bun/pl. bune
3.4 Numărul – singular (s) bun
– plural (p) bune
3.5 Genul – nominativ-acuyativ (r) bunul
– dativ-genitiv (o) bunului
– vocativ (v) bunule
Adjectivele prezintă același caz sincretism ca și substantivele, excepție făcînd câteva adjective care au o formă adițională specială pentru genitiv-dativ la plural (de exemplu G.D.pl. multor).
3.6 Articulare – articulat (y) bunul
– nearticulat (n) bun
În construcția substantiv-adjectiv, articolul hotarât poate fi atașat în mod enclitic ori adjectivelor ori substantivelor modificate (niciodată la ambele). În prezent articolul se atașază în dreapta primului cuvânt din propoziție.
Bunul om. Omul bun.
3.7 Clitic (vezi discuția de la 2.7)
LEXICON
====================
Etichetă Exmplu
====================
Afpmsrn bun
Afpmson bun
Afpmsvn bun
Afpmprn buni
Afpmpon buni
Afpmpvn buni
Afpmsry bunul
Afpmsoy bunului
Afpmpry bunii
Afpmpoy bunilor
Afpfsrn bună
Afpfsvn bună
Afpfson bune
Afpfprn bune
Afpfpon bune
Afpfpvn bune
Afpfsry buna
Afpfsoy bunei
Afpfpry bunele
Afpfpoy bunelor
Afcmsrn ulterior
Afcmson ulterior
Afsmsrn extrem
Afp gri
Pronume(P)
Atribut valoare exemple
4.1 Tip – demonstrativ (d) acesta
– nedefinit (i) oricine
– posesiv (s) (al) meu
– int_rel (w) ce
– personal (p) eu
– reflexiv (x) se
– negativ (z) nimeni
– emfatic (h) însumi
În limba Română merită să se facă o diferențiere a pronumelui negativ față de celelalte pronume nedefinite: un pronume negativ nu poate fi argument pentru un verb doar dacă însuși verbul este negativ la rândul său (de exemplu Nu am văzut pe nimeni / * Am vazut pe nimeni).
4.2 Persoana – a întâia (1) eu
– a doua (2) tu
– a treia (3) el
4.3 Genul – masculin (m) el
– feminin (f) ea
– neutru (n) sg. acesta/ pl. acestea
4.4 Numărul – singular (s) eu
– plural (p) noi
4.5 Cazul – nominativ (n) el
– genitiv (g) (al) lui
– dativ (d) lui
– acuzativ (a) (pe) el
– vocativ (v) tu, voi!
– nominativ-acuzativ (r) acesta
– dativ-genitiv (o) acestuia
Pentru persoana a doua a pronumelui personal atât la singular cât și la plural există și cazul vocativ. Valorile nominativ-acuzativ și dativ-genitiv sunt necesare pentru formele sincretice ale conjuncției cauzale a altor pronume, înafară de cele personale.
Numar_proprietar – singular (s) meu
– plural (p) nostru
Acest atribut este semnificativ pentru pronumele Posesiv și referă numărul gramatical al posesorului.
Clitic (vezi discuția de la 2.7)
4.8 Forma_pronumelui – tare (s) lui
– slab (w) îi, i-
Pentru limba Română este necesar un atribut (denumit Forma_pronumelui) pentru a face diferența între formele tare și slab ale aceluiași pronume. Toate formele slabe pot fi alăturate cuvintelor adiacente atât preclitic cât și enclitic. În asemenea cazuri joncțiunea este întotdeauna marcată grafic de o cratimă între pronume și cuvântul vecin. Cratima marchează deasemenea posibile elisions din fie pronume fie cuvânt adiacent. Cu toate că în cărțile tradiționale de gramatică pronumele demonstrativ, int_rel și nedefinit nu sunt caracterizate prin persoană, în dicționarele noastre ele sunt înregistrate ca și persoana a treia (la fel ca și la substantive). Oricum, pentru etichetarea automată această valoare a fost pronunțată ca fiind irelevantă.
LEXICON
====================================
Etichetă Exemplu
====================================
Pp1msn–––s eu
Pp1msd–––w mi
Pp1msd–––s mie
Pp1msd–y––s mi-
Pd-msr acesta
Pd-mso acestuia
Pi-mpr toți
Ps1fsrs mea
Pw-mso cărui
Pn-msr nimeni
Ph1msr însumi
Ph1fsr însămi
Px3msa–––s sine
Px3msa–––w se
Px3msa–y––w s-
5.Determinant(D)
Atribut valoare exemplu
5.1 Tip – demonstrativ (d) acest
– nedefinit (i) orice
– posesiv (s) meu
– int_rel (w) ce
– negativ (z) nici un
– emfatic (h) însuși
Nevoia de o valoare negativă a Tipului determinanților este susținută de aceleași argumente ca și în secțiunea Tipul pronumelui. În limba Română determinantul negativ este exprimat de unitatea nici + articol nehotărât (de exemplu nici un, nici o). În Română sunt forme specifice pentru așa-spusul determinant emfatic, care poate însoți atât un substantiv cât și un pronume personal: fata însăși , deasemenea ea însăși.
5.2 Persoana – a întâia (1) meu
– a doua (2) tău
– a treia (3) său
Acest atribut este semnificativ pentru determinanții posesivi și se referă la persoana gramaticală a posesorului.
5.3 Genul – masculin (m) meu
– feminin (f) mea
– neutru (n) sg. meu/pl. mele
5.4 Numărul – singular (s) meu
– plural (p) mei
5.5 Cazul – nominativ-acuzativ (d) aceasta
– dativ-genitiv (o) acestei
5.6 Numărul_posesorului – singular (s) meu
– plural (p) nostru
Acest atribut este semnificativ pentru determinanții posesivi și se referă la numărul gramatical al posesorului.
5.7 Clitic – preclitic (n) mama mea
– enclitic (y) maică-mea
(vezi discuția de la 2.7).
5.8 Modific_tip – prenominal (e) acest
– postnominal (o) acesta
Determinantul prenominal precede întotdeauna un substantiv (de exemplu acest băiat), pe când determinantul postnominal apare numai după substantiv (de exemplu băiatul acesta).
LEXICON
=======================
Etichetă Exemplu
=======================
Dd-mso–e acestui
Dd-mso–o acestuia
Di-mpr toți
Ds1fsrs mea
Dw-msr care
Dw-mso cărui
Dz-msr nici_un
Dh1msr însumi
Dh1fsr însămi
6. Articol(T)
Atribut valoare exemplu
6.1 Tip – hotărât (f) lui
– nehotarât (i) un
– posesiv (s) al
– demonstrativ (d) cel
Cu toate că în prezent doar câteva obiecte, articolul în Română are patru tipuri, spre deosebire de majoritate limbilor europene. În afară de două tipuri recomandate: hotărât și nehotărât care au valoarea semantică cunoscută, limba Română folosește două tipuri adiționale ale articolului, care sunt din punct de vedere semantic subordonate articolului hotărât dar care au forme și înțelesuri speciale:
– articolul posesiv (denumit și articol genitival) este un element în structura pronumelui posesiv, al numeralului ordinal (al meu și al treilea) , și al formelor genitivului nedefinit de la substantiv (capitol al cărții).
– articolul demonstrativ leagă un substantiv definit cu determinanții săi,
Leagă un numeral sau un adjectiv cu un substantiv, și este o parte constituentă a superlativului și al relativului (de exemplu fata cea mare, cel leneș, respectiv prietenul cel mai bun).
Este de remarcat faptulcă articolul hotărât are doar formă enclitică, excepție făcând o singură formă preclitică (lui + substantiv propriu: lui Ion).
6.2 Genul – masculin (m) un
– feminin (f) o
– neutru (n) sg. cel/pl. cele
6.3 Numărul – singular (s) un
– plural (p) niște
6.4 Cazul – nominativ-acuzativ (d) cel
– dativ-genitiv (o) celui
6.5 Clitic – formele inflecționale ale cuvintelor de origine străină care n-au fost asimilate în întregime, sunt scrise de obicei cu o cratimă între forma de bază și sfârșitul inflecțional. Aceste terminații au fost clasificate ca și articole clitice (atributul clitic este întotdeauna “y”) care poate fi ori hotărât (tip=f, “-istul”) ori nehotărât (tip=i, “ist”) și sunt caracterizate de gen (gen=m, “ist”, gen=f, “istă”), număr (număr=s, “ist”, număr=p, “iști”) și caz (caz=r, “istul”, caz=o, “istului”).
LEXICON
=====================
Etichetă Exemplu
=====================
Tfmso lui
Tffso lui
Timsr un
Tsmpr ai
Tdfso celei
Timsry -ist
Timsoy -ist
Tfmsry -istul
Tfmsoy -istului
7. Adverb(R)
Atribut valoare exemplu
7.1 Tip – general (g) bine, acolo
– participiu (p) mai , cam
– negativ (z) nicăieri
– modificator (m) firește, poate
– int_rel (w) cum
– lingo (c) ca
Tipul general include majoritatea adverbelor pronominale (demonstrtiv: aici, nehotărât: oriunde). Este necesară și aici, la fel ca și la pronume o valoare negativă (nicăieri, niciodată). Tipul participiu conține acele adverbe care pot disloca formele verbului compus (ex. Ea a tot cântat) sau marchează grade de comparație (ex. circa, foarte, prea). Asemenea adverbe sunt cam, mai, și, tot, foarte etc. O distincție folositoare este aceea în care sunt luate în considerare adverbele care pot să aibă rol de predicat, adică acestea pot guverna o propoziție subordonată (Firește că o știu).
Tipul “lingo” al adverbelor a fost introdus pentru a acoperi câteva cuvinte care pot fi atât adverbe cât și conjuncții.
7.2 Grad de comparație – pozitiv (p) bine
– comparativ (c) ulterior
– superlativ (s) extrem
Comparativul și superlativul adverbelor este format analitic cu mai (puțin), cel mai (puțin), foarte: ex. mai repede, cel mai devreme. Cu toate acestea există câteva adverbe cu înțeles comparativ sau superlativ (ex. optim, ulterior, definitiv). Aceste adverbe pot fi folosite pentru exprimarea superlativului absolut al altor adverbe sau adjective: ex. extrem de bine, formidabil de frumos.
7.3 Clitic (vezi discuțiade la 2.7).
LEXICON
=====================
Etichetă Exemplu
=====================
Rgp repede
Rgs extraordinar
Rgc ulterior
Rp mai
Rz nicăieri
Rm probabil
Rw cum
8. Adpoziție(S)
Atribut valoare exemplu
8.1 Tip – prepoziție (p) la, pe, în
Prepoziția este singurul tip pertinent în limba Română, cu toate că câteva adpoziții intercalate pot fi văzute ca un fel de circumpoziții, de exemplu între…și…
8.2 Formarea – simplă (s) la, pe, în
– compusă (c) de la
Există o clasă distinctă pentru prepozițiile compuse, fiecare dintre ele formând o unitate formală și semantică, ex. de la, pe la, de pe, etc.
8.3 Caz – genitiv (g) înaintea
– dativ (d) datorită
– acuzativ (a) la
8.4 Clitic (vezi discuția de la 2.7).
LEXICON
======================
Etichetă Exemplu
======================
Spsa în
Spsay într-
Spsd datorită
Spca de_la
9. Conjuncție(C)
Atribut valoare exemplu
9.1 Tip – coordonator (c) dar
– subordonat (s) că, dacă
– lingo (p) și
Tipul „lingo” al c onjuncției se aplică doar cuvântului „și” care pote să fie atât conjuncție coordonatoare cât și adverb.
9.2 Formarea – simplă (s) deoarece
– compusă (c) de_vreme_ce
Se pot distinge două tipuri de conjuncții: conjuncții simple: ex. și, dar, deși etc; conjuncții formate parafrazic, cu câteva cuvinte/fraze combinate de către o conjuncție: din momenent ce, fară să, față de cum etc.
9.3 Coord_tip – simplu (s) dar, deoarece
– repetitiv (r) fie…fie…
– coreșat (c) atât … cât și
Există trei tipuri de conjuncții care depind de modul de utilizare: forma lor inițială sau împreună cu alte conjuncții sau adverbe:
simplu, între conjuncții: Ion ori Maria;
repetitiv, înaintea fiecărei conjuncții: fie Ion fie Maria fie…
corelat, înaintea unei fraze combinate, cere coordonate specifice între conjuncții: atât mama cât și tata.
Majoritatea conjuncțiilor se pun înaintea combinarii, excepție făcînd: așadar, deci, dar, însă, dacă, care deasemenea apar cu o valoare expresivă în interiorul frazei combinate.
9.4 Sub_tip – negativ (z) nici
– pozitiv (p) dar
Acest atribut face diferența dintre conjuncțiile pozitive și cele negative, furnizînd mijloace pentru a putea controla verbele dublu negate: nici NU am venit, nimeni NU vorbește, nivi un tren N-a trecut, niocăieri N-am vazut.
9.5 Clitic – preclitic (n) că așa
– enclitic (y) c-așa
(vezi discuția de la 2.7)
LEXICON
======================
Etichetă Exemplu
======================
Crssp și
Ccssp dar
Ccrsp fie…fie
Csrsz nici…nici
Csscp de_vreme_ce
10. Numeral(M)
Atribut valoare exemplu
10.1 Tip – cardinal (c) trei
– ordinal (o) (al) treilea
– fractal (f) treime
– multiplu (m) întreit
– colectiv (l) tustrei
Primul grup de numerale obținute prin compunere conține următoarele tipuri de numerale: cardinal (trei), ordinal (al treilea), fracțional (treime), multiplu (întreit), colectiv (amândoi). Al doilea grup conține tipurile de numerale care sunt compuse din alte părți de vorbire: distributiv (câte trei), adverbial (de tri ori) și din nou numeralul colectiv care are deasemenea forme compuse (toți trei).
10.2 Genul – masculin (m) doi, primul
– feminin (f) două, prima
– neutru (n) (un) milion, (două) milioane
Câteva numerale se comportă ca și un substantiv ca gen și declinare, caracteristică ce s emenține chiar și în compoziția numeralelor de ordine superioară.; acestea sunt, de exemplu, sută, mie, milion și miliard. Într-o propoziție majoritatea numeralelor pot îndeplini funcții ale altor părți de vorbire ca de exemplu substantiv, determinant sau adverb.
10.3 Numărul – singular (s) primul
– plural (p) primii
10.4 Cazul – nominativ-acuzativ (d) primul
– dativ-genitiv (o) primului
10.5 Forma – cifră (d) 1960
– literă (l) unsprezece
– ambele (b) 9 mii
– roman (r) XIV
10.6 Articulare – articulat (y) primul
– nearticulat (n) prim
În virtutea valorii lor de substantiv sau adjectiv, unele numerale pot avea articolul enclitic (prim/primul). Atributul articulare ajută la diferențierea formelor enclitice de alte forme.
10.7 Clitic (vezi discuția de la 2.7 )
LEXICON
=======================
Etichetă Exemplu
=======================
Mcmprl doi
Mcmpol doi
Momsrl doilea
Momsol doilea
Mlmpr amândoi
Momsrlyy primu-i
Mffpoly treimilor
11. Interjecții(I)
====================
Etichetă Exmplu
====================
I oh,ah,au
====================
12. Rezidual(X)
==========================
Etichetă Exemplu
==========================
X show, a+b, retro-
==========================
13. Abreviri(Y)
Atributul Sintactic_tip se folosește la specificarea categoriei gramaticale a abrevierii. Cu toate că valoarea acestui atribut se poate extinde peste categoriile parții de vorbire dintr-o limbă, în Română abrevierile intră ăn clasa substantivului.
Atribut valoare exemplu
13.1 Sintactic_tip – nominal (n) d-na (doamna)
– verbal (v) v. (vezi)
– adjectival (a) ant. (anterior)
– adverbial (r) f. (foarte)
– pronominal (p) d-ei (dumneaei)
13.2 Genul – masculin (m) d-ului
– feminin (f) d-na
– neutru (n) apt.
13.4 Cazul – nominativ-acuzativ (d) d-na
– dativ-genitiv (o) d-nei
13.5 Articulare – articulat (y) d-nele
– nearticulat (n) d-ne
LEXICON
======================
Etichetă Exemplu
======================
Ynmsry d-ul
Ynfsoy d-nei
Ynnsry apt.
14. Corpus(Q)
Atribut valoare exemplu
14.1 Tip – negare (z) nu, n-
– infinitiv (n) a
– subjonctiv (s) să
– aspect fi
– viitor o
14.2 Clitic – enclitic (y) n-am
– preclitic (n) nu am
(vezi discuția de la 2.7).
LEXICON
=================
Etichetă Exemplu
=================
Qz nu
Qz-y n-
Qn a
Qs să
Qa fi
Qf o
III.2 Aplicație făcută pentru limba Română
Etichetarea textelor din limba Română: un studiu de caz pentru QTAG, un adnotator probabilistic independent de limbă.
Această aplicație a fost făcută de către Dan Tufiș, de la Academia Română,București, Centrul pentru Inteligența Artificială, și Oliver Mason, de la Universitatea din Birmingham, Anglia.
Această lucrare descrie un experiment asupra etichetării limbii Române folosind QTAG, un adnotator POS (parte de vorbire) care a fost dezvoltat în original pentru Engleză, dar cu ajutorul unei separări clare între motorul de procesare (probabilistic) și resurse (specificații lingvistice). În modul acesta, adnotatorul se poate refolosi pentru diferite limbi, după cum s-a arătat prin experimentele care au avut succes asupra celor trei limbi diferite: Engleză, Suedeză și Română.
Această lucrare conține următoarele secțiuni:
1. Etichetarea extinsă: majoritea adnotatoarelor (în timp real) sunt în măsură să asigure un răspuns rapid în ciuda faptului că pastrează modelul lingvistic în memoria calculatorului. În cazul în care memoria RAM nu este destul de mare pentru a putea încărca aceste date, adnotatoarele tipice renunță la timpul real. Aparent există două soluții pentru a face față acestei probleme: ori se reduce tagset-ul la o mărime rezonabilă și se pierd informații, ori se modifică adnotatorul cu câtva extr-cod, pentru a avea grijă de schimbul de date și se acceptă în schimb o probabilă degradare serioasă a timpului de răspuns. Etichetarea extinsă constă în etichetarea unui text cu un tagset bogat folosind modelele limbii, construit pentru tagset-uri reduse și prin urmare pentru corpusuri mici, toate acestea fiind posibile cu un mic preț în ceea ce privește acuratețea și practic fără nici un preț în ceea ce privește resursele computaționale. În general, etichetarea extinsă folosește tagset-uri ascunse (denumite C-tagset) ce au dimensiuni mici (în acest caz 89 etichete) bazate pe acele modele lingvistice pentru care construit. Aceste modele lingvistice servesc pentru primul nivel din procesul de etichetare. Apoi, un post-procesor deterministic înlocuiește etichetele din tagset-urile mici cu una sau mai multe etichete din tagset-ul bogat (denumit MSD-tagset). Următoarea fază este dezambiguarea cuvintelor rezultate în prima fază, care are o rată de succes mai mare de 98%. Depinzând de acuratețea regulilor contextuale, rata de eroare pentru etichetarea finală a textului poate fi practic aceeași ca și în faza etichetării ascunse. Bineînțeles, tagset-urile reduse și cele extinse trebuie să fie într-o relație specifică (tagset-ul mai mic trebuie să-l rezume pe cel mai mare). Rata eroarii globale a etichetării extinse este dată de relația: Error-rate=(Nerrors_tagger +Nerrors_mapping)/Nwords
unde: Nwords este numărul total de cuvinte din textul etichetat;
Nerrors_tagger este numărul erorilor care au apărut pe parcursul primei faze din procesul de etichetare (etichetarea C-tagset );
Nerrors_mapping este numărul erorilor ce au apărut în urma ceklei de-a doua faze.
2. Adnotatorul: QTAG folosește numai probabilitațile pentru a dezambigua etichetele din cadrul unui text. Ca urmare, el poate ușor să se adapteze pentru alte limbi, atâta timp cât câteva corpusuri de antrenament pre-etichetate sunt disponibile. Algoritmul de bază este fairly straight-forward: la început, adnotatorul caută în dicționar toate etichetele posibile pe care simbolul curent poate să le aibă, împreună cu probabilitățile lor lexicale. Aceasta este apoi combinată cu probabilitatea contextuală de a apărea într-o secvență precedată de două etichete anterioare, pentru fiecare etichetă. Eticheta cu cea mai mare valoare combinată este selectată. Încă doua etape de procesare țin cont deasemenea de scorurile etichetei ca fiind al doilea sau primul element al unui triplet, ori următoarele două simboluri sunt evaluate. QTAG lucrează prin combinarea a două surse de informații: un dicționar de cuvinte cu posibilele lor etichete și frecvențele corespunzătoare, și cu o matrice cu secvențe de etichete, care are deasemenea asociate frecvențele. Procedura de etichetare este următoarea:
1. citește următorul simbol
2. caută-l în dicționar
3. dacă nu a fost găsit, ghicește posibilele etichete
4. pentru fiecare etichetă posibilă
a. calculează Pw=P(etichetă/simbol) probabilitatea ca un simbol să aibă eticheta specificată
b. calculează Pc=P(simbol/t1,t2), probabilitatea mca o etichetă să urmeze etichetelor t1 și t2
c. calculează Pw,c= Pw*Pc, probabilitatea obținută prin înmulțirea probabilității individuale a rolului etichetei cu probabilitatea contextuală
5. repetă aceste acțiuni pentru celelalte două etichete din fereastră, dar folosind valori distincte pentru probabilitatea contextuală: probabilitățile ca o etichetă să fie îngrădită și respectiv urmată de alte două etichete. Pentru fiecare recalculare (trei pentru fiecare simbol) probabilitățile rezultate sunt înmulțite, iar produsul lor reprezintă+ probabilitatea totală ca eticheta să fie atribuită simbolului. Cum aceste valori devin foarte mici într-un timp relativ scurt, acestea (probabilitățile) sunt reprezentate ca și logaritmi în baza 10. În fnal, etichetele sunt sortate în funcție de probabilitățile lor, iar în funcție de diferența probabilităților dintre etichete se decide care dintre etichete este cea corectă. Adnotatorul este implementat într-un model client-server. Serverul este implementat în C, în timp ce clientul este scris în Java. Informațiile de bază se găsesc pe server, iar motorul de etichetare localizează datele pentru etichete și secvența probabilităților pentru etichetă de pe server printr-o conexiune client-server. În acest fel, adnotatorul poate fi rulat pe diferite platforme în care este disponibil un server.
3. Estimatorul: morfologia necesară pentru a lucra cu cuvintele necunoscute este codificată ca și o resursă de limbaj specific. Există două estimatoare diferite: primul se bazează pe o listă formată din ultimele trei litere ale tuturor cuvintelor din lexicon și respectiv cu probilitățile etichetei asociate acestora. Această listă este construită automat în timpul adnotării. Al doilea estimator (specific limbii Române), construit la RECAL, este motivat mai mult lingvistic și ia în considerare sfârșiturile inflecționale pentu cuvintele dintr-o clasă deschisă (substantive, adjective, verbe). Fiecare terminație este asociată unei clase de ambiguități ce conține etichetele corecte pentru cuvintele clasei deschise (terminația 0 include și etichete pentru abrevieri, rezidual și interjecții). La o analiză retrogradată a cuvântului necunoscut, estimatorul identifică toate terminațiile posibile. Clasele de ambiguități corespunzătoare tuturor terminațiilor posibile sunt combinate, iar cea mai mare probabilitate este atribuită interpretării dată de cea mai lungă terminație. În funcție de modul în care estimatorul este invocat, cuvântul necunoscut este pus ori în acestă clasă de ambiguități combinată ori în clasa de ambiguități corespunzătoare celei mai lungi terminații găsite. Pentru evaluarea estimatorului s-au extras din dicționarul principal (D0) toate cuvintele care conțineau în clasa lor de ambiguități o interpretare ce aparținea clasei închise, cuvinte cu rădăcina de 2 caractere și deasemenea câteva cuvinte neregulate din clasa deschisă și s-a creat un lexicon pentru estimator de aproximativ 4000 de cuvinte(D1). Primul experiment asupra estimatorului s-a făcut asupra tuturor cuvintelor din D0-D1, toate cuvintele clasificate greșit au fost analizate și câteva terminații idiosincratice au fost adăugate listei perechi <terminație: clasa de ambiguități>. Câteva cuvinte neregulate au fost deasemenea mutate în D1. Acest pas a fost repetat până când s-a obținut o precizie de 100%. Pasul următor a constat în evaluarea efectuării “celei mai lungi potriviri”, ce rezultă în urma setării estimatorului să returneze clasa de ambiguități doar pentru cea mai lungă terminație identificată. În această etapă au fost raportate 8892 de “erori” (2.17%), care mai mult de jumătate au fost cauzate de intrările din dicționar care au avut ca atribuit un MSD greșit sau intrări care erau neologisme. Erorile reale (4324, sau 1.08%) au fost cauzate numărul mic de cuvinte ale căror literă (litere) din rădăcină se combină cu terminația reală, altfel spus erorile au fost date de segmentația greșită tădăcină+terminație: α+βγ în loc de αβ+γ (atât γ cât și βγ fiind înregistrate ca și terminații). După câteva modificări ale lexiconului s-a obținut un număr mult mai de erori: 1302, în principiu mai puțin de 0.3% erori de estimare. Oricum s-a mai făcut încă un pas care a fost foarte ușor de implementat, care putea să confere o estimare aproape fără nici o eroare și care nu altera performanța computațională și acuratețea adnotatorului. Aceasta consta în faptul că estimatorul returna reuniunea interpretărilor a două dintre cele mai lungi terminații. Numărul erorilor returnate în urma rulării estimatorului în acest mod pentru cuvintele din D0-D1 a fost de 181 (0.04%) , dar toate cuvintele catalogate greșit nu erau forme frecvente ale cuvântului.
4. Resursele lingvistice: lexiconul pentru forma cuvintelor românești a fost ceeat pe baza unui lexicon ce conținea 35000 – leme, în concordanță cu procesarea limbajului natural EGLU. Din moment ce câteva cuvinte nu se găseau în lexiconul EGLU , majoritatea au fost lematizate manual și apoi introduse în lexicon, iar mai târziu se expandează la paradigmele lemelor foarte recente.Tabela de mai sus oferă informații asupra conținutului de date a dicționarului principal care este folosit în analiza corpusurilor.
MSD-urile (Morpho-Syntactic Descriptions) reprezintă un set de coduri (prezentate în prezenta lucrare, în secțiunea precedentă). AMB-MSD reprezintă numărul slaselor de ambiguități sau genotipurile. Descrierile morfo-sintactice sunt reprezentate ca și șiruri, folosind o codare lineară. În această notație poziția din șir a caracterului corespunde unui atribut, și caracterele specifice din fiecare poziție indică valoarea pentru atributul respectiv. Pentru o anumită formă a cuvântului, dată, se pot aplica câteva MSD-uri. Setul tuturor MSD-urilor aplicabile unui cuvânt definește clasa de ambiguitate a MSD-ului pentru cuvântul respectiv. Lexiconul Român conține 869 clase de ambigitate a MSD-ului. Corpusurile folosite în experimente și evaluarea prezentate aici au fost făcute pe textele integrale a două cărți: Orwell's 1984 și Plato's The Republic. O scurtă prezentare a acestor texte este dată mai jos:
5. Tagset-ul: tagsetul pentru limba Română conține 79 de etichete pentru categorii morfo-sintactitice diferite, plus 10 etichete pentru punctuație. Primul pas în proiectarea tagset-ului a fost făcut prin păstrarea în tagset numai a informațiilor POS și antrenarea adnotatorului pe acest tagset minimal și apoi observarea erorilor făcute de către adnotator asupra unor paragrafe extrase aleator din corpus. Erorile semnalate în forma Cata în loc de Catb a permis construirea seturilor de confuzie pentru tagsetul minimal : (Cat1 Cat2 …Catm) în loc de Catb. Pentru toate cuvintele marcate greșit s-a extras contextul și s-au identificat atributele care puteau să ajute adnotatorul să facă alegera corectă. Aceste atribute au fost adăugate etichetelor, apoi s-a repetat antrenamentul și etichetarea în urma cărora a rezultat de fiecare dată o listă diferite de seturi de confuzie. Ca urmare a acestui pas iterativ, fiecare clasă de ambiguitate MSD a fost echivalată cu o clasă de ambiguitate C-ETICHETA (eticheta1 eticheta2 … etichetai) cu i<k și a fost definită o mapare de mai_multe-la-unu între MSD-uri și C-ETICHETA. S-a definit gradul de revenire la starea inițială a unui text adnotat cu C-ETICHETA dat, ca fiind numărul total de marcaje (marcajele unui MSD- revenit total la starea inițială), și s-a ajuns după câteva adjustări ale tagset-ului și a informației dicționarului la un grad de revenire la starea inițială a corpusului de test de 90%.
6. Corpusul de anrenament: a fost obținut din corpusul MSD-etichetat prin substituirea MSD-urilor cu etichetele lor corespunzătoare corpusului.
7. Procesul de antrenament: datele conținute în corpusul de antrenament este sortat filtrat de două ori, o dată pentru a extrage lexiconul și o dată pentru trigramurile etichetei. Extragera informațiilor relevante este făcută în mare parte cu unelte Unix standard de procesare a textului și cu două programe speciale. În etapa finală, celei trei litere ale terminațiilor cuvântului sunt extrase din lexicon și este creeată din ele o „listă de estimări”. Această listă de estimări este folosită ca și resursă a estimatorului dacă nu este instalat un alt estimator. Adnotatorul se poate folosi acum cu noile resurse, de îndată ce fișierele cu date sunt accesibile din programul server-ului. Formatul rezultatelor adnotatorului este un text vertical cu toate etichetele posibile; etichetele au atribuită o valoare a probabității și acestea sunt sortate, deci cea mai probabilă etichetă este cea dintâi.
8. Evaluarea și tagsetul final: adnotatorul a fost încercat și evaluat de mai multe ori pe segmente diferite ale unor corpusuri dezambiguate de mână cu rezultate variate. Prin urmare adnotatorul a fost încercat pe un corpus întreg și apoi a fost rulat pe aceleași date. Acuratețea a fost foarte ridicată, dar înafară de erorile cunoscute au mai apărut alte 500 făcute de dezambiguitorii umani în procesul de construire a corpusului MSD-etichetat. După ce datele au fost corectate s-a mai făcut un test, fază în care au mai apărut câteva erori umane(8 în „1984” și 11 în „The Republic”). A treia dată când s-a refăcut testul nu s-au descoperit alte erori făcute de om deci, adnotatorul a fost încercat pe trei texte, construind trei modele lingvistice. Analiza erorilor a sugerat câteva modificări a tagset-ului și câteva intrări în dicționar.
8. Complexitatea metrică pentru experimentele etichetării: performanța unui adnotator este de obicei măsurată în procentajul atribuirii corecte a etichetei, însă aceasta nu spune prea multe despre calitatea adnotatorului. Acestă lucrare propune complexitatea textului ca un parametru calificativ adițional pentru a privi scorul procentual dintr-o perspectivă corectă. O măsură simplă este calculată ca și media numărului etichetelor per cuvânt. O măsură mai bună ar fi ignorarea punctuației din moment ce acesteia îi este întotdeauna atribuită o etichetă unucă. O măsură mult mai bună ar fi să se ia în considerare numai civintele ambigue, care lasă orice obiect care este unic catalogat procedurii de estimare.Complexitatea textului este un parametru folositor pentru estimarea acurateței cu care un text dat poate fi adnotat. Normalizarea textelor este necesară pentru a se putea lucra cu texte de diferite lungimi folosite în diferite experimente.
Urmatoarea diagramă reprezintă diferite modalități deabordare a etichetării POS.
SUPERVIZATE VS. NESUPERVIZATE
Una dintre primele distincții care pot fi făcute asupra adnotatoarelor POS se referă la procesul de pregătire a adnotatorului și procesul de etichetare, ceea ce include termenii de supervizat și nesupervizat. Adnotatoarele supervizate depind de corpus-urile pre-etichetate, care servesc ca și baze pentru creearea unor mecanisme care vor fi folosite în procesul de eichetare, de exemplu : etichetarea dicționarului, frecvențele cuvântului/etichetei, probabilitățile succesiunii etichetei și/sau regula aplicarii. Metodele nesupervizate, pe de altă parte sunt acelea care nu cer un corpus pre-etichetat, dar folosesc ăn schimb metode computationale care induc automat grupuri de cuvinte(ex. seturile de etichete(tagsets)) și se bazează pe aceste grupări automate ori pentru a calcula informațiile probabilistice necesare pentru mecanismele de etichetare probabilistice sau pentru a induce regulile de context necesare, prin sistemele de reguli de baza.
Cel mai puternic argument al folosirii etichetării automate în etichetarea POS este acela că este portabil. Din păcate realitatea este că corpus-urile pre-etichetate nu sunt ușor accesibile pentru multe limbi și stiluri care vor să eticheteze. Automatizarea totală a procesului de etichetare se adreseaza nevoii de precizie a etichetelor stilurilor și limbilor care nu au mai fost etichetate în prealabil, având în vedere faptul ca mâna de lucru necesară în acest proces este costisitoare și anevoioasă.
Următorul tabel scoate în evidență diferențele dintre cele două abordări.
Regula de bază tipică presupune folosirea informației contextuale, prin atribuirea de etichete cuvintelor necunoscute sau ambigue. Aceste reguli sunt adesea cunoscute ca și reguli fereastră de context(context frame rules).Ca și exemplu, o regulă fereastră de context spune ceva de genul: Dacă un cuvânt necunoscut/ambiguu X este precedat de un determinant si urmat de un substantiv, etichetează-l ca și un adjectiv.
det – X – n = X/adj
Asemănător informației contextuale, multe adnotatoare folosesc informația morfologică în procesul de dezambiguare. O asemenea regulă ar putea fi: dacă un cuvânt necunoscut/ambiguu se termina cu –ing si este precedat de un verb, categorisește-l ca fiind un verb(depinzînd de teoria gramaticii folosite).
Unele sisteme merg dincolo de folosirea informației morfologice si contextuale , incluzînd reguli referitoare la factori cum ar fi capitalizarea si punctuația. Informatia acestui tip de sistem este de o valoare mai mare sau mai mică, în funcție de limba care este etichetata. În Germania de exemplu, informația despre capitalizare se dovedeste a fi extrem de folositoare în etichetarea substantivelor necunoscute. (De ce?)
Regulile de bază ale etichetării de cele mai multe ori cer antrenament supervizat; dar, de curând se manifestă un mare interes asupra regulii inducției automate.O abordare a regulii inducției automate este de a supune un text neetichetat unui adnotator si de a observa cum se comporta. Apoi, resursele umane realizează toate operațiile până la ieșirile acestei prime faze și corectează orice cuvânt etichetat greșit. Textul etichetat corect este apoi dat adnotatorului, care învată regulile de corecție prin compararea celor două seturi de date. Câteva iterații ale acestui proces sunt cateodată necesare.
Etichetarea probabilistică
Orice model de adnotator care încorporează cumva frecvența sau probabilitatea, de exemplu statistici, poate fi denumit probabilistic.
Cele mai simple adnotatoare probabilistice dezambiguează cuvinte bazîndu-se doar pe probabilitatea ca un cuvânt să se identifice cu o anumita etichetă. Cu alte cuvinte, eticheta surprinsă cel mai frecvent în setul de antrenare este cea catalogată ca fiind instanța ambigua a acelui cuvânt. Problema acestei abordari este că în timp ce aceasta poate returna o etichetă validă pentru un cuvânt dat, poate deasemenea returna secvențe care nu sunt acceptate de adnotator.
O alternativa la folosirea frecvenței cuvântului este calcularea probabilității apariției unei secvențe de etichete date. Aceasta se referă, ca și abordarea n-gram, la faptul că cea mai bună etichetă pentru un cuvânt dat este determinată de probabilitatea ca ea să apară în etichetele precedente. Cel mai întalnit algoritm pentru implementarea unei abordări n-gram este cunoscut ca și Algoritmul lui Viterbi, care evită expansiunea polinomială a unei distanțe, prima data caută prin “trimming” în arborele de căutare la fiecare nivel folosind cel mai bun N Probabilitatea maximă estimată(unde n reprezinta numarul etichetelor următorului cuvânt).
Următorul nivel de complexitate care poate fi introdus intr-un adnotator probabilistic combină cele doua abordari anterioare, folosind atât probabilitățile apariției etichetei cât și mărimea frecvenței cuvântului. Aceasta este cunoscuta ca și un Model Markov ascuns(HMM). Caracteristicile care sublineaza acest model sunt următoarele:
Fiecare stare a unei etichete ascunse produce un cuvânt într-o propoziție. Fiecare cuvânt este:
1.Necorelat cu toate celelalte cuvinte si eticheta lui
2.Dependent probabilistic numai de cele N etichete anterioare
Adnotatoarele care folosesc ModelulMarkov ascuns si cele care folosesc Modelul Markov vizibil pot fi implementate folosind algoritmul lui Viterbi, și sunt printre cele mai eficiente dintre metodele de etichetare discutate aici. HMM-urile oricum nu pot fi folosite în schema etichetării automate, din moment ce ele depind de calculul statisticilor secvențelor de ieșire. Soluția problemei de a nu putea aplicat în învățarea automată a HMM-urilor, este de a folosi Algoritmul lui Baum-Welch, cunoscut deasemenea ca și Algoritmul Feed – Back. Acest algoritm folosește cuvântul mai degrabă decât informația etichetei pentru a construi iterativ o succesiune care imbunătățește probabilitatea datelor de lucru.
Cuvinte necunoscute
Singura problemă nediscutata dintre toate abordarile discutate până acum este: Cum trebuie să se lucreze cu cuvintele necunoscute? Anumite reguli ale etichetării prevăd rezolvarea acestei probleme, dar ce se intampla în modelele probabilistice? Cum putem calcula probabilitatea ca un cuvânt dat să se identifice cu o etichetă dată, dacă acel cuvânt este necunoscut adnotatorului. Există câteva soluții ale acestei probleme: una este folosirea informației morfologice. În acest caz adnotatorul calculează probabilitatea ca un sufix al unui cuvânt necunoscut sa se identifice cu o etichetă particulară.Dacă se folosește un HMM această probabilitate este calculată automat. Altaă soluție este de a fixa un set de etichete initiale(tipic claselor deschise: N, V, Adj., Adv.) cuvintelor necunoscute, și să dezambiguăm folosind probabilitațile etichetelor rezultate la sfârșitul căutării n-gram. O altă posibilitate este să se calculeze probabilitatea ca fiecare eticheta din setul de etichete sa se identifice la sfarșitul n-gram-ului, și să se selecteze calea cu cea mai mare probabilitate. Aceasta nu este solutia optimă dacă se lucreaza cu un set mare de etichete.
Efectuarea calculelor:
Dacă folosim abordarea probabilistică in etichetarea POS, este obligatoriu să facem toate calculele necesare pentru a determina valorile n-gram-ului, bazate pe valorile intermediare ale frecventei.
În vederea creării unei matrici de probabilități intermediare, este necesar să începem cu un corpus etichetat pe care sa se bazeze estimarile acestor probabilitați. Pentru relevanța expunerii, se vor lua în considerare măsurile de determinare a acestor valori folosind un model bigram, de exemplu vom baza estimarile noastre pe un context asemănător cuvintelor și nu vom lua in considerare nici un context care să difere prin mai mult de un cuvânt.
Primul pas in acest proces este de a determina probabilitatea apariției fiecarei categorii. Aceasta este o problema simplă de calcul a probabilității. În vederea determinării probabilității apariției unui substantiv într-un corpus dat, vom împărții numărul total al substantivelor la numărul total al cuvintelor. Astfel, dacă avem un corpus de o sută de cuvinte și douazeci dintre acele cuvinte au fost substantive, probabilitatea estimată a apariției unui substantiv va fi 20%. Similar, dacă ar fi fost 30 de determinanți în același corpus, probabilitatea apariției unui determinant ar fi de 30%.
Mai departe, ne confruntăm cu problema determinării probabilității succesiunii cuvintelor, care sunt esențiale pentru a calcula de câte ori apare evenimentul, din aceasta rezultînd apariția altui eveniment. Aceasta este cunoscută ca și probabilitate conditionată, pentru care formula generală este:
PROB(e | e') = PROB(e & e') / PROB(e')
Din această formulă deducem: probabilitatea apariției unui eveniment e este dată de apariția unui alt eveniment e', care este egală cu probabilitatea apariției ambelor evenimente împărțită la probabilitatea apariției lui e'.
Putem folosi această formulă în determinarea probabilităților intermediare în felul următor: presupunem că vrem să determinăm probabilitatea ca un substantiv să fie urmat de un determinant. Introducem aceste categorii in formula probabilității:
PROB(noun | det) = PROB(det & noun) / PROB(det)
Probabilitatea aparitiei unui substantiv care dă apariția unui determinant este egală cu probabilitatea apariției unui determinant și a unui substantiv în același timp, împărțit la probabilitatea apariției unui determinant. În practică (o altă variantă a acestei formule) se folosesc mai degrabă frecvențele categoriei decât probabilitățile categoriei.
Numărul probabilităților unui corpus este egal cu numărul etichetelor din setul de etichete, la pătrat. Categoriile de inceput ăi de sfarăit sunt incluse în calculul lui N la pătrat.
Oricum in formula probabilităților condiționate există un inconvenient, deoarece oricum trebuie determinate probabilitățile intermediare. Problema este că cuvintele care au cea mai mare fercvență, cum sunt substantivele, sunt favorizate pe parcursul procesului de dezambiguare, rezultînd o descreștere a preciziei sistemului. Problema este că frecvența categoriei la i-1 nu a fost niciodata luată în considerare. Soluția este de a modifica puțin ecuația, incluzînd frecvența cuvântului în context:
PROB(Cat i = noun | Cat i-1 = det) Count(det at position i-1 and noun at i) / (Count(det at position i-1) * Count(noun at position i))
În această nouă formulă, împărțitorul este produsul frecventțelor cuvintelor în bigram, mai degrabă decât numai frecvența cuvântului în context.
Ultimul pas în procesul de dezambiguare probabilistică de baza este folosirea probabilităților intermediare calculate doar pentru a determina calea optimă prin spațiul de căutare trecaînd de la o etichetă neambiguă la următoarea. Cu alte cuvinte este necesar să implementăm un algoritm de căutare care va permite doar anumite calcule în procesul de dezambiguare. În algoritmul pe care l-am luat in considerare aici, produșii probabilităților intermediare au fost folosiți la fiecare nod. Principiul care permite acestui tip de formulă să fie folosită este cunoscut ca și presupunerea lui Markov, ceea ce ia cu valoare de adevăr faptul că probabilitatea apariției unei categorii particulare depinde numai de categoria intermediară care o precede. Algoritmii care se bazează pe presupunerea lui Markov de a determina calea optimă sunt cunoscuți ca și modelele lui Markov. “Un model Markov este ascuns atunci când nu se poate determina starea succesiunilor care au parcurs baza iesirilor pe care le-am observat”. (Manning, Chris, Corpora List correspondence). Eficiența modelului Markov este cel mai bine observată când se folosește în combinație cu câteva forme ale celui mai bun algoritm de căutare, astfel că se evită problema timpului polinomial, așa cum se arată mai jos.
Un exemplu de execuție
Considerăm propoziția “The man still saw her”, care conține ambiguități rezumate în tabela următoare:
AT=article, NN=noun, VB=verb, RB=adverb, VBD=past-tense-verb, PPO=object pronoun and PP$=possessive pronoun
În vederea determinării setului de etichete optim pentru această propoziție vom avea nevoie de asemenea de o tabelă care să contină probabilitățile intermediare:
Căutarea etichetei incepe cu articole neambigue. Expandând arborele de căutare pentru a include stările următoare, căile posibile devin (AT-NN) si (AT-VB). Acum căutăm probabilitățile intermediare pentru aceste două căi în tabela 3 și aflăm că p(AT -NN) = 186 și p(AT – VB) = 1. Deoarece, în acest moment, existî o singurî cale la fiecare etichetă pentru cuvantul ‘man’ păstrăm ambele căi și expandăm din nou arborele. De aceasta dată sunt nouă căi de luat în considerare. Probabilitatea pentru fiecare dintre aceste căi este obținută multiplicînd probabilitatea ultimei tranziții cu probabilitatea întregii căi la acest punct. Cea mai bună cale la fiecare etichetă unică va fi păstrată, în acest caz p(AT – NN – NN) = 744, p(AT – NN – VB) = 1674 si p(AT – NN – RB) = 7440. În acest moment, funcția de baza a algoritmului a fost explicată.
Etichetarea POS este adesea văzuta ca și prima etapă a adnotarii sintactice, care fixeaza marcajul frazei, fiecarei propozitii a corpusului, în contextul unei structuri gramaticale de frază. Corpusurile rezultate în urma analizei sunt cunoscute ca și ‘banci de arbori’. (referinta)
IV. Aplicații făcute pentru alte limbi
Aplicarea Modelului adnotatorului POS indus in proiectia etichetelor Engleza-Chineza(Karina Ivanetich, Departamentul de stiinta computerelor, Mills College)
Unele limbi(ca engleza) sunt bogate in resurse adnotate, în timp ce multe alte limbi au puține (sau deloc) date adnotate. În plus, adnotarea făcută de catre om, deși are o acuratețe ridicată, este costisitoare atât din punct de vedere al timpului cât si al banilor. O soluție este să se folosească etichetele POS dintr-o limbaă deja adnotata într-o altă limbă. Aceasta este numită proiecția etichetelor POS. În prezent, cercetatorii David Yarowsky si Grace Ngai (2001) sunt singurii cercetatori care au făcut cunoscut modelul proiecției. După ce au modificat datele proiectate din engleză în franceză, au obținut o acuratețe la un nivel promițător.
Karina Ivanetich a inceput investigarea etichetarii POS din engleză în chineză, sub îndrumarea Dr. Rebecca Hwa(Departamentul de știință a computerelor, Universitatea din Pittsburgh).Ca și punct de plecare, s-a făcut o retrospectivă la modificarile lui Yarowsky & Ngai, folosind proiecțiile etichetelor POS din Enleză în Chineză. Deoarece chineza diferă de engleză mai mult decât franceza, se observă că modelul lui Yarowsky & Ngai se aplică proiectiei enleză-chineză la fel ca în cazul proiecțiilor engleză-franceză.
Una dintre cele mai mari probleme în procesarea computaționala a limbii chineze este identificarea cuvintelor dintr-o propozitie. Din moment ce nu sunt spații care să marcheze limitele cuvantului, identificarea cuvintelor este dificilă din cauza ambiguităților segmentațiilor și aparițiile cuvintelor “necunoscute” vocabularului. Metoda invățării bazate pe corpus derivă seturi de reguli sintactice care sunt aplicate pentru a distinge cuvintele monosilabice din unitățile lingvistice monosilabice care pot fi părți ale cuvintelor necunoscute sau ale unor erori tipografice.
V. Prezentarea aplicației
In ultima parte (cu etichete Engleza-Chineza), eu zic ca este preferabil sa extragi (prezinti) metoda folosita, si la sfarsit dai exemple cu cine a implementat-o si ce a obtinut (precizie, pentru ce limbi,etc.)
Cuprins:
1. Introducere.
2. Prezentare NLP.
– Introducere in Natural Language Processing(NLP);
– Recunoasterea scrisului;
– Recunoasterea vorbirii.
Intra ca introducere; aici un trebuie o prezentare prea detaliata
3. Cercetarea in Prelucrarea Limbajului Natural.
– Probleme abordate;
– Aplicatii – In limba romana;
– In alte limbi.
Din 1,2 si 3 eu as face o singura sectiune, ceva de genul: Locul adnotarii POS in NLP
4. Sumarizarea automata a textelor.
– Descriere;
– Exemplu de sumarizare.
Un e tema lucrarii tale
5. Etichetatarea POS
– Metode supervizate si nesupervizate;
– Etichetare stocastica;
– Cuvinte necunoscute;
Exemplu.
Eu un l-as numi exemplu. Vrei sa prezinti in aceasta sectiune programe (si unelte) existente in domeniu?
6. Invatare automata(adnotator POS indus)
– Descriere;
– Exemplu.
Axata pe partea de adnotare POS cu invatare automata; eu l-as include in sectiunea precedenta
7. Concluzii.
8. Referinte.
Nu intra ca titlu/ sectiune.
Eu as introduce un capitol in care prezinti aplicatia: cum se incadreaza aplicatia in contextul general al aplicatiilor din domeniul adnotarii POS, ce face, la ce e buna, care este interfata, etc. .
RUGAMINTE:
In urmatoarea versiune pe care mi-o dai, ceea ce modifici/completezi la acest document sa scrii cu alta culoare (de exemplu albastru, sau verde) si sa lasi comentariile mele cu rosu.
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Adnotare Pos Aplicatie Pentru Limba Romana (ID: 149346)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
