Neamtu R. Madalina -Catalina Chapter [609313]

UNIVERSITATEA ”SPIRU HARET” BUCUREȘTI
FACULTATEA DE INGINERIE, INFORMATICĂ ȘI GEOGRAFIE,
BUCUREȘTI

LUCRARE DE LICENȚĂ

Coordonator: Prof. univ. dr. G. Albeanu

Student: [anonimizat]2019 –
UNIVERSITATEA ”SPIRU HARET” BUCUREȘTI

Neamtu R. Madalina -Catalina Chapter
– 2 –
FACULTATEA DE INGINERIE, INFORMATICĂ ȘI GEOGRAFIE,
BUCUREȘTI

PRELUCRAREA LIMBAJULUI
NATURAL PRIN INTELIGENTA
ARTIFICIALA

Coordonator: Prof. univ. dr. G. Albeanu

Student: [anonimizat]2019 –
CUPRINS

Neamtu R. Madalina -Catalina Chapter
– 3 –
CAPITOLUL I
1. Scurta introducere in Natural Language Processing
1.1 Introducere
1.2 Importanta temei
2. Justificarea alegerii temei
3. Rezumat lucrare

CAPITOLUL II
4. Prezentari conceptuale si cadrul teoretic
4.1 Incadrarea temei
4.1.1 Context general
4.1.2 Istoria si definirea inteligentei artificiale
4.1.2.1 Istorie
4.1.2.2 Testul Turing
4.2 Natural Language Processing
4.2.1 Prezentarea conceptului NLP
4.2.2 Utilizari
4.2.3 Procedeu de functionare
5. Trecerea in revista a abordarilor existente
5.1 Machine Translation
5.2 Question Answering
5.3 Sentiment Analysis
6. Continutul altor realizari in domeniu
6.1 Eye Tracking
6.2 MoodBot
7. Limitarile si Viitorul NLP
8. Notiuni de etica si morala

CAPITOLUL III
9. Dezvoltare aplicativa
9.1 Obiective
9.2 Concepte cheie utilizate
9.3 Prezentarea mediului de lucru
9.4 Detalii de implementare
9.5 Modul de utilizare a programului

CAPITOLUL IV

10. Concluzii
Bibliografie
Anexe

Neamtu R. Madalina -Catalina Chapter
– 4 –
Capitolul I
INTRODUCERE

Natural language processing este tehnologia dezvoltata pentru a înzestra calculatoarele cu abilitati
lingvistice atat pentru a intelege cat si pentru a genera conversații. Natural language processing,
prescurtat (NLP), sau “Computational Linguistics” este o ramura a inteligentei artificiale, axata
pe comunicarea intre calculatoare si oameni fol osind limbaj conventional. Procesul implica in
general traducerea limbajului natural in date pe care calcuatorul le poate procesa (numere) si
folosi pentru a invata mai multe despre mediul observabil. Desi are foarte multe aplicatii, unele
dintre ele pe ca re le folosim in mod curent, scopul final al NLP este de a citi, descifra, si inelege
limbajul intr -o mod de o valoare deosebita. Unele programe pot duce aceste informatii la un nivel
mai avansat si anume sa le foloseasca pentru a purta conversatii, abilit ate demonstrata in aplicatia
practica a acestei lucrari.
Masinile au procesat limbaje inca de la inventarea lor precum Fortran, EDSCAC sau COBOL
pana in timpul prezent unde lista limbrajelor de programare contine un numar ametitor de 700 de
nume si metode. Ca si comparatie “Ethnologue”, considerat cel mai cuprinzator index publicat,
detaliaza o lista de 6,909 de limbi diferite vorbite de oameni de -a lungul timpului.
In afara de disciplinele tehnice NLP isi trage radacinile si din lingvistica, una din cele mai vechi
stiinte si se ocupa cu descoperirea legilor ce guverneaza formarea si analiza limbajului. Desi idea
de a da calculatoarelor abilitatea de a procesa limba oamenilor nu este noua, aceasta a fost
folosita numai recent in aplicatii iar Internetul a adus o complet alta perspectiva asupra studiului
lmbii. Procesarea limbajului natural se concentreaza pe procesarea straturilor precum analiza
lexicala care include analiza morfologica si fonetica, analiza sintactica, semantica si analiza
pragmatica a disc ursului care segmenteaza textul pentru o intelegere mai buna.
Importanta temei
Importanta NLP este incontestabila, ea da forma societatii in moduri indirecte si influienteaza
direct calitatea informatiei pe care o primim si din moment ce informatia i nseamna putere, ne
putem doar imagina cum ramura aceasta va da forma viitorului. Indexul de cautare este prima
forma de success a procesarii limbajului. Acum indexarea este din ce in ce mai rapida alimentata
de algoritmi NLP, in conditiile in care GOOGLE estimeaza cantitatea de informatii la 100 de

Neamtu R. Madalina -Catalina Chapter
– 5 –
milioane de gigabytes cu 30 de trilioane de pagini indexate, comparativ cu anul 2008 cand avea 1
trilion de pagini. Necesitatea dezvoltarii NLP a crescut progresiv si interdependent cu cresterea
cantitatii de da te dar si de puterea de procesare/stocare a calculatoarelor. Mai multe motive care
sustin importanta majora a NLP sunt legate de datele nestructurate, se estimeaza ca doar 20% din
datele importante intr -o afacere sunt intr -un format care poate fi folosit p entru procesare si
dezvoltare ulterioara (tabele, acte, facturi, piecharts, diagrame), restul de 80% ar trebui clasificat
manual care, pe langa timpul extins ar insemna si costuri ridicate. Daca aceasta este proportia
intr-o afacere unde este nevoie si se impun statistici si date, in restul domeniilo, mai putin
birocratice, procentul nu poate fi estimat. NLP vine si in ajutorul cercetatorilor, ii ajuta sa faca
fata la cantitatea de date dar, tine si pasul cu nevoile acestora prin triajul datelor, contribuin d la o
viata mai usoara si descoperi semnificative in diverse domenii. Un motiv mai profund pentru
dezvoltarea si importanta NLP este accelerarea dezvoltarii domeniului “mama” si anume
inteligenta artificiala. Ratiunea umana este capacitatea de a colecta g andurile si experientele in
pachete cu inteles pe care le putem stoca si pe care le putem folosi mai tarziu, similar, pentru a
ajunge la o forma atemporala de cunoastere avem nevoie de date bine interpretate .

Justificare alegerea temei
Tinand cont de ace stea, nu pot alege un singur motiv pentru care am ales tema, asa ca voi
enumera cateva. Pentru inceput tehnologia bazata pe NLP este extrem de utilizata (pe o parte din
aplicatii le -am acoperit mai sus, pe altele urmeaza) si raspandita in aproape toate zon ele globului,
cu precadere in America de Nord. Acopera toate sectoarele majore ale vietii de la cel de sanatate,
comunicatii, media, finante, chiar manufactura si multe altele.
Un alt motiv este nevoia de implementare a acestei tehnologii, cantitatea enor ma de informatii
care necesita procesare este in continua crestere, mare parte din aceasta fiind nestructurata. Ca un
plus consider ca informatia va deveni din ce in ce mai portabila prin telefoane mobile si senzori,
ce vor transmite constant cantitati eno rme de date, fiind nevoie de o selectie riguroasa pentru a -si
indeplini scopul. Alissa Lorentz, pune lucrurile in perspectiva, ea explica in 2013 ca “1 Exabyte
(10^18) de date este creat pe internet in fiecare zi, echivalentul a 250 de milioane de DVD -uri.
Umanitatea produce in doua zile aceeasi cantitate de date produse de la inceputul civilizatiei pana
in 2003 si, cum IOT devine realitate si mai multe obiecte fizice incep sa fie conectate la internet,

Neamtu R. Madalina -Catalina Chapter
– 6 –
vom intra in Brontobyte (10^27) Era ”1. Alte date uimitoare care vin in sustinerea argumentului
necesitatii: 40.000 de cautari sunt facute in fiecare secunda prin motorul de cautare Google, pana
la 20% dintre acest ea nu au mai fost cautate niciodata, o singura intrebare strabate 1000 de
calculatoare pentru a returna un raspuns 2, mai mult de atat, in Ianuarie 2019 erau 4.5 miliarde de
utilizatori de internet pe planeta 3.
Pentru a alege tema m -am concentrat si pe p iata de servicii NLP. Scopul final, acela de a intelege
si a produce un limbaj inteligibil a devenit un punct de interes al companiilor. Cererea crescuta de
modalitati prin care sa se faciliteze experienta clientilor incurajeaza companiile de IT sa includa
din ce in ce mai multe solutii si servicii NLP. La momentul actual procesarea limbajului natural si
inteligenta artificiala este abordata de numerosi numerosi furnizori, fapt ce stabileste o competie
sanatoasa si o calitate mai mare a serviciilor la pretu ri avantajoase. Printre acestea se numara
Apple Inc., Hp,. Microsoft Corp., IBM Corp, Google Inc.,
Nu poate fi vorba de evolutie intr -un domeniu fara resurse vaste de care incepatorii sau expertii
se pot folosi. In cazul NLP domeniul dispune de suficiente, atat educationale precum conferinte
pe subiect, tutoriale, nano -degrees, bloguri carti, lucrari de specialitate dar si free -resources
precum si pentru partea practica. Posibilitatea de avansare in domeniu, aria larga acoperita de
programatori si cercetatori se datoreaza unei contributii colective care va ramane o resursa
valoroasa in timp si va sedimenta calea catre descoperiri de domeniul incredibilului.
Roadmap
Lucrarea de fata se concentreaza pe Natural Language Proceesing , o tehnica ce da calculatoarelor
abilitatea de a intelege, analiza, manipula si in final genera limbajul uman.
In prima parte a lucrarii , cititorul este introdus in concepte generale ale NLP, cateva informatii
scurte sustinute, mai apoi, de importanta NLP in viata cotidiana. Desi capitolul despre importanta
vorbeste de la sine, am adaugat in continuare cateva dintre motivele care m -au determinat sa aleg
sa cercetez tema in profunzime.
Capitolul II abordeaza tema din toate unghiurile sale, de la incadrarea in disciplina principala,
computer science, la o extindere catre partea computationala care a facut posibila ramificarea

1 “With Big Data, Context is a Big Is sue,” Wired Innovation Insights, 23 April 2013
2 https://www.internetlivestats.com
3 https://www.statista.com

Neamtu R. Madalina -Catalina Chapter
– 7 –
NLP, Inteligenta artificiala. In continuare este prezentata istoria inteligentei artificiale, unde se
paote observa rolul avut de NLP in fiecare descoperire din domeniu dar si cel mai celebru test
gandit special pentru a provoca procesarea limbajului Turing Test. Am ales sa introduc acest
subcapitol deoarece consider ca dorinta de a trece acest test celebru a adus contributii masive in
domeniul procesarii limbajului natural dar si pentru ca este gandit special sa abordeze principala
problema a NLP, mimarea emotiei si a intelegerii straturilor profunde din conversatii.
In profunzimea inteligentei artificiale se regaseste Natural Language Processing, deci, pentru a
continua pe aceeasi traictorie am inceput dezvoltarea subiectului cu vasta sa istorie si am
continuat cu utilizarile sale, utilizari ce vor fi dezvoltate si mai tehnic in urmatorul capitol. Pentru
ultima parte a acestui subcapito l voi explica exact functionarea si formarea unui NLP.
In capitolul 5 vorbesc in amanunt despre abordarile actuale ale procesarii de limbaj. Capitolul 6
prezinta cateva realizari in domeniu. Aici am ales sa nu prezint colosi ai pietei, orientate spre
bussines ci cateva proiecte interesante care au prins viata din dorinta de a crea o lume mai buna
dar si alte cateva exemple amuzante sau surpinzatoare care consider ca trebuie mentionate. Ca in
orice domeniu exista limitari, fie ca este vorba de capacitatea f izica, de procesare sau de abilitati
umane. NLP are si el limitele sale dar asta nu inseamna ca nu are viitor. Impreuna cu granitele ce
deocamdata nu isi gasesc solutionare, voi trece la extrema cealalta si voi detalia perspectivele de
viitor ale procesari i de limbaj. Orice lucru dificil de inteles, impune teama si contradictii iar NLP
nu face exceptie. Am ales sa acopar si aceasta latura care pare a fi o tema recurenta in intelgenta
artificiala, de la teama justificata ca masinariile automate vor prelua ma re o parte semnificatica
din job -urile oamenilor la cea mai putin justificata ca vom ajunge sa fim condusi la propriu de
masinarii, subcapitolul surprinde notiuni de etica si morala a tehnologiei NLP.
In partea a treia si cea mai avansata parte planuiesc s a demonstrez intr -o masura capacitatea
tehnologiei de procesare a limbajului prin construirea unui ChatBot. Alaturi de acesta voi
prezenta mediile de lucru folosite dar si detalii specifice de implementare.
Ultima parte a lucrarii va gazdui concluzia atat a partii teoretice cat si a celei practice.

Neamtu R. Madalina -Catalina Chapter
– 8 –
CAPITOLUL II

Incadrarea temei

Natural Language Processing este o ramura a informaticii, derivata din inteligenta artificiala care
se ocupa de interacțiunea intre computer si limbajul vorbit de oameni functionand practic, ca un
pod inteligent intre oameni si masinarii.
Figura 2.1 exemplifica clar delimitarea dintre nodul principal reprezentat de inteligenta artificiala
si ramurile conexe ale acesteia. Aceasta nu este si nu poate fi un mod definitiv de a exprima
diviziunile domeniului AI. In unele cazuri se considera ramura “speech” ca parte integrata a
tehnologiei de procesare a limbajului insa mai mult de atat unele ramuri se interpun. In cazul
NLP acesta are legaturi stranse cu Deep Learing, fapt ce v a fi acoperit in unul din capitolele de
mai jos dar are aplicatii si cu ramura Image Recognition.
In ANEXA 1 acestei lucrari se afla un grafic detaliat al NPL care clasifica extensiv domeniul,
tehnologia si utilizarile sale.
Cert este ca nu putem delimit a ramurile inteligentei artificiale ca tehnologii de sine statatoare,
izolate complet unele de altele, informatiile si sursele pot varia dar concluzia este aceeasi,
combinate sau separat, aplicatiile din inteligenta artificiala sunt uluitoare si greu de vizualizat
pentru creierul uman. De aceea si pentru a intelege mai bine tema noastra merita sa intram mai in
detaliu asupra a ceea ce inseamna Inteligenta Artificiala.

Neamtu R. Madalina -Catalina Chapter
– 9 –

Istoria si definirea inteligentei artificiale

Rata accelerata a descoperirilor AI este coplesitoare. Dupa cateva ”Ai Winter” si perioade de
sperante false, evolutia rapida a capacitatii de stocare si de procesare a calculatoarelo r a schimbat
dramatic soarta masinilor inteligente.

Termenul de inteligenta artificiala a fost initial propus de Jhon McCarthy intr -o conferinta in
campusul colegiului Darthmouth, in vara anului 1956, pe care acesta l -a descris ca fiind ”stiinta
de a face masini inteligente” insa conceptul a aparut ceva mai devreme, in timpul celui de -al
Doilea Război Mondial cand Alan Turing a lucrat la spargerea codului ”Enigma”, folosit de
germani sa trimita mesaje criptate. Alan si echipa sa au creat ”Bombe”, masina ca re descifra
automat mesajele. ”Enigma” si ”Bombe Machines” au pus bazele Machine Learning.
Ideea ca masinile pot opera cu aceeasi capacitate ca si oamenii a inceput sa fie centrul
cercetariilor stiintifice cu precadere de legate de nume precum Allen Newe ll si Herbert Simon.
Tot in anii 50, McCarthy a inventat limbajul LISP, conceput initial ca un model de calcul, acesta
a devenit cel mai folosit limbaj pentru creearea aplicatiilor de inteligenta artificiala.
Inante de o perioada de latenta bine cunoscuta , in 1969 se lanseaza Shakey, primul robot cu scop
general capabil sa gandeasca propriile actiuni. In timp ce alti roboti necesitau instructiuni precise
Shakey lua decizii referitoare la propriile sale actiuni in functie de imprejurari. Construia o arta
spatiala in functie de ce detecta si o adapta constant odata ca fiecare miscare realizata. Desi Figură 2.1 sursa: https://www.process.st

Neamtu R. Madalina -Catalina Chapter
– 10 –
impresionant pentru acele vremuri, Shakey era extrem de incet, unele miscari durau pana la o ora
si orice obiect intalnea in cale ii bloca permanent.

In ciuda al ocarii mari de fonduri pe parcursul anilor, programatorilor le -a fost dificil sa creeze
masini inteligente. Pentru a fi semnificative, aplicatiile AI aveau nevoie de o putere mare de
procesare. Calculatoarele nu erau destul de dezvoltate sa faca fata neces arului enorm de date.
Astfel, intre anii 1970 -1990 domeniul AI a cunoscut o perioada numita ”AI Winter”, referire la o
perioada stagnanta ca in cea a iernii, unde milioane au fost cheltuite dar realizarile au fost
limitate.

Dupa anii 90 interesul pentru AI a revenit si s -a extins catre toate natiunile, in 1997 IBM’s Deep
Blue a devenit primul calculator care l -a batut pe campionul sahului, Gary Kasparov. Aceasta
reusita a fost cu atat mai importanta cu cat sah -ul a fost considera t mult timp un joc de intelect, si
multi cercetatori au considerat o masina capabila sa joace sah o marca veritabila a masinilor
inteligente. Deep Blue a analizat aproximativ 200 de milioane de miscari posibile pe secunda, in
timp ce oamenii sunt capabili de aproape 50. Castigul nu a fost considerat unul impresionant din
punct de vedere stiintific deoarece Deep Blue este o masina de tip A (”foloseste forta bruta”), in
timp ce oamenii au memorie limitata si au nevoie de strategii creative pentru a castiga.

Timpul a trecut iar inteligenta artificiala a ramas in urma predictiilor si a multitudinii de romane
SF care au ridicat asteptarile. In 2002 iRobot a creat primul robot comercial de succes –un
aspirator automat numit Roomba. Desi curatarea podelei era depa rte de ceea ce Isac Asimov,
Stanley Kubrick sau Stanisław Lem si -au imaginat, Roomba era capabil sa curete eficient casa
prin intermediul unor senzori si algoritmi simpli

In 2005 interesul armatei, in special cea americana se redirectioneaza pe roboti aut onomi, astfel
prinde ”viata” BigDog un robot autonom patruped, stabil la miscari creat de Boston Dynamics in
speranta ca va servi drept acompaniament pentru misiunile pe teren prea dificil pentru masinile
conventionale. Proiectul a fost abandonat dupa ce s-a dovedit prea zgomotos pentru scopul sau.

Neamtu R. Madalina -Catalina Chapter
– 11 –
Compania iRobot se extinde si in acest domeniu, prin proiectul sau PackBot, un robot pentru
detectia si eliminarea bombelor, deasemenea trimis si in zonele periculoase si non -accesibile din
municipiul Fukushim a . Datele oficiale afirma ca peste 2000 de roboti de acest gen au fost
raspanditi in Irak si Afganistan.
Odata ce problema sahului a fost ”rezolvata”, atentia s -a concentrat pe un alt tip de joc care difera
de sah prin numarul mai mare de mutari posibile intr-un moment (mai mult de 200 fata de
aproximativ 40 la sah) si de faptul ca victoria nu este determinata de un anumit punct ci de o
intelegere mutuala intre jucatori dar si de o analiza extensiva a tablei pentru a determina daca s -a
ajuns in faza termin ala de mutari. Dupa mult timp in care s -a crezut imposibil, in 2016 AlphaGo
de la Google invinge maestrul de Go, Lee Se -dol jucand un joc aproape perfect. Conform
DeepMind tehnica folosita a fost repetitia ”A jucat singur, diferite variante ale sale, de m ilioane si
milioane de ori, de fiecare data a devenit un pic mai bun – invata din greseli ”
Desi poate suna relativ simplu, in 2008 iPhone odata cu noul iPhone o noua aplicatie,
recunoastere vocala de la Google. Desi recunoasterea vocala a fost unul din sco purile principale
ale inteligentei artificiale, pana atunci, zeci de ani de inestitii nu au anuntat acuratete ridicata.
Dupa cativa ani de utilizare, milioane de useri si mii de calculatoare performante, Google
pretinde o acuratete de cel putin 92% prin in vatarea fluctuatiilor de volum, accente, diferentierea
de zgomote

Inteligenta artificiala a continuat sa fie folosita in domenii precum analiza imaginilor, language
processing, robotica, reclame directionate si imbunatatirea modelelor de bussiness, recun oastere
faciala, medicina, biologie etc

Testul Turing

Potrivit lui Turing o masina care poate conversa cu oamenii fara ca acestia sa isi dea seama ca
este o masina poate fi catalogata ca o masina inteligenta, astfel a aparut ”Testul Turing ”.Testul

Neamtu R. Madalina -Catalina Chapter
– 12 –
are scopul ca un participat sa determine daca la capatul celalalt a unei masini se afla un calculator
care genereaza textul sau o persoana, ambele optiuni fiind posibile. Partea dificila nu consta
numai in a pacali interlocutorul ca la capatul celalalt este o fiinta cu ratiune dar a insela o
persoana care este deja suspicioasa si stie ca unul dintre interlocutori este un robot.
Testul a creat multe obiectii, in special legate de memorie dar si de natura teologica( sufletul dat
de Dumnezeu este necesar pentru a crea o fiinta cu ratiune) sau argumente matematice. Una din
cele mai importante contradictii ale testului este cel ca o masina care doar imita un om nu va fi
niciodata indeajuns de umana deoarece exista o multime de aspecte in ceea ce este considerat a fi
uman, iar testul va fi trecut de masini incapabile sa creeze din emotie sau sa interpreteze
subiectiv. Turing a raspuns prin a spune ca de unde vine impresia de sentimente este neimportant,
ce conteaza este masina este capabila sa convinga interlocutoru l ca exista sentimente, similar cu
modul in care oamenii comunica sentimente false. Astazi putem considera ca o masina poate fi
considerata inteligenta fara a trece ”Testul Turing” deoarece exista mai multe aspecte precum a
avea credinte, motivatie, emotii sau, a rezolva probleme de care software -urile inteligente sunt
capabile fara a imita cu exactitate oamenii.
In anul 2014 un program numit Eugene Goostman care simuleaza un aiat de 13 ani ucrainean,
este considerat ca a trecut Testul Turing la limita. Ina inte niciun alt computer nu l -a trecut sub
aceste conditii desi, unii experti in inteligenta artificiala au disputat victoria, sugerand ca sansele
au fost inclinate in favoarea chatbot -ului. Pe 7 iunie, Eugene a convins 33% din juriu ca este om,
insa criti cile nu au ocolit aceasta reusita, sunt inca experti care considera ca nu suntem nici pe
departe de a trece cu adevarat testul si s -a ajuns la o conceptie comuna ca Eugen nu a trecut de
fapt testul ci doar a trisat in moduri care l -au facut sa castige.

Neamtu R. Madalina -Catalina Chapter
– 13 –

Prezentarea conceptului NLP

Cercetarile NLP in forma lor primara s -au dezvoltat pe o perioada lunga, incepand dinj anii 1950.
In 1950, Alan Turing a propus testul Turing pentru a evalua abilitatile unui computer de a
demonstra comportament inteligent, aproape identic cu cel uman. Acest test este baza pe
cobversatii in limbaj natural intre un om si un computer construit sa genereze raspunsuri cat mai
umane. In 1954 experimentul Georgetown IBM a demonstrat primul sistem de traducere automat
capabil sa traduca mai mult de 60 de propozitii rusesti in engleza.
Abordarile, bazate pe credinta ca cuonstintele limbajului in mintea umana este fixa inaintea
mostenirii genetice, a dominat majoritatea cercetarilor NLP intre aproximativ 196 si finele anil or
1980. Aceste abordari au fost numite rationale (Church 2007). Dominanta abordarilor rationale in
NLP a fost cauzata in principal de acceptarea raspandita a argumentelor lui Noam Chomsky pentru
o structura de limbaj inanit si cricicile acestuia fata de N -grame (Chomsky 1957). Postuland ca
parti cheie ale limbajelor sunt imprimate in creier la nastere ca parte a mostenirii genetice umane,
abordaril rationaliste s -au straduit sa creeze reguli “de mana” care sa incorporeze cunostinte si
mecaniste rationale i n sisteme NLP inteligente. Pana in 1980, cele mai de succes sisteme NLP, ca
“Eliza” pentru simluarea unui psihoterapeut Rogerian si “margie”, pentru structurarea informatiilor
din lumea reala in ontologii conceptuale, erau bazate pe seturi complexe de regu li calculate.
Aceasta perioada a coincis cu perioadele de prima dezvoltare a inteligentei artificiale,
caracterizate de inginerie comportamentala, ce erau “programe experti” in diferite domenii cu
cunostinte limitate asupra domeniilor lor de aplicabilitat e. Expertii au creat aceste programe
folosind reguli simbloc logice bazate pe reprezentarea atenta si inginerie a acestor cunostinte.
Aceste sisteme de inteligenta artificiale bazate pe cunostinte/informatii au tendinta de a fi eficiente
in rezolvarea prob elemor de domenii simple examinand “capetele” sau cei mai importanti
parametrii si ajungand la o solutie propice care sa fie luata in fiecare situatie specifica. Acesti
parametri “capete” sunt indentificati in avans de experti umani lasand parametri “coada ” sau cazuri

Neamtu R. Madalina -Catalina Chapter
– 14 –
neatinsi. Avand in vedere ca le lipsesc abilitati de invatare au dificultati in generalirea de solutii in
situatii sau domenii noi. Abordarea tipica in aceasta perioada este exemplificata de sistemul expert,
un sistem de calcul care simuleaza capacitatea de decizie a unui expert uman. Aceste sisteme sunt
formate sa poata rezolva probleme complexe rationalizand cunostintele. Primul; sistem a fost creat
in 1970 si apoi proliferat in 1980. Principalul “algoritm” folosit a fost sub forma interfetei “if-then-
else”. Puterea principala a acestor sisteme de inteligenta artificiala incipiente este transparenta sa
si deschiderea la interpretari in capabilitatile lor de a efectua rationalizari logice. Ca sistemele NLP,
Eliza si Margie, sistemele experte la inceputuri folosea cunostinte ale expertilor coraborate manual
care erau eficiente pentru probleme definite succint, desi rationalizarea nu putea sa faca fata
inceritudinii omniprezente in aplicatii practice.
In aplicatii NLP desemnate specific sistemelo r de dialog si intelegerea limbii vorbite, vor
fi descrise in capitolele 2 si 3 ale acestei carti, astfel de abordari rationale au fost reprezentate de
folosirea acuta a regulilor simbolice si ale modelelor. Shitele erau centralizate pe contructii
gramatic ale si ontologice, care, desi interpretabile si usor de actializat si corectat, au intalnit
dificultati severe in aplicarea in practica. Cand acest tip de sisteme functionau deseori funtionau
minunat; dar din nefericire acest lucru nu se intampla prea des, iar domenille ereau fortat limitate.
De asemenea, cercetariile asupra recunoasterii vorbirii si constructia sistemelor, o alta
provocare persistenta a NLP si inteligentei artificiale, in perioada erei rationaliste werau bazate
puternic pe padigma ingineri ei experte a cunoasterii, cum era analizat elegant in (Church si Mercer
1993). In perioada anilor 1970 si inceputurile 1980 abordarea sistemului expert in recunoasterea
vorbirii era destul de popular (Redy 1976; Zue 1985). Dar, lipsa abilitatii de a invata din date si de
a manui incetitudine in rationalizare era cu acuratete recunoscuta de catr cercetatori, ducand la un
al doilea val al recunoasterii vorbirii, NLP, si inteligenta artificiala.
Al doilea val NLP a fost caracterizat de exploatarea corpurilor d e date si a capacitatilor
(inca superficiale) machie learning de a folosi aceste date (Manning si Schtze 1999). Cat despre
structura si teorii legate de limbaj, acestea au fost resemnate si parasite in favoarea metodelor “data –
driven”, principalele abordar i dezvoltate in aceasta era fiind numite empirice sau pragmatice
(Churc si Mercer 1993, Churc 2014). O data cu cresterea posibilitatii de a citi date si a puterii
computationale, abordarile empirice au dominat NLP din 1990. O conferinta majora NLP a fost
numita “Metode Empirice in Procesarea Naturala a Vorbirii” (Empirical Methods in Natural

Neamtu R. Madalina -Catalina Chapter
– 15 –
Language Pricessing <EMNLP>) pentru a reflecta in mod direct pozitia/sentimentul pozitiv al
cercetarilor NLP in acearta era spre abordari empirice.
In contrast cu abor darile rationaliste, abordarile empirice presupun ca mintea umana incepe
doar cu operatiuni generale pentru asociere, recunoasterea tiparelor si generalizare. Supunerea
bogata la elemente senzoriale fiind necesare ca mintea sa poata invata structurile deta liate ale
limbajului natural. Raspandit in linvistica intre 1920 si 1960, empiricismul are o renastere din 1990.
Primele abordari empirice ale NLP se concentrau pe dezvoltarea modelelor generative ca si
modelul Markov ascuns (Baum si Petrie 1966), modelele de translatie IBM (Brown 1993), si
modelel de analiza cap -coada (Collins 1997) pentru a descoperi regularitatile limbajelor din corpuri
mari de date. De la finele anilor 1990, modelel discriminative au devenit abordare de facto pentru
o varietate de sarci ni NLP. Modele repezentative si metode NLP include modelul de entropie
maxima (Ratnaparkhi 1997), masinile pe suport vectorial (Vapnik 1998), domenii aleatorii
conditionate (Lafferty 2001), informatii maxime mutuale si clasificari minide de erori (He el al .
2008), si perceptie (Collins 2002).
Din nou, aceasta era a empiricismului in NLP a fost paralelizata cu abordarile
corespondente in inteligenta artificiala si de asemenea in recunoasterea vorbirii si computer vision.
S-a realizat abea dupa ce au fost pre zentate dovezi clare ca abilitatiile de invatare si perceptie sunt
cruciale pentru sistemele complexe de inteligenta aratificiala si lipseau in sistemele experte
populare in valul precedent. De exemplu, cand DARPA a deschis prima Mare Provocare pentru
sofare automatizata, majoritatea vehiculelor se bazau pe inteligenta atificiala axata pe tiparuri
cunoscute. Mult similar cu recunoasterea vorbirii si NLP, sofatul automatizat si 1A Joint
Introduction to Natural Language Procesing so Deep Learning 5 cercetato rii computer vision au
realizat imediat limitariile tiparelor cunoscute datorita necesitatii invatarii masinilor sa lucreze cu
incertitudini si sa abie abilitati de generalizare.
Empiricismul in NLP si recunoasterea vorbirii ina cst al doilea val a fost b azata pe machine
learning cu multe date, care acum le numim “superficiale” datorita lipsei generale de abstractii
construite de multe strate sau reprezentari “adanci” a datelor ce vor veni in al treilea val ce va fi
descris in sectiunea urmatoare. In macin e learning, cercetatorii nu trebuie sa se ingrijoreze cu
constructii precise si reguli exatce cum era nevoie pentru NLP bazate pe cunostinte si sisteme de
vorbire in primul val. Mai degraba, ei se concentreaza pe modele statistice ( Bishop 2006, Murphy
2012) sau retele simple neurale (Bishop 1995) ca un motor de baza. Ei apoi invata automat sau

Neamtu R. Madalina -Catalina Chapter
– 16 –
“regleaza” parametrii motorului folosid date de antrenament simple ca sa le faca sa manuiasca
incertitudini si sa atenteze sa generalizeze de la o conditie la alta s i de la un domeniu la altul.
Algoritmele si metodele cheie pentru machinae learning include EM (expectation -maximization),
retele Bayesiane, siport pentru masini vectoriale, copaci de decizie si, pentru retelle neurale,
alboritmi de propagare din spate.
Disponibilitatea alinierii la nivel de propozitie in datele de antrenament bilingual au facut
posibil obtinerea de traduceri ale cunostintelor nu dupa reguli ci direct din date, cu costul de a
inlatura sau ignora informatii structurate in imbaje naturale.
In zonele NLP letage de dialog si intelegerea limbajului vorbit, era empiricista a fost de
asemena marcata proeminent de abordari data -driven machinae learning. Aceste abordari au fost
potrivite pentru evaluare cantitativa si derivabile concrete. Se conce ntrau pe citirea a suprafete
intinse, dar superficiale, de text si domenii in loc de analize detaliate a texte foarte restrictive sau
domenii restrictive. Datele de antrenement nu erau folosite pentru crearea de reguli pentru
intelegerea limbajului si rasp underea cu o actiune dintr -un sistem de dialog, dar pentru a invata
parametrii de tstistici sau modele neurale automat din date. Astfle de pregariti au ajuta la reducerea
costurilor de dialog complex facut manual, si au ajutat la imbunatatirea robustetii i n fata erorilor
de recunoastere a vorbirii in limbajul vorbit, sisteme de intelegere si dialog. Mai exact pentru
componenta de sisteme de dialog, au fost introduse intariri puternice bazate pe deciziile Markov in
aceasta era. Cat despre intelegerea limbii vorbite metodele dominante s -au mutat de la cele bazate
pe reguli sau tipare, ca cele din primul val, la modele generative, ca Modelul ascuns Markov
(HMM), la modele discriminative, ca domenii aleatorii conditionate. Similar, in recunoasterea
vorbirii, in decursul a 30 de ani, de la inceputurile 1980 pana in jurul anilor 2010, domeniul a fost
dominat de machine learning folosind modele generative statistice bazate pe HMM integrate cu
amestec de modele Gausiene imprenua cu diferite versiuni ale generalizari i acestora.
Pe cand sistemele NLP, incluzand recunoasterea vorbirii, intelegerea limbajului si tradcerea
automatizata, dezvoltate in al boilea val se comportau mult mai bine si cu o robustete mai mare
decat cele din primul val, ele erau departe de nivelul uman si lasau de dorit. Cu cateva exceptii,
modelele machine learning pentru NLP de multe ori nu avea capacitate suficient de mare pentru a
aabsorbi cantitatile imense de date de antrenament. Si mai mult, algoritmii de invatatre, metode si
infrastructurile nu erau destul de puternice. Toate acestea s -au schimbat acum cativa ani, o data cu

Neamtu R. Madalina -Catalina Chapter
– 17 –
aparitia celui de -al treilea val de NLP, propulsat de paradigma de machine learning adanc
structurata sau deep learning.
In ciuda succesului modelelor discriminative in ma i multe sarcini NLP din al doilea val, ele
suferea de dificultati in acoperirea regularitatilor in limbaje, iar pe langa problema de date
imcomplete suferea si de raritatea problemelor, avand o masa de date mult mai mica, lucruri care
erau intr -o masura co rectate manual de catre om. Deep learning adreseeaza caracteristica umana in
problema, cu o viziune numita “NLP from scratch” (“NLP de la zero” Colobert 2011), care era una
din primele zile ale deep learning, considerat neconventional. Aceste abordari deep learning
exploateaza puternicele retele neurale care contin multiple straturi ascunse pentru a rezolva sarcini
de machine learning generale. Spre deosebire de retelele neurale superficiale si modelel de machine
learning relaionate, retelel neurale “adanci ” sunt capabile de a invata reprezentari din date folosind
o cascada de straturi multiple de unitati de procesare nonlineara pentru extragerea caracteristicii.
Cum trasaturi de nivel inalt deriva din trasaturi de nivel scazut se creaza o ierarhie de conce pte.
Utilizari
Procesare limbajului natural este peste tot, chiar daca nu își face simțită prezenta atât de puternic,
la o cercetare e suprafață a domeniului, găsim numeroase utilizări si multe altele ce vor veni.
Pentru a sublinia încă o data importanta l ingvisticii computaționale enumăr o serie de exemple ce
au la baza NLP. Am menționat ca indexarea este una din primele si cele mai de succes forme,
alături de ea, la baza stau programele de traducere dintr -o limba in alta. NLP ne ajuta sa cucerim
barierele lingvistice. In acest caz provocarea este cea recurenta, depistarea înțelesului din spatele
cuvintelor. Intr -o categorie apropiata intra si autocomplete, spell -check, filtrele de SPAM
(clasificare de text), keywords -uri înrudite in motoare de căutare, opt imizare de text sau
extragerea esențialului. O alta categorie este cea de asistenți personali, Google Assistant, Siri,
Alexa, VIV care sunt capabili, la un anumit nivel sa comunice cu utilizatorii si sa returneze
rezultate eficiente. Raspunderea la intreba ri este o alta sarcina care se vrea a fi preluata integral
de lingvistica computationala. O aplicatie QA este un sistem capabil sa raspunda coerent la
intrebari puse de oameni, aici se remarca chat box -urile, folosite in mod curent in bussines si desi
sunt foarte promitatoare inca mai este cale lunga pentru a deveni indispensabile. Analiza
sentimentelor (denumita si „Opinion Mining”) este poate cea mai populara utilizare fiind atat de
interesanta pe cat este de utila. Folosita in special in retail, se cu ra muri si in feedback -ul unui
produs, a unui film sau a unei lansari recente, scopul analizei este de identifica sentimente sau

Neamtu R. Madalina -Catalina Chapter
– 18 –
opinii chiar si atunci cand acestea nu sunt exprimate clar. In mod obisnuit se cuantifica rezultatul
cu o valuare negativa sau poz itiva sau pe o scara de polaritate unde se introduce si valoarea
neutra. Printre aplicatiile care folosesc analiza de sentimente se numara „social media monitor”,
„brand monitor”, ”market research”, ”producat analysis”
Procesarea limbajului natural include multe tehnici (dezvoltate mai tarziu in lucrare), de la a
interpreta limbajul oamenilor pana la statistica, machine learning si algoritmi ruled -ased. Avem
nevoie de o gama larga de abordari pentru ca, dupa cum am mai s ustinut, cantitatea de informatii
este vasta si indeajuns de diversa. In termeni generali, machine learning desparte textul in piese
mai scurte si exploreaza cum pot fi utilizate pentru a le da inteles . Un detaliu important de avut in
minte cand construim software cu NLP este faptul ca nu este usor si, chiar daca in momentul
actual Testul Turing se considera cel putin intr -o masura trecut (mai multe detalii despre Turing
Test vor fi acoperite intr -un capitol dedicat) exista inca numeroase bariere de trecut. Pentru
inceput limbajul are o parte observabila –textul – usor de transformat in input de procesare dar
acesta este prin comparatie “varful iceberg -ului” fata de ce inseamna comunicarea pe care, in
unele momente nici noi oamenii nu o stapanim cu toate fluc tuatiile sale. Aceasta suprafata de
obicei reprezentata simbolic isi regaseste opusul in o alta forma de conversatie, abilitatea de a
exprima ganduri si idei prin intermediul sunetelor articulate formate prin vibratia corzilor vocale.
Particular, aceasta f orma de trasmitere a informatiei este dezavantajata fata de simplul text
deoarece impune dificultati aditionale, fiind nevoie de input foarte clar si adesea se recurge la un
process extra – “curatarea” sample -urilor.
Scris, vorbit sau mimat, limbajul vine c u un” bagaj” dificil de tradus in date procesabile si anume
intentia limbajului. Fie ca este vorba de emotii precum furie, fericire, exaltare etc sau atitudini
precum ironie, suspiciozitate, pro sau contra ( numit si “Bogardus”) sau multe alte forme, acest ea
sunt greu de inteles din simple simboluri, calculatorul are nevoie de antrenament la fel cum si
oamenii au avut parte de cand s -au nascut si au ajus sa inteleaga conextul psihologico -social din
spatele cuvintelor. Mai mult de atat o treapta superioara a acestei provocari o poate reprezenta
intensitatea la care se manifesta comportamentul afectiv, care in unele cazuri poate face diferenta.
Spre exemplu cat de mult este deranjat un client de gresala facuta la procesarea comenzii, poate fi
doar nemultumit, dezamagit sau poate ajunge sa fie extrem de furios, NLP fiind folosit si in
cazuri de etichetare a feedback -ului.

Neamtu R. Madalina -Catalina Chapter
– 19 –

Machine Translation

Procesul prin care oamenii infaptuiesc o traducere poate fi descris simplu ca decodare si re –
codare. In sensul ca se proceseaza textul in limba sursa si se traduce in limba necesara. In
realitate, in spatele acestui proces cu doi pasi simpli sta o intreaga retea cognitiva care nu necesita
numa i implicarea partilor anatomice dar si cunoasterea gramaticii, sintaxei, expresiilor etc ale
limbajului de tradus. Desi aplicatiile actuale frunctioneaza mult mai bine si se imbunatatesc
gradual, niciun program nu poate face traducerea complet automat fara interventie umana. Niciun
program nu ajunge la calitatea unui traducator uman.
Dar ce inseamna o traducere buna? O buna traduecere a textului ar trebui sa fie fidela textului
original, sa respecte principalele caracteristici in sens, ton dar si sa mentina detaliile ideilor
prezentate. Rezultatul ar trebui sa fie unul inteligibil in limba tinta dar si lingvistic corect. In mod
ideal citittorul nu ar trebui sa realizeze ca citeste o traducere. Limbajul tehnic nu este tradus in
acelasi fel ca textele literale . Din ce am vazut pana acum este clar ca traducerea este un proces
complex care implica un nivel ridicat de cunoastere si ablitati logice. Ablititatea de a reformula
contextul dintr -o limba in alta , de a sta fidel textului si de a intelege contextul este una de care
masinile nu dispun la fel de usor ca oamenii. Sistemele artificiale sunt inca la nivel de copil din
punctul acesta de vedere. Scopul traducerii automate este, pentru moment acela de a ajuta
utilizatorii si nu acela de a performa traducerea tota la insa scopul final este acela de a obtine un
traducator la nivelul celui uman. Oamenii sunt de acrod ca este un task extrem de complicat si

Neamtu R. Madalina -Catalina Chapter
– 20 –
pentru o perioada lunga de timp s -a folosit traducere locala, traducerea cuvant cu cuvant.
Informatia la nivelul t extului este rareori luata in considerare desi textul vine cu informatii
Machine Translation (MT) este un pas important in procesarea limbajului natural care se ocupa
cu utilizarea programelor pentru traducerea textului sau limbajlui dintr -o limba in alta . Metodele
bazate pe inteligenta artificiala au avut parte de un progres semnificativ in anii recenti si au
devenit rapid norma. La un nivel bazal, traducerea se efectueaza prin simpla inlocuire a
cuvintelor dintr -o limba in limba dorita dar asta nu functi oneaza si nu va functiona niciodata
deoarece limbajul nu este atat de simplu. Este necesara recunoasterea expresiilor dar si a
contextului din care face parte pentru a beneficia de o traducere corecta. Rezolvarea acestei
probleme sta in tehnici neuronale ( deep learning ) ajutate de statistici. Combinarea acestora
conduce la traduceri contextuale cu o acuratete mai mare, la manipularea mai usoara a
diferentelor din tipologia unei limbi.
Intr-un fel, la nivelul actual pana si nivelul propozitiei este unul mu lt prea complex pentru mare
parte din sistemele actale. Traducerea unei propozitii intregi inseamna traducerea fragmetelor
acesteia si apoi asamblarea lor si uneori acestea produc rezultate cel putin gresite daca nu
dezastroase. Mai mult de cat atat este nevoie sa se inteleaga de ce procesarea limbajului natural
cu ajutorul masinilor este dificila, detalii ce vor fi mai pe larg dezbatute in capitolele urmatoare.
O limba are mii de cuvinte cu diferite forme, diferite intelesuri si structuri diferite.

Artificial and Natural Systems
O problema intens dezbatuta in domeniul MT este nivelul la care sistemele artificiale ar trebui sa
reproduca strategiile folosite de oameni pentru taducere, daca putem invata ceva din traducatorii
profesionisti. In primul rand n u se stiu atat de multe despre procesul cognitiv implicat in sarcina
de a traduce. Procesul poate varia de la unii traducatori la altii iar strategiile de traducere trebuie
sa mearga cu mult mai departe decat simplul cuvant -cu-cuvant. Traducatorii profesio nali nu
traduc neaparat sistematic cu o analiza profunda a frazelor. Ce se stie clar este ca acestia traduc
“din mers” grupuri autonome de cuvinte fara a citi in totalitate frazele, in special pe cele lungi.
Acest proces poate fi comparat cu cel al sisteme lor statistice care nu fac o analiza profunda a
propozitiei de tradus ci identifica grupuri de cuvinte ce functioneaza impreuna. Acestea sunt

Neamtu R. Madalina -Catalina Chapter
– 21 –
foarte bune la a recunoaste constructii precum expresii, cuvinte compuse etc care sunt vazute ca
unitati singular e chiar si de oameni.

Experimentele recente au consolidat acest punct de vedere, deoarece chiar și structurile sintactice
la nivel înalt pot corespunde tiparelor obișnuite. Aceste structuri sunt uneori numite "construcții"
(structuri sintactico -semantice specifice înregistrate ca atare în creierul nostru) sau "prefab" (cum
ar fi o casă realizată din elemente prefabricate care pot fi asamblate rapid pentru a obține o
construcție modulară). În acest context, sintaxa nu este la fel de proeminentă ca în abord ările
tradiționale: propoziția este văzută ca o asamblare a "unităților prefabricate", sau, în mod diferit,
o asamblare de secvențe complexe stocate ca atare în creier. Analiza este deci mai simplă,
deoarece, dacă această ipoteză este corectă, creierul nu trebuie să țină seama de fiecare cuvânt
individual, ci are acces direct la unități de nivel superior, reducând atât ambiguitatea generală, cât
și complexitatea înțelegerii frazelor proces. Prin urmare, nu este sigur că sistemele interlinguale,
pe baza unei înțelegeri complete și a unei reprezentări abstracte a propozițiilor, sunt cele mai
realiste din punct de vedere cognitiv, contrar a ceea ce s -a crezut demult.
O scurtă trecere în revistă a evoluției traducerii mașinilor
În acest parte vom examina diferi tele abordări posibile și principalele tendințe observate în
domeniul traducerii mașinilor Traducerea poate fi directă, de la o limbă la alta (adică, fără
reprezentare intermediară) sau indirectă, atunci când un sistem încearcă mai întâi să determine o
reprezentare mai abstractă a conținutului care trebuie tradus. Fiecare sistem este unic și
implementează o abordare mai mult sau mai puțin originală a problemei. Cu toate acestea, din
motive de claritate și simplitate, diferitele abordări pot fi grupate în tr ei categorii diferite, așa cum
fac majoritatea manualelor pe această temă.
I. Un sistem de traducere directă este un sistem care încearcă să producă o traducere direct
dintr -o limbă sursă într -o limbă țintă fără o reprezentare intermediară. Aceste sisteme sunt în
general bazate pe dicționare: un dicționar oferă o traducere cuvânt -cuvânt, iar apoi regulile mai
mult sau mai puțin complexe încearcă să rearanjeze cuvintele țintă astfel încât să obțină o ordine
de cuvânt cât mai aproape de ceea ce este cerut de limba țintă. Nu există o analiză sintactică în
acest tip de sistem, iar regulile de reordonare se aplică direct formularelor de suprafață.

Neamtu R. Madalina -Catalina Chapter
– 22 –
II. Sistemele de transfer sunt mai complexe decât sistemele de traducere directă, deoarece
integrează un fel de anali ză sintactică. Procesul de traducere este apoi capabil să exploateze
structura tezei sursă furnizată de componenta de analiză sintactică, evitând limitarea cuvântului –
cuvânt al traducerii directe. Prin urmare, rezultatul trebuie să fie mai idiomatic decât traducerea
directă, atâta timp cât componenta sintactică furnizează informații exacte despre sursă și despre
limba țintă.
III. Cele mai ambițioase sisteme se bazează pe o interlingua, care este o reprezentare mai
mult sau mai puțin formală a conținutului care trebuie tradus. Au fost realizate cercetări extinse
cu privire la noțiunea de interlingua. Au apărut imediat întrebări fundamentale, cum ar fi: cât de
profundă și precisă ar trebui o interlingua să asigure o reprezentare solidă a propoziției care
trebuie tradusă? În loc să se dezvolte o limbă complet artificială, care este cunoscută a fi o sarcină
foarte complexă, engleza este adesea folosită ca interlingua, însă aceasta este, de fapt, destul de
înșelătoare, deoarece reprezentarea nu este nici formală, nici independentă de limbă. Este mai
bine deci să vorbim despre un "limbaj pivot", sau pur și simplu un "pivot", atunci când
interlingua este o limbă naturală specifică (engleza, în majoritatea cazurilor, așa cum am văzut,
dar au fost de asemenea folosite esperanto și alte limbi în trecut). În acest context, atunci când se
traduce din limba A în limba B, sistemul încearcă mai întâi să transfere conținutul lui A în limba
pivot înainte de a traduce din pivot în limba țintă B.
Aceste trei tipuri de abordări p ot fi considerate a forma un continuum, mergând dintr -o strategie
care este foarte aproape de suprafața textului (o traducere cuvânt -cu-cuvânt) până la sisteme care
încearcă să dezvolte o reprezentare complet artificială și abstractă independentă de orice limbă.
Cercetătorii au încercat încă de la început să dezvolte strategii mai sofisticate pentru a ține seama
de structura limbilor în cauză. Noțiunea de "reguli de transfer" a apărut în anii 1950: pentru a
merge dintr -o limbă sursă la o limbă țintă, trebui e să existe informații despre traducerea
grupurilor de cuvinte care formează o unitate lingvistică (un idiom sau chiar o expresie).
Structura propozițiilor este prea variabilă pentru a fi luată în considerare direct în ansamblu, dar
propozițiile pot fi împ ărțite în fragmente (sau bucăți) care pot fi traduse folosind reguli specifice.
De exemplu, adjectivele în franceză sunt de obicei plasate după substantiv, în timp ce ele sunt
înaintea substantivului în limba engleză
Noțiunea de transfer poate fi de asemen ea aplicată la nivelul semantic pentru a alege sensul
corect al unui cuvânt în funcție de context, celebrele exemple pe care la invatam in clasele mic

Neamtu R. Madalina -Catalina Chapter
– 23 –
(de exemplu, pentru „pana” cu sens de pana de masina sau pana se scris, toc ca in tocul de la
pantof sau toc de usa ). În practică, aceasta este o problemă dificilă, dacă este făcută manual,
deoarece este imposibil să prezicem toate contextele de utilizare a unui cuvânt dat. Din același
motiv, aceasta s -a dovedit ca fiind una dintre cele mai dificile problem e de rezolvat în primele
zile de traducere automată.
Asa cum am mentionat si mai devreme, o alta modalitate de traducere este sistemul interlingua.
Regulile de transfer, prin definiție, se referă întotdeauna la două limbi diferite și, prin urmare,
trebui e adaptate pentru fiecare dintre noile limbi considerate. Noțiunea de interlingua ar trebui să
rezolve această problemă prin asigurarea unui nivel de reprezentare independent de limbă. În
comparație cu sistemele de transfer, abordarea interlinguală are înc ă nevoie de o componentă de
analiză care să treacă de la textul sursă la reprezentarea interlinguală, însă această reprezentare
poate da naștere traducerilor direct în mai multe limbi. Producerea unui text țintă din formatul de
reprezentare interlingvă nec esită totuși ceea ce se numește "modul de generare" – cu alte cuvinte,
un modul capabil să treacă dintr -o reprezentare mai mult sau mai puțin abstractă în format
interlingual la propoziții valide lingvistice în diferite limbi țintă.
Sistemele interlinguale sunt foarte ambițioase, deoarece au nevoie atât de o înțelegere completă a
propoziției care trebuie tradusă, cât și de componente de generare exacte pentru a produce
propoziții valide lingvistice în diferitele limbi țintă. Ca urmare, și în ciuda câtorva a ni de cercetări
efectuate de câteva grupuri foarte active, sistemele interlinguale nu au fost niciodată desfășurate
la scară foarte largă. Problemele sunt prea complexe: înțelegerea unui text ar putea însemna o
infinitate de informații exprimate și deduse, ceea ce, bineînțeles, este extrem de provocator și
depășește stadiul actual al tehnicii. Revoluția sistemelor statistice de traducere automată
Clasificarea sistemelor de traducere automată furnizate în secțiunea anterioară este provocată de
noi abordări c are au apărut încă de la începutul anilor 1990. Disponibilitatea unor cantități imense
de text, mai ales pe Internet, și dezvoltarea capacității de calculatoare au revoluționat domeniul.
Majoritatea sistemelor industriale de traducere automată și, în speci al, cele mai populare (Google
translate ) se bazează pe o abordare statistică care nu se încadrează complet în clasificarea
anterioară. Aceste sisteme nu se bazează în primul rând pe dicționare bilingve și seturi de reguli
artizanale. Primele sisteme stati stice au pus în practică un fel de abordare directă a traducerii,
întrucât au încercat să găsească echivalențe de cuvinte între două limbi diferite, analizând direct

Neamtu R. Madalina -Catalina Chapter
– 24 –
cantități foarte mari de date bilingve (inițial venite de la instituții internaționale spe cializate și,
mai recent, recoltate pe web prin cookies si utilizatori care ofera feedback).
Abordările statistice sunt acum mult mai precise. Ei nu se mai ocupă de cuvinte izolate, dar sunt
acum capabili să vadă secvențe de cuvinte. Cele mai recente abord ări chiar încearcă să abordeze
problema direct la nivelul propoziției. Trebuie remarcat faptul că aceste sisteme au propriile
reprezentări interne, care, în general, nu pot fi citite direct de către o ființă umană. Prin urmare,
este necesar să se ia în con siderare natura acestor reprezentări: în ce măsură ei oferă informații
semantice
Sensul nu este ceva definit formal, ci corespunde modului în care sunt folosite cuvintele, o
abordare pur statistică poate fi destul de puternică în descoperirea unor reguli ș i a unor contexte
specifice de utilizare. Cu toate acestea, pentru o lungă perioadă de timp echivalențele au fost
calculate la nivel local și au implicat fragmente de text care se suprapun adesea
Limbi artificiale
Noțiunea de limbă universală aduce în mint e limbile artificiale, dintre care Volapuk și Esperanto
sunt cele mai cunoscute. Esperanto a fost inventat de Ludwik Lejzer Zamenhof . Toate aceste
proiecte au apărut pentru a facilita comerțul și cooperarea pașnică între populații.
Limbile limitate rămân astfel o sursă de inspirație mai mult decât o resursă utilizată efectiv în
sistemele de traducere automată. Unul dintre motive este probabil acela că Esperanto rămâne un
limbaj destinat omului (esperanto fiind bazat pe diferitele limbi europene existente): nu are
caracteristicile unui limbaj destinat a fi manipulat direct de computere.
Începuturile reale ale MT
La începutul anilor 1950, câțiva cercetători au început să devină interesați de traducerea
automată, care părea a fi o aplicație utilă și logică la momentul respectiv. Contextul războiului
rece a contribuit, de asemenea, la accentuarea nevoii de traducere.
În acest context, un cercetător israelian, Joshua Bar -Hillel, a jucat un rol principal în dezvoltarea
traducerii mașinilor în Statele Unite în ani i 1950. Bar -Hillel a petrecut doi ani la MIT în 1951 –
1953, lucrând ca post -doctorat sub Rudolf Carnap. Bar -Hillel a corespondat de fapt cu Carnap în
timp ce lucra la teza sa în Israel din anii 1940. Carnap, filosoful german care a devenit mai târziu

Neamtu R. Madalina -Catalina Chapter
– 25 –
un ame rican naturalizat, a dezvoltat o "sintaxă logică a limbajului", care părea să deschidă calea
spre o formalizare logică a limbajelor naturale.
Bar-Hillel , un cercetător israelian care a petrecut doi ani la MIT a dezvoltat o "sintaxă logică a
limbajului” si mai apoi devenit apoi în mod firesc interesat de traducerea automată. El a devenit
rapid o figură majoră în domeniu și a beneficiat de burse care i -au permis să viziteze laboratoare
importante din Statele Unite
În 1954, echipa de cercetare de la Universi tatea din Georgetown împreună cu IBM au condus
prima demonstrație în sprijinul traducerii mașinilor bazate pe un sistem dezvoltat în comun de
cele două echipe. Un set de 49 de fraze ruse a fost tradus în limba engleză folosind un dicționar
relativ simplu ( un dicționar de numai 250 de cuvinte și șase reguli gramaticale). Impactul
demonstrației a fost considerabil și a contribuit la creșterea sprijinului financiar pentru traducerea
automată.
Cazul limbajelor rare și revenirea limbajului pivot
Toate sistemele statistice necesită o cantitate imensă de texte bilingve pentru a funcționa în mod
satisfăcător. Corpurile făcute din milioane de fraze aliniate sunt în prezent obișnuite. După cum a
spus Mercer, "nu există date ca mai multe date"
În consecință, este cla r că dincolo de câteva limbi care sunt utilizate pe scară largă pe Internet,
performanța sistemelor scade considerabil, mai ales dacă una dintre limbile (sursă sau țintă) nu
este engleza. Cantitățile de date disponibile pe Internet pentru aceste limbi sunt pur și simplu
insuficiente pentru a obține performanțe bune. Au fost dezvoltate câteva tehnici pentru a depăși
lipsa datelor bilingve. De exemplu, este posibil să se obțină mai multe informații de la corporații
monolingve mari, însă acest lucru rămâne ins uficient pentru sarcină. O strategie populară constă
în încercarea de a proiecta sisteme de traducere care folosesc limba engleză ca limbaj pivot,
pentru a depăși într -o anumită măsură lipsa datelor de instruire.

Deep Learning Traducere automată
În ultimi i ani, un nou tip de învățare statistică numit deep learning( tradus "învățare profundă").
Rețelele neuronale au fost inițial inspirate de creierul biologic: neuronii transmit și procesează
informații de bază, din care creierul este capabil să construiască concepte și idei complexe.

Neamtu R. Madalina -Catalina Chapter
– 26 –
Rețelele neuronale artificiale, cum ar fi creierul, ar trebui să poată construi concepte complexe
din diferite piese de informații asamblate într -o manieră ierarhică.
Această abordare a primit o acoperire extinsă a presei in sp ecial ca DeepMind de la Google a
batut campionul international de Go abordarea fiind foarte utila unde este imposibil să explorăm
sistematic toate combinațiile posibile din cauza multitudinii de combinatii ( nu pot fi rulate
sistematic)
Complexitatea limbi lor umane este oarecum diferită: sensul general al unei propoziții sau al unui
text se bazează pe cuvinte ambigue, fără limite clare si nu este este posibilă specificarea manuală
a tuturor informațiilor care ar fi necesare pentru un sistem automatde traduc ere,. În acest context,
învățarea profundă oferă o abordare interesantă, care pare a fi potrivită în special pentru
provocările implicate în îmbunătățirea procesării limbajului uman.
O prezentare generală a învățării profunde pentru traducerea automată
Învățarea profundă și -a atins primul succes în recunoașterea imaginii. În loc să folosească un grup
de caracteristici predefinite, învățarea profundă funcționează în general dintr -un set foarte mare
de exemple. . Nu este o problemă dacă un cuvânt este rar, de oarece alte cuvinte care apar în
contexte similare pot indica o traducere buna.Învățarea este ierarhică, deoarece începe cu
elemente de bază (pixeli în cazul unei imagini, caractere sau cuvinte în cazul unei limbi), pentru a
identifica structuri mai comple xe până când obține o analiză globală a obiectului
În cazul traducerii mașinilor, deep learning face posibilă realizarea unor sisteme în care foarte
puține elemente sunt specificate manual, ideea fiind aceea de a permite sistemului să deducă prin
sine cea mai bună reprezentare din date. La începutul anilor 1990, IBM a propus cinci modele
pentru traducere automată, fiecare model introducând o reprezentare diferită definită manual
pentru a corecta anumite defecte ale modelului anterior. Cu deep learning, ges tionarea simultană
a diferitelor tipuri de informații permite luarea unor decizii mai fiabile. Sistemul încearcă astfel să
identifice și să grupeze cuvintele care apar în contexte similare. Cuvintele strâns legate într -o
propoziție sunt, de asemenea, ident ificate treptat și grupate în timpul analizei. Deși sistemele de
deep learning nu codifică direct propozitia, ele ar trebui să poată identifica automat relațiile
sintactice relevante.
Pe scurt, mai degrabă decât având diferite module care analizează diferi te părți ale problemei la
un moment dat, abordarea învățării adânci a traducerii mașinilor analizează direct întreaga

Neamtu R. Madalina -Catalina Chapter
– 27 –
propoziție fără a fi nevoită să o descompună în segmente mai mici și consideră, de asemenea, tot
felul de relații în context acelasi timp. Faptul că aceste relații pot fi verticale sau orizontală face
ca abordarea să fie extrem de flexibilă, utila, dar și provocatoare din punct de vedere al
programarii.

Provocările curente pentru traducerea deep learning
Până de curând, sistemele de traducere automată bazate pe învățarea profundă au avut rezultate
bune pe propoziții simple, dar au rămas în urma sistemelor statistice tradiționale pentru propoziții
mai complexe. Unul din motive a fost formarea rețelelor neur onale care reprezinta inca o sarcina
dificila iar un al doilea motiv il reprezinta cuvintele necunoscute, cele care nu sunsunt des
intalnite in training sets, fiin din general ignorate. De ceva timp, acest lucru a împiedicat deep
learning să fie implementa te efectiv în sistemele comerciale. Recent, insa nu mai este cazul
Intuitiv, abordarea se bazează pe faptul nu toate cuvintele au aceleasi relevanta, unele sunt mai
importante decat altele. Propozițiile mai lungi au o ordine de cuvinte mai variabilă; mecan ismele
de atenție ajută apoi sistemul să se concentreze dinamic în orice moment asupra celor mai
relevante părți ale sentinței care trebuie traduse. Mecanismele de atenție sunt deosebit de utile
pentru a face față propozițiilor lungi, dar se presupune că e le vor juca un rol și mai puternic
atunci când se vor ocupa de limbi cu semantica diferita.
Este interesant de observat că abordările deep learning s -au răspândit foarte repede. Toate
companiile mari in domeniu (Google, Facebook, IBM, Bing etc.) avansează procesul. Cu toate
acestea, această abordare este încă în fază incipientă și se poate aștepta un progres rapid în
viitorul apropiat. Vor fi propuse soluții mai eficiente pentru problemele descrise mai sus.
Sentiment Analysis
Opinia și sentimentele si c onceptele legate de ele, cum ar fi evaluarea, aprecierea, atitudinea,
afecțiunea, emoția și starea de spirit, sunt legate de sentimentele și credințele noastre subiective.
Acestea sunt esențiale pentru psihologia umană și sunt factori cheie ai comportament elor noastre.
Credințele și percepțiile noastre despre realitate, precum și alegerile pe care le facem, sunt într -o
măsură considerabilă condiționate de modul în care alții văd și percep viața . Din acest motiv,

Neamtu R. Madalina -Catalina Chapter
– 28 –
părerile noastre despre lume sunt foarte mul t influențate de opiniile altora și, ori de câte ori avem
nevoie să luăm o decizie, căutăm adesea opiniile altora. Acest lucru este valabil nu numai pentru
persoane fizice, ci și pentru organizații. Din punct de vedere al aplicării, dorim, în mod natural, să
exprimăm opiniile și sentimentele oamenilor față de orice subiect de interes, asa numita sarcina a
analizei sentimetelr (sentminet analysis). . Mai exact, analiza sentimentului, numită și " mining
opinion" , este un domeniu de studiu care are ca scop ex tragerea de opinii și sentimente din textul
limbajului natural folosind metode computationale.

Începutul și creșterea rapidă a analizei sentimentului coincid cu cea a social media pe internet,
cum ar fi recenzii, discuții pe forum, bloguri și pentru că pe ntru prima dată în istoria omenirii
avem acum un volum imens de date de opinie înregistrate în forme digitale. Aceste date,
denumite și conținut generat de utilizatori , i -au determinat pe cercetători să -i descopere pentru a
descoperi cunoștințe utile. Ace st lucru a condus în mod firesc la problema analizei sentimentului
sau a minții, deoarece aceste date sunt pline de opinii. Că aceste date sunt pline de opinii nu este
surprinzător, deoarece motivul principal pentru care oamenii post mesaje pe platforme so ciale
mass -media este de a -și exprima opiniile și opiniile lor, și, prin urmare, analiza sentimentului este
chiar în centrul analizei social media. De la începutul mileniului, analiza sentimentului a devenit
una dintre cele mai active domenii de cercetare în procesarea limbajului natural. Este, de
asemenea, studiat pe scară largă în domeniul exploatării datelor, al exploatării web și al
prelucrării informațiilor. În ultimii ani, activitățile industriale care au inclus analiza sentimentului
au crescut de ase menea. Au apărut multe start -up-uri. Multe corporații mari, de exemplu,
Microsoft, Google, Hewlett -Packard și Adobe, și -au construit propriile sisteme interne. Sistemele
de analiză a sentimentului au găsit aplicații în aproape toate domeniile afacerilor, s ănătății,
guvernării și domeniului social.
Deși nici un algoritm nu poate rezolva problema analizei sentimentului, multe sisteme
implementate sunt în măsură să furnizeze informații utile pentru a sprijini aplicațiile din viața
reală
In acest capitol, se ar e in vedere abordarea echilibrată, analizând problema SA si dintr -un unghi
lingvistic. Ca multe dintre sarcinile de prelucrare a limbajului natural, cele mai multe tehnici de
calcul publicate folosesc algoritmi de învățare în mașină sau de extragere a dat elor cu ajutorul
unor indici sau caracteristici specifice textului. Deși cunoașterea ființelor umane și instrucțiunile

Neamtu R. Madalina -Catalina Chapter
– 29 –
pentru calculatoare se pot intersecta în mare măsură, ele au și diferențe majore, tehnologiile de
calcul actuale nu sunt suficient de mat ure pentru a avea aceleași capacități de înțelegere ca și
oamenii și parțial pentru că o mare parte din cunoștințele lingvistice nu sunt destinate utilizării
computere lor

Aplicatii

Opiniile sunt foarte importante pentru întreprinderi și organizații, deoarece întotdeauna doresc să
găsească opinii ale consumatorilor sau ale publicului despre produsele și serviciile lor. Guvernele
locale și federale doresc, de asemenea, să cunoască opin ia publică cu privire la politicile existente
sau propuse. Astfel de opinii vor permite factorilor de decizie relevanți din guvern să răspundă
rapid la climatul social, economic și politic în continua schimabre. În politica internațională,
fiecare guvern d orește să monitorizeze mass -media socială din alte țări pentru a afla ce se
întâmplă în aceste țări și ce opinii și sentimente sunt legate de problemele și evenimentele actuale
locale și internaționale. Aceste informații sunt foarte utile pentru diplomație , relații internaționale
și luarea deciziilor economice. În afară de întreprinderi, organizații și agenții guvernamentale,
consumatorii individuali doresc, de asemenea, să cunoască opiniile altora despre produse, servicii
și candidați politici înainte de a cumpăra produsele, de a folosi serviciile și de a lua decizii
electorale.
n trecut, când un individ avea nevoie de opinii cerea de la prieteni și familie. Atunci când o
organizație sau o afacere au avut nevoie de opinii publice sau de consum, a efectuat s ondaje de
opinie și grupuri de focus . Atunci când guvernele doreau să știe ce se întâmplă în alte țări, au
monitorizat presa tradițională, de exemplu, ziare, radio și televiziune, în aceste țări și chiar au
trimis spioni către aceste țări pentru a colecta astfel de informații. Dobândirea și analizarea
opiniilor publice și ale consumatorilor au fost de mult timp o afacere uriașă pentru marketing,
relații publice și firme de campanie politică.

Neamtu R. Madalina -Catalina Chapter
– 30 –
În zilele noastre, indivizii, organizațiile și agențiile guvernam entale utilizează din ce în ce mai
mult conținutul social media pentru luarea deciziilor. Dacă o persoană dorește să cumpere un
produs de consum, el sau ea nu se mai limitează la a -și întreba prietenii și familia pentru opinii,
deoarece există multe recenz ii de utilizatori și discuții în forumuri publice de pe web despre
produs.
În ultimii ani am asistat la modul în care posturile vizionate pe site -urile mass -media sociale au
ajutat la restructurarea afacerilor și la influențarea sentimentului public, impac tul profund asupra
vieții noastre sociale și politice. Documentele de opinie nu exista doar pe internet la dispozitia
tuturor, exista si intern sub forma feedback -ului clientului colectate din e -mail sau call center sau
a chestionarelor. Este critic sa se analizeze ambele forme pentru a avea o idee cat mai buna
despre sentimentele clientului. În ultimii ani, aplicațiile de analiză a sentimentului s -au extins în
aproape orice domeniu posibil, de la produse de consum, de îngrijire a sănătății, turism,
ospital itate și servicii financiare la evenimente sociale și alegeri politice. Pe lângă interesele de
afaceri, aplicațiile sunt, de asemenea, răspândite în agențiile guvernamentale. Pe plan intern,
agențiile monitorizează mediile sociale pentru a descoperi sentim entele publice și preocupările
cetățenilor. In afara aplicatiilor din viața reală, au fost publicate și multe lucrări de cercetare
orientate spre aplicații. De exemplu, câțiva cercetători au folosit informații despre sentimente
pentru a prezice succesul ci nematografic și veniturile din box -office Metoda constă din două
etape. Primul pas construiește un model de temă bazat pe analiza semantică latentă probabilistică
folosind doar cuvinte de sentiment într -un set de recenzii de filme.Cuvintele de sentiment su nt
cuvintele care indica stari. De exemplu, bun , minunat și frumos sunt cu conotatii pozitive, iar
rău, îngrozitor sunt cuvinte cu conotatii negative. Al doilea pas construiește un model
autoregresiv care ia in considerare atat veniturile cat si sentiment ele.

Cercetările privind analiza sentimentelor s -au desfășurat în principal la trei nivele: nivel de
document, nivel de teză și aspect
Nivelul documentelor . Sarcina la nivel de document este de a clasifica dacă un document de
opinie întreg exprimă un sent iment pozitiv sau negativ Adica se are in vedere review -urile si se
determina daca este in general un sentiment pozitiv sau unul negativ. Acest nivel de analiză
implicit implică faptul că fiecare document exprimă opinii asupra unei singure entități (de

Neamtu R. Madalina -Catalina Chapter
– 31 –
exemplu, un singur produs sau serviciu).Astfel, acesta nu se aplică documentelor care evaluează
sau compară mai multe entități, pentru care este necesară o analiză mai fină.
Nivel de propozitie . Următorul nivel este de a determina dacă fiecare propoziție ex primă o opinie
pozitivă, negativă sau neutră, "opinia neutră" insemnand de obicei "fără opinii". Acest nivel este
legat de clasificarea subiectivitatii, care distinge propozițiile. Cu toate acestea, subiectivitatea nu
este echivalentă cu sentimentul sau op inia, deoarece, așa cum am discutat mai devreme, multe
propoziții obiective pot implica sentimente sau opinii, de exemplu: "Am luat acest tocator
saptamana trecuta si fixatoarele din plastic s -au rupt, acum nu mai functioneaza ".
Nivel de aspect . Nici ana lizele la nivel de document, nici la nivel de propozitie nu descoperă
exact ceea ce oamenii preferă și displace. Cu alte cuvinte, ei nu spun despre ce este vorba fiecare
părere, adică țelul de opinie. De exemplu, dacă știm doar că propoziția " Îmi place Xp eria Z " este
pozitivă, este folosită limitat dacă nu știm că opinia pozitivă este despre Xperia Z. Se poate spune
că dacă putem clasifica o propoziție pozitiv, totul în propoziție poate fi luat ca si pozitiv. Totuși,
acest lucru nu va funcționa nici pentr u că o propoziție poate avea mai multe opinii, de exemplu "
Xperia este o marca foarte buna dar are multi competitori mai dezvoltati la capitolul de
marketing". Nu are sens să clasificăm această propoziție ca pozitivă sau negativă deoarece este
pozitivă Xp eria, dar negativ în privința vanzarilor . Pentru a obține acest nivel de rezultate cu atat
de profunde trebuie să mergem la nivelul aspectului. În loc să se uite la unitățile de limbă
(documente, paragrafe, propoziții), analiza la nivel de aspect privește în mod direct opinia și ținta.
Există, în general, două tipuri de conținut text în mediile sociale: posturi independente, cum ar fi
recenzii și bloguri, precum și dialoguri online, cum ar fi dezbaterile și discuțiile. Dialogurile on –
line sunt conversațion ale și implică în mod obișnuit schimburi interactive de doi sau mai mulți
participanți, care sunt în contrast cu postarile independente, ce sunt în mare parte independente
una de cealaltă. Dialogurile online sunt de obicei pline de opinii. În plus față de sentimentele
pozitive și negative, ele conțin, de asemenea, contestatii, care sunt considerate o formă interactivă
de sentimente sau opinii. Mai mult, datorită interacțiunilor utilizatorilor, pot fi efectuate analize
suplimentare. De exemplu, putem descope ri poziția fiecărei persoane într -o dezbatere, gruparea
oamenilor în diferite tabere ideologice, exprimarea acordului și a dezacordului, descoperirea
problemelor controversate și, în același timp, utilizatorul care argumentează natura. Deoarece
dezbaterile sau discuțiile ar trebui să fie schimburi de argumente și raționamente în rândul
participanților care sunt angajați în deliberări pentru a atinge anumite obiective comune, putem

Neamtu R. Madalina -Catalina Chapter
– 32 –
studia dacă fiecare participant se comportă într -adevăr în mod corespunzător, adică dând
argumente cu afirmații justificate sau doar expunând dogmatism și confruntări irationale.
Comentariile sunt postări care scriu opinia despre un articol publicat( stiri , articole de opinie) un
videoclip, o imagine sau o piesă muzicală. Acestea conțin adesea un amestec de posturi
independente și dialoguri. Din comentariile despre un articol on -line, putem observa mai multe
tipuri de postări de comentarii, de exemplu, rece nzii ale articolului, întrebări adresate autorului
articolului sau altor cititori, răspunsuri la întrebări și discuții între cititori și între cititori și articol
autor.
Înțelegem atât de bine discursul, deoarece știm atât de mult. Dacă trebuie să avem si steme de
înțelegere a limbajului natural care să poată trata textele cu conținut emoțional, trebuie să
codificăm cunoașterea emoțiilor umane pentru a fi utilizate în sisteme. În special, trebuie să
dotăm sistemul cu o versiune formală a teoriei implicite a oamenilor despre modul în care
emoțiile mediază între ceea ce aceștia trăiesc și ceea ce fac și regulile care leagă teoria de cuvinte
și fraze în lexiconul emoțional. Efortul pe care îl descriem aici face parte dintr -un proiect mai
amplu în înțelegerea li mbajului natural bazat pe cunoaștere , pentru a construi o colecție de teorii
fundamentale abstracte și concrete de fenomene fundamentale orientate spre limbă și de a defini
sau cel puțin să caracterizeze cele mai frecvente cuvinte în limba engleză în term enii acestor
teorii.
Înțelegerea sentimentelor social media mining poate și ar trebui să aibă o interpretare largă. Nu
este intenția autorilor de a restrânge minierele social media la sentimente sau opinii, ci mai
degrabă se sugereaza ca un sentiment sau opinie să fie un instrument util pentru multe activități
de cercetare. Până de curând, sentimentul a fost înțeleasă ca o parte omniprezentă și constantă a
experienței umane, variațiile sentimentelor schimbându -se doar ușor. Este intenția noastră de a
înțelege, măsura de schimbări într -un sentiment. Schema de tipare a emoțiilor este un punct de
plecare util pentru înțelegerea sentimentelor și un punct de plecare pentru o discuție a dificultății
de a măsura textul încărcat de sentimente. Pentru a aduna date, în general, colectăm conținut care
conține un cuvânt cheie (seturi) specificate manual. Aceasta se numește țintă. Aceste modele iau
seturi de documente foarte mari ca intrări și le grupează în subiecte estimate. Adică, fiecare
document este considerat a fi un amestec al unuia sau mai multor subiecte care sunt estimate din
date. Acest lucru permite utilizatorilor să găsească texte care sunt legate de un subiect, deși nu
folosesc în mod explicit un anumit cuvânt cheie. Această abordare are cu siguranță erori, la fel ca

Neamtu R. Madalina -Catalina Chapter
– 33 –
și orice prelucrare a limbajului natural; totuși, în ansamblu, abordarea bazată pe lexicon sa
dovedit a fi destul de robustă, chiar și atunci când este utilizată doar pe subseturi. În plus, există
multe modalități posibile de a determina scoruri le de sentiment ale fiecărui cuvânt, dar cel mai
adesea acestea sunt simple însumate pentru a forma un scor sigular. Atunci când numărăm
cuvinte cu valențe pozitive sau negative, trebuie să decidem ce cuvinte să numere fiecare.
Diferitele dicționare ale cu vintelor pozitive și negative pot genera scoruri de sentimente diferite
pentru aceleași propoziții.Unele cuvinte cu sentimente percepute sunt mai neutre, în timp ce altele
au perceput neutralitatea, dar sunt de fapt mai extreme. Această provocare apare, în parte, din
cauza utilizărilor variate ale cuvintelor din interiorul și dincolo de contexte. Lecțiile prealabile
sunt resurse incredibile și sunt aplicabile pentru o mare varietate de problemeÎn ciuda diferențelor
subtile, toate sunt puncte de plecare bune , dar ele sunt doar puncte de plecare și nu puncte de
final. În loc să utilizeze fără discriminare un lexicon preasamblat, cercetătorii ar trebui să
dezvolte deseori lexiconi care sunt sensibili la domeniul pe care îl analizează. De exemplu, un
lexicon car e este util pentru economie (unde este moderat și stabil pozitiv) se poate dovedi inutil
pentru examinarea parerilor despre unu produs.

Similar Posts