Teza Doctorat – Sisteme multimedia Interactive Adaptive [309747]

Introducere și motivație

Primul capitol al acestei teze trece în revistă principalele motive care au dus la decizia de a alege acest domeniu pentru cercetarea doctorală. Este reliefată actualitatea temei de cercetare și premisele inițiale care au stat la baza acestei lucrări. [anonimizat] a oferi direcții noi și a găsi soluții practice la problemele identificate.

Considerații generale cu privire la tema aleasă

Studiile arată că video și aplicațiile interactive sunt cele mai antrenante două medii de comunicare [1]. [anonimizat]-[anonimizat], neliniară și participatorie a utilizatorului, dată de însăși caracteristica și principiile directoare ale World Wide Web (WWW). Prezumpția de bază în aceste medii este că utilizatorul va interacționa cu materialele prezentate și își va construi un mod propriu de a naviga prin informație. [anonimizat], [anonimizat], [anonimizat] o dată cu proliferarea principiilor Web 2.0, a fost ireversibilă înspre personalizare și interactivitate.

O evoluție mult mai lentă a avut-o însă tipul de media numit video. Apariția televiziunii la inceputul secolului trecut și provocările tehnice și aspectele sociale ale acelei ere au făcut ca utilizarea informației video să fie o [anonimizat]. [anonimizat] [2] că românii continuă să urmărească chiar și în prezent programe video în medie 4-5 ore pe zi în mod liniar pe televizorul lor.

Însă o [anonimizat] a vitezei de transfer al datelor în Internet au început să aducă cele două concepte împreună și video a devenit tot mai prezent în mediul online. [anonimizat], Youtube, fiind pe locul 3 în lume [3] ca număr de accesări globale. [anonimizat] a interacționa cu informația.

[anonimizat]. [anonimizat] o metodă mult mai eficientă de transmitere a [anonimizat] o experiență mai placută decât cele existente. [anonimizat].

[anonimizat], [anonimizat], pentru utilizatorii obișnuiți care reacționează la aceste fenomene, pentru industriile și domeniile direct afectate de această nouă paradigmă.

Teza de față își propune să fie un asemenea studiu integrativ multimedia. Având în vedere varietatea de tipuri de media existente în prezent (text, imagini, audio, video, animații interactive, etc) și complexitatea lor, teza mea privind sistemele multimedia adaptive și interactive a trebuit focalizată. Am ales video ca element central al cercetării mele, întrucât acesta este cel mai antrenant tip de media [1] și, în același timp, cel mai dificil de adaptat la o paradigmă interactivă. Un motiv suplimentar și încurajator este contextul mai larg media, ultimii ani fiind martori la apariția tot mai proeminentă a noțiunii de video interactiv și a unor tehnologii ce implementează acest concept, aflate în vârful dezvoltării din domeniul mediei vizuale.

Contextul României prezintă două particularități încurajatoare pentru teza de doctorat prezentă: faptul că o mare parte dintre români urmăresc mult material video pe parcursul unei zile [2], precum și dezvoltarea spectaculoasă a infrastructurii IT care a dus la plasarea României între primele țări din lume. Studiile arată că țara noastră este în topul primelor 20 de țări ca viteză medie a conexiunii la Internet, iar rata penetrării conexiunilor Internet de mare viteză de peste 4Mbps este de 79% [4], acest lucru însemnând că România este bine pregătită ca infrastructură pentru integrarea materialelor video și multimedia, mari consumatoare de bandă, în viața de zi cu zi.

Pe termen lung, un studiu Cisco arată că transferul de materiale video va constitui 73% din totalul de trafic prin Internet [5], neluând in seamă traficul prin intermediul tehnologiei P2P (Peer-to-peer), video ocupând astfel poziția de lider în conținutul web folosit de societatea informațională. Dacă e inclus și conținutul video transferat prin rețelele P2P, studiul indică faptul că procentajul video se ridică la 80-90% din traficul global pe Internet, până în 2017.

Proliferarea dispozitivelor capabile de înregistrare video și accesibilitatea lor din punct de vedere al costului și usurinței de folosire a dus la democratizarea mijloacelor de producție video. Este extrem de simplu pentru oricine să filmeze materiale de înaltă rezoluție, folosind dispozitive simple și de largă răspândire, cum ar fi telefonul mobil. În același timp, apariția unor echipamente relativ ieftine a revoluționat și domeniul video profesional, camere foto de tip DSLR fiind capabile în prezent să înregistreze video de înaltă calitate, la o fracțiune din costul echipamentelor de filmare profesionale. Per ansamblu, producerea materialelor video nu a fost niciodată mai facilă și mai ieftină ca în prezent.

Video interactiv combină puterea imaginilor în mișcare și a narațiunii date de un video cu profunzimea și bogăția informațională dată de interactivitate. Interactivitatea schimbă focalizarea de pe creatorul de conținut video pe utilizator, punând controlul informațional în mâna acestuia și abilitându-l să descopere informație nouă corelată cu clipul video respectiv, chiar dincolo de ceea ce creatorul materialelor video a avut inițial în minte. Video interactiv integrează dimensiunea de imagini în miscare în vasta rețea interconectată a World Wide Web-ului, reprezentând nu un viitor îndepărtat, ci un prezent în care informația este inteligentă, adaptivă și extrem de captivantă pentru utilizator, permițând de asemenea o interactivitatea comparabilă cu cea a World Wide Web.

Ca definiție, video-ul interactiv, hipervideo sau i-video se referă la clipuri video îmbunătățite prin diverse metode cu elemente interactive care asigură o metodă non-lineară de a transmite informația, similară cu hiperlegăturile din World Wide Web, integrând astfel conținutul video în paradigma Web. Această metodă este opusă stilului tradițional liniar de a transmite diverse informații prin video. Video-ul interactiv poate include o structură liniară, însă cuprinde o abordare bazată pe hiperlegături, introdusă de World Wide Web, adăugând sau introducând conexiuni cu mult mai multe informații la conținutul video-ului și flexibilitate și profunzime a detaliilor cu privire la un anume subiect.

Un astfel de sistem de administrare a resurselor video interactive adaptive este dependent în mod direct de modularitate, adică de nevoia de a crea informații scurte interconectate, clipuri video și adnotări, ca o alternativă la un sistem monolitic. O arhitectură modulară a informației facilitează întreținerea sistemului. În societatea informațională în care trăim, schimbările au loc rapid, astfel că o structură modulară permite adaptarea doar a acelor părți care necesită acest lucru și nu a întregului sistem. Este totodată nevoie ca acest sistem să se adapteze la utilizator, la nivelul și preferințele lui și să fie ușor extensibil pentru o varietate de cazuri și aplicații.

Elementele de interactivitate pot fi adăugate prin mai multe moduri, însă această teză se va concentra pe două din ele: prin intermediul adnotărilor și al momentelor de decizie [6]. Punctele decizionale permit consumatorului de video interactiv să aleagă traiectoria informațională pe care să o urmeze și îl ajută să personalizeze și să adapteze procesul la nevoile și preferințele sale. Punctele de decizie permit de asemenea implementarea unei arhitecturi informaționale non-lineare. Este facilitată modularitatea, prin faptul că aceste puncte de decizie servesc drept separatoare între modulele de informații.

Adnotările presupun că pentru o anumită regiune spațială sau interval video (fragment media) creatorul materialului video interactiv face legătura cu un concept sau informație externă materialului video. Această referință exterioară poate să fie text sau un alt video în cadrul sistemului video interactiv sau o informație externă organizației (de exemplu un site web care să detalieze un concept prezentat doar pe scurt în cadrul video-ului interactiv). Aceste resurse adiționale pot fi incluse ca și materiale media suplimentare încorporate în pagină, hiperlegături spre resurse externe sau informații obținute pe baza principiilor Semantic web [7].

Un sistem video interactiv care utilizează astfel de adnotări poate să faciliteze crearea de tutoriale scurte, dar care să permită explorarea în profunzime a anumitor concepte și care să preîntâmpine nivelul de competență al studentului sau angajatului care folosește video-ul interactiv. Din punct de vedere organizațional și în contextul integrării video-ului interactiv, este nevoie să luăm în considerare două aspecte: pe de o parte creatorul și editorul materialului video interactiv, precum și pe cel care vizualizează video-ul interactiv [8]. Această teză le va aborda critic pe ambele.

Un sistem de video interactiv care aduce principiile World Wide Web în domeniul video are următoarele particularități:

Experiență superioară, antrenantă, satisfăcătoare și mai bogată pentru utilizator

Transmiterea mai eficientă a informațiilor, conform studiilor [9]

Video – mai bine integrat și adresabil din rețeaua WWW

Corelarea relevantă a materialelor video între ele

Adaptarea video la utilizatori

Facilitarea de legături sociale între utilizatori cu aceleași tipuri de preferințe

I-Video schimbă și domeniul de producție audio-video, filmare, editarea și procesarea materialului video pentru hipervideo

Toate aceste considerente fac dintr-un sistem video interactiv adaptiv o soluție atractivă și cu potențial revoluționar pentru modul în care învățăm și asimilăm informație sau interacționăm cu alți utilizatori în mediul virtual. Această paradigmă are aplicații imediate în domenii extrem de variate, cum ar fi industria de divertisment, marketing și publicitate, învățământul electronic formal sau informal, mediul de afaceri general prin administrarea internă a competențelor și informațiilor (knowledge management), formarea profesională continuă a angajaților în organizații și multe altele.

Intuind potențialul uriaș al sistemelor de video interactiv (și corelat cu alte tipuri de media) și luând notă de schimbările tehnologice de vârf din ultimii ani ce pavează drumul pentru acest domeniu, consider extrem de relevantă teza prezentă. Lucrând de peste 14 ani în televiziune și media digitală interactivă, am fost puternic motivat să explorez ceea ce consider ca fiind viitorul în media vizuală – video interactiv adaptiv.

Structura tezei de doctorat

Teza de doctorat prezintă arhitectura unui sistem video interactiv corelat cu alte informații externe multimedia, având aplicații în educație, divertisment și formare profesională. Ca atare, am structurat teza în șase capitole, la care se adaugă bibliografia corespunzătoare și anexele.

Capitolul 1 este capitolul care pune în perspectivă tema studiată, fiind capitolul introductiv al acestei teze de doctorat. Aici am discutat considerațiile generale cu privire la tema aleasă, motivația alegerii acestei teme și actualitatea ei în contextul societății informaționale românești. Este prezentată și structura pe capitole a tezei.

Capitolul 2 prezintă stadiul actual al interactivității in video, evaluând bibliografia din domeniu, istoricul acestui domeniu și implementări trecute, identificând punctele tari și slabe ale tehnologiilor actuale și introducând conceptele teoretice fundamentale pentru restul tezei de doctorat. Sunt evaluate diverse modalități de a interacționa cu materialele video, precum și tehnologiile noi care fac acest lucru posibil, adăugând programatic dimensiunea de interactivitate la video. Sunt explicate conceptele de metainformație, adnotări, codecuri video, fragmente media și alte dezvoltări fundaționale pentru teza de față. Uzabilitatea unui sistem de video interactiv este de asemenea evaluată în funcție de diversele platforme pe care rulează acest sistem – PC-uri, SmartTV-uri, set-top box-uri sau terminale mobile. La final, am tras concluzii privind implicațiile tuturor acestor aspecte asupra procesului de învățare și transfer de informație în contextul video interactiv.

Capitolul 3 prezintă arhitectura propusă pentru un sistem de video interactiv adaptiv. În acest capitol, trasez principiile generale teoretice ale unui asemenea sistem, caracteristicile vitale pe care acest model trebuie să le prezinte. Apoi propun o arhitectură detaliată a unui astfel de sistem, continuând să prezint caracteristicile sale defalcate în părți componente. Sunt evaluate activitățile de generare a resurselor video interactive din punctul de vedere al unui creator/administrator, precum și partea de vizualizare a acestor materiale de către consumatori/clienți. Este evaluat și cazul în care mai multe clipuri video sunt corelate în narațiuni complexe interdependente (filme interactive), față de cazul în care materialele video sunt autonome, deși asociabile tematic. Pentru acestea, am dezvoltat modele teoretice și implementări practice pentru a ilustra conceptele prezentate. Am analizat, de asemenea, aspectele ce țin de filmare, cadrare, compoziție și editarea materialelor video care vor intra într-un sistem interactiv, comparându-le cu materialele video clasice.

Capitolul 4 discută dimensiunea de adaptivitate inteligentă a materialelor media la utilizatori. O primă dimensiune evaluată este aspectul corelării materialelor video între ele, atât prin mijloace manuale clasice (intervenție umană), cât și prin mecanisme automate de generare de metainformație și intercorelare a video-urilor. O a doua dimensiune explorată este adaptivitatea materialelor video la utilizatori. Profilul și preferințele utilizatorilor sunt obținute prin colectarea de informații privind interacțiunea utilizatorului cu materialele video interactive, apoi folosind modele psiho-sociale și comportamentale, se profilează iterativ utilizatorul. Am explorat și dimensiunea socială a acestui aspect. Prin colectarea de informații despre interacțiunile cu materialele video interactive, pe lângă profilarea utilizatorilor, putem afla și gradul de interes al acestora asupra anumitelor subiecte prezentate în materialele video interactive. Aceste aspecte adaugă inteligență și permit adaptarea sistemelor interactive la utilizatorii lor.

Capitolul 5 prezintă câteva studii de caz care subliniază utilitatea video interactiv, și aplicativitatea principiilor expuse în capitolele precedente în câteva domenii importante. Sunt luate în considerare trei scenarii: industria de divertisment, educația electronică formală (care utilizează conceptele moderne de tip blended-learning și MOOC) și formarea profesională în interiorul organizațiilor. Capitolul prezintă aplicații practice concrete în aceste domenii, precum și concluziile și particularitățile deduse în fiecare dintre cazuri în urma implementării conceptelor propuse în teză.

Capitolul 6, capitolul final al acestei lucrări, prezintă sintetic concluziile cheie ale tezei și principalele contribuții teoretice și aplicative pe care le aduc în cadrul muncii mele de cercetare. Tot aici, având în vedere vastitatea domeniului și varietatea elementelor componente, am trasat și direcții de cercetare ulterioare.

Lucrări publicate

Activitatea de cercetare reprezentată în această teză s-a concretizat printr-o serie de lucrări științifice publicate la diverse conferințe și manifestări științifice naționale și internaționale, prezentate mai jos. De asemenea, în cadrul unui stagiu de cercetare efectuat în 2012, am fost membru în echipa de cercetare a Salzburg Reseach, Austria, în cadrul derulării proiectului ConnectME.

S. Pețan, R. Vasiu, „Personality detection in interactive video”, The 10th International Scientific Conference eLearning and software for Education, April 24-25, 2014, Bucharest, to be published

S. Pețan, M. Mocofan, R. Vasiu, „Enhancing learning in massive open online courses through interactive video”, The 10th International Scientific Conference eLearning and software for Education, April 24-25, 2014, Bucharest, to be published

A.S. Pețan, L. Pețan, R. Vasiu, „Interactive Video in Knowledge Management: Implications for Organizational Leadership”, 12th International Symposium in Management: Challenges and Innovation in Management and Leadership, Procedia – Social and Behavioral Sciences, 2014, to be published

A.S. Pețan, “Social interactive video – an overview”, presented at Workshop-ul Interdisciplinaritatea si Managementul Cercetării în Studiile Doctorale, iunie 2012, Oradea

A. S. Pețan, “Interactive adaptive multimedia systems with applications in entertainment, education and professional development”, Proceedings – Workshop-ul nr.1 – Interdisciplinaritatea și managementul cercetării, Universitatea „Politehnica” din Timișoara, România, pp. EL33-EL34, Nov. 2011

S. Pețan, R. Vasiu, „Interactive movies: Guidelines for building an interactive video engine”, Buletinul Științific al Universității “Politehnica” din Timișoara, vol. 56 (70), no. 2, pp. 42-46, Sept. 2011

M. Mocofan, S. Pețan, R. Vasiu, „Educational framework model for image processing and image databases”, IAASAT Conference – Computational Engineering in Systems Applications (Volume II), Iași, July 2011

M. Mocofan, S. Pețan, „Robust media streaming structure over the Internet”, Buletinul Institutului Politehnic din Iasi, Tomul LVII (LXI), Fasc. 6, July 2011

M. Onița, M. Bucos, I. Ermalai, S. Pețan, C.I. Toma, „Streaming Technologies in Education and Entertainment Environment”, Proceedings of the 3rd International Scientific Conference ELSE, ISBN 978-973-663-529-8, pag. 303 – 308, 12 – 13 aprilie 2007, București, România

Interactivitatea în video

Interesul pentru aplicații multimedia interactive cu accent pe video datează de câteva decenii, însă doar recent tehnologia s-a maturizat suficient pentru a permite susținerea unor asemenea aplicații. În mediul comercial această dimensiune este prezentă prin serviciul Youtube. Google a început de asemenea să experimenteze cu indexarea semantică a fișierelor video și a informației text, iar alte site-uri de comerț electronic, cum ar fi Amazon, folosesc algoritmi adaptivi de recomandare a produselor. Totuși, până la momentul actual, nu există o cercetare detaliată și un sistem care să integreze toate elementele descrise mai sus, în special pentru video, iar acest fapt a constituit o oportunitate de cercetare deosebită unde cred că pot să aduc o contribuție prin lucrarea de față.

În contextul țării noastre, studii recente de piață efectuate de compania Daedalus [10] arată că în România urbană, Internetul a devenit forma de media dominantă, deținând 55% din timpul alocat de utilizatori folosirii unei forme de media, și depășind cu mult principalul concurent, televiziunea (30%).

Figura 2.1: Folosirea Internetului și a celorlalte tipuri de media în România [10]

Activitatea cea mai notabilă a internauților este căutarea de informații online (în principal textuală), cuplată cu socializarea online și cu urmărirea de materiale audio-video.

Figura 2.2: Activități pe Internet și media tradițională, în România [10]

Acest studiu de piață este extrem de relevant pentru lucrarea în cauză, întrucât indică maturizarea digitală a populației României, precum și familiarizarea ei cu metode noi de asimilare a informației. Modalitățile în care evoluțiile tehnologice afectează comportamentul uman, precum și metodele de a folosi aceste tehnologii emergente pentru a comunica eficient sunt încă puțin cunoscute, și reprezintă un domeniu vast de explorat, cu importanță capitală pentru anii ce urmează, atât pentru utilizatorii români obișnuiți, cât și pentru întreaga comunitate științifică.

În mediul academic, sunt relativ puține inițiative ce prezintă o abordare integratoare a organizării și transmiterii de informație, într-un mod cât mai eficient și mai coerent, cu aplicativitate cât mai largă. Această lucrare își propune să evalueze principiile ce stau la baza unei aplicații multimedia adaptive generaliste, cu posibile aplicații în industrie, divertisment și instituțiile academice, aducând o perspectivă inovatoare și testând practic anumite modele propuse.

Creșterea exponențială a informațiilor disponibile pe internet a dus la nevoia de organizare și catalogare a lor. În acest context s-au născut motoarele de căutare de tip Google, dar în ciuda algoritmilor performanți folosiți pentru indexarea informației, marea limitare a lor a fost faptul că aplicațiile web erau concepute pentru interpretarea umană, nu cea automată. De aceea, în ultimii ani, tendințele de cercetare au fost pe organizare semantică a resurselor media și stabilirea unor standarde (RDF, DAML, OIL și apoi OWL [11]) în domeniul Semantic web care să permită calculatoarelor să înțeleagă mai bine dorințele utilizatorilor și să le răspundă în consecință cu resurse media adecvate.

O altă problemă de interes pentru proiectul actual este partea de reprezentare a informației („knowledge representation”). Una din metodele de reprezentare a informației este în mod semantic, când se creează ontologii [12] care să cuprindă elementele informaționale, precum și relațiile între ele. Hărți ale informației, reprezentări vizuale ale conceptului, sunt de asemenea folosite pentru a ușura utilizarea informațiilor și pot constitui o alternativă sau complementare la sistemele pur adaptive. [13]

Legat de tipul de media folosit pentru a transmite informația efectivă, Collins, Neville și Bielaczyc [1] au realizat în 2000 un studiu paralel al diverselor tipuri de media și al efectelor cognitive și afective asupra utilizatorului, pentru a determina ce tip de media trebuie folosit într-o situație dată pentru a eficientiza comunicarea de informație. Deși articolul nu include dezvoltările tehnologice mai recente, se desprind câteva concluzii esențiale pentru proiectul de față. În primul rând, se remarcă nivelul ridicat de costuri în interacțiunea față-în-față și dificultatea de a reproduce informația ulterior. De asemenea, studiul arată că video și sistemele software sunt cele mai stimulative și convingătoare elemente media, mult mai angrenante decât informația textuală și imaginile, cu o doză mare de credibilitate și autoritate și cu posibilități uriașe de dezvoltare a experienței de învățare datorate interacțiunii în cazul software. Complexitatea procesului și costurile relativ mari de producție au limitat însă până recent dezvoltarea acestor unelte media pentru transmiterea informației. Utilitatea elementelor video pentru transmiterea informației prin convergența televiziunii interactive cu internetul și cu domeniul de e-learning a fost studiată și de alți cercetători, preconizându-se un beneficiu important în special pentru domeniile de e-learning și secundar pentru mediul de afaceri. [14]

În zona de întrepătrundere a organizării și reprezentării informației și video interactiv, ideea de proiect video interactiv a fost putin explorată în materiale ce privesc adnotarea și etichetarea materialelor video dintr-un film, pentru a facilita catalogarea și căutarea resurselor [15], dar fără a oferi prea multe opțiuni utilizatorului dincolo de căutarea în interiorul unei narațiuni liniare. Această zonă rămâne în continuare deschisă, fiind o zona de întrepătrundere între cele două elemente media cu potențial mare de informare-educare identificate de Collins, Neville și Bielaczyc. De asemenea, atenția cercetătorilor de până acum s-a îndreptat și spre partea de jocuri educaționale și modul în care ele augmentează procesul de educare și informare. [16]

O altă pistă deschisă recent este și dimensiunea de “Social semantic web”, în care se tratează modul în care partea de ontologie informațională se intersectează cu noile sisteme sociale online, și compară ontologiile cu folksonomiile – folosirea etichetelor de catalogare a informației de catre utilizatori ca element de organizare a informației, aducând un plus de flexibilitate în organizarea informației, dar cu riscul pierderii unor înțelesuri semantice clare [17]. Și pe partea de aplicații video interactive, dimensiunea socială este în prezent studiată [18,19,20,21,22], pentru a înțelege modul în care oamenii interacționează unii cu alții în contextul unor sisteme interactive și folosind tehnologii moderne.

Un caz interesant de integrare a câtorva dintre aceste direcții este oferit de Wolf [23], descriind iWeaver, un sistem interactiv adaptiv care foloseste animații, text, imagini și audio pentru a preda un curs de programare web, abordând de asemenea elemente ce țin de motivarea individului și de personalizarea experienței. Totuși, acest sistem este mai vechi și nu include media de tip video, sau partea socială și semantică, însă direcțiile deschise de iWeaver sunt importante pentru lucrarea de față. Un alt sistem dezvoltat la MIT în 2010 numit neXtream [24] combină câteva din principiile prezentate aici, propunând o soluție video multiplatformă interactivă, insistând în special pe elementele sociale de comunicare între utilizatori, dar elementele de interactivitate și adaptabilitate ale aplicației sunt relativ reduse comparativ cu propunerea mea.

Scurt istoric al conceptului de video interactiv

Modul în care vizualizăm materialele video a fost radical modificat în ultimii ani. Inițial, televiziunea era singurul canal prin care puteau fi urmărite materialele video de către utilizatori, ulterior fiind inventate diverse medii prin care materialul video să poată fi stocat pentru vizionare. Costurile mari de producție și stocare au limitat opțiunile disponibile pentru vizionare, iar procesul vizionării era de tip pasiv. Apariția Internetului a dus la segmentarea dramatică a conținutului media, făcând posibilă o selecție practic infinită de resurse și de soluții de particularizare a video-ului, după preferința fiecăruia, de urmărit fie online, fie pe un televizor conectat la Internet, fie pe un dispozitiv mobil, iar experiența a devenit mult mai interactivă.

În cele ce urmează, voi trece în revistă evoluția hipervideo, de la începuturile televiziunii și până în prezent. După cum vom observa, dorința de a adăuga interactivitate a fost prezentă încă de la inventarea televiziunii, ea fiind și implementată sub diverse forme de-a lungul timpului, însă diverse considerente au dus la eșecul televiziunii interactive. Dar recent, o dată cu apariția Internetului și a World Wide Web-ului, au fost create premizele pentru succes.

Începuturile video interactiv – televiziunea interactivă

Începuturile televiziunii interactive pot fi identificate în anul 1920 când a fost inventată televiziunea, deoarece comunicarea interactivă era deja prevăzută sub forma de video unidirecțional și audio bidirecțional [25]. Jensen observă că în ciuda faptului că traseul normal a dezvoltării televiziunii a fost dominat de dorința de a „împinge” conținut înspre telespectatori, unidirecțional, ideea de interactivitate a ieșit mereu la suprafață de-a lungul timpului. Jensen amintește că în ultimii 50 de ani au avut loc mai multe încercări de a testa concepte interactive în televiziune, însă dezvoltarea video interactiv a fost întârziată de aspecte precum tehnologii subdezvoltate, lipsa infrastructurii adecvate, lipsa de conținut și absența cererii. Jensen identifică șase etape ale dezvoltării televiziunii interactive. În cele ce urmează, acestea vor fi descrise.

Prima etapă corespunde telefoniei video dezvoltate în anii 1950-1960. În Statele Unite, compania Bell a început să experimenteze transmiterea imaginilor prin intermediul liniilor telefonice încă din anii 1920. În 1956 era inventat primul telefon vizual, însă lansarea sa nu a avut succesul preconizat, în mare datorită tastaturii care nu era ușor de folosit, iar poza de dimensiuni prea reduse. În plus, oamenii nu se simțeau confortabili cu ideea de a fi văzuți în timpul conversațiilor. Drept urmare, compania AT&T a restras acest produs de pe piață în anul 1973 [25].

Cea de a doua etapă include era televiziunii analogice de la sfârșitul anilor ’70 în SUA, când au fost făcute primele testări de televiziune interactivă. Compania Warner-Amex (astăzi Time Warner) a lansat sistemul QUBE [26], primul serviciu la scară largă. Este vorba de un sistem de televiziune prin cablu bazat pe 30 de canale analogice distribuite astfel: zece canale TV în sistem broadcast, zece canale contra cost (pay-per-view) și zece canale cu servicii interactive originale. Sistemul era echipat și cu un canal de retur, folosit de serviciile interactive. Clienții QUBE primeau un decodor cu cinci butoane, prin care puteau participa în cadrul unor programe cu jocuri, să aleagă evenimente sportive, să comande programe TV contra cost, să voteze sau să participe la sondaje de opinie. Comenzile corespunzătoare butoanelor erau procesate de un calculator și rezultatul apărea pe ecran. Succesul inițial a fost major, însă un număr mic de utilizatori au folosit caracteristicile interactive în primă fază. Pe termen lung, acest serviciu a fost unul scump din punct de vedere al mentenanței, și sistemul a fost retras de pe piață în anul 1984. [25]

Etapa a treia corespunde revoluției interactive din anii 1980 când tehnologiile interactive au invadat casele oamenilor, locurile de muncă și instituțiile de educație. În ceea ce privește televiziunea, interactivitatea a fost caracterizată de o dezvoltare a soluțiilor tehnologice în direcția textelor interactive pe televizor și a sondajelor de opinie din timpul programelor TV, cu ajutorul serviciilor telefonice. La începutul anilor ’80, în SUA, compania Cox Cable a lansat un serviciu de videotext cu ajutorul căruia indivizii aveau acces la contul bancar, cumpărături, informații, conținut educativ. Acest serviciu se baza exclusiv pe text și o grafică simplă. În aceeași perioadă Time Inc. a lansat de asemenea un serviciu de teletext. Amândouă serviciile au fost retrase după perioada de testare.

Aceste servicii au revenit în atenție îndeosebi de la lansarea televiziunii digitale, succesoarele lor numindu-se acum EPG (Electronic Program Guide) și IPG (Interactive Program Guide), unii furnizori de conținut permițând telespectatorilor inclusiv vizionarea unui program difuzat în trecut, la o data precedentă.

Figura 2.3: EPG-ul de la Dolce IPTV – sursa:www.romtelecom.ro

Cea de a patra etapă corespunde experimentelor cu ITV de la începutul anilor 1990. Primele experimente și studii cu ITV au arătat că programele cu cel mai mare succes la public trebuiau să fie de divertisment, cu un caracter tranzacțional, informativ și comunicativ. Oamenii doreau să se distreze, să învețe ceva nou, să dobândească ceva și să spună cuiva despre aceste lucruri [27]. Cea mai renumită încercare de lansare a unui serviciu de televiziune interactivă a aparținut celor de la Time Warner. Sistemul dorea să acopere o varietate largă de servicii interactive precum: ghidul TV, video la cerere, muzică la cerere, știri, cumpărături, jocuri, educație, servicii bancare, servicii de telefonie terestră și fără fir și așa mai departe. Din nou, din cauza dificultăților financiare și tehnologice, acest serviciu a încetat să funcționeze la doi ani după lansare.

În cea de a cincea etapă, a avut loc convergența între televiziune și Internet. Jensen [25] consideră că nimeni nu a anticipat dezvoltarea masivă a serviciilor de Internet care a avut loc în a doua jumătate a anilor ’90 și a întrecut rata de creștere a tuturor tehnologiilor media cunoscute până la acel moment. Ideea de televiziune interactivă care eșuase în repetate rânduri, avea să se reîntoarcă cu success prin tehnologia pusă la dispoziție de computere, televiziune și World Wide Web.

Ultima etapă în evoluția televizunii interactive corespunde televiziunii îmbunătățite, personalizate și SMS-TV [25]. Conceptul de televiziune îmbunătățită se referă la orice tip de conținut suprapus peste video și accesat interactiv de utilizator. Televiziunea personalizată presupune adaptarea vizionării la interesele și agenda telespectatorului, prin intermediul unor recordere video interactive (DVR – Digital Video Recorder). Al treilea tip de televiziune interactivă dominantă a fost reprezentat de interacțiunea la intersecția mijloacelor media. Aceasta are în vedere introducerea unui alt canal media dedicat pentru răspunsul utilizatorului. Jensen însă este conștient că acestea sunt doar precursoare ale unui sistem interactiv complet.

Video interactiv pe Web

Conceptele de hipermedia și hiperfilm au fost definite prima oară de Ted Nelson [28] după cum urmează: hipermedia a fost definită drept un ansamblu de materiale scrise și imagini interconectate într-un mod atât de complex încât nu puteau fi reprezentate pe hârtie, iar hiperfilmul se referea la un film prin care se putea naviga. Hypercafe a fost prima implementare care a experimentat stabilirea de legături de la un video la altul. Pornind de la acest program, Sawhney et al. au dezvoltat conceptul de hipervideo și alte elemente cheie [29] care se regăsesc și astăzi în definirea sistemului hipervideo. Mai recent, hipervideo a fost descris drept document hipermedia care se focalizează pe conținut video [30], care integrează video și spațiile hipermedia [31], un video care permite navigarea între materialul video și alte elemente hipermedia [32].

Componentele tehnice ale unui hipervideo sunt: un document audio-vizual adnotat compus din documentul audio-vizual, fragmente video și o structură de adnotare metadata care conține materialele corelate, și alte informații despre adnotări [33]. Hipervideo are nevoie de o platformă proprie datorită hiperlegăturilor spațio-temporale, și pentru că materialele video nu pot fi găsite prin motoarele de căutare. Ca să fie găsite, materialele video trebuie să fie fragmentate și asociate unor referințe pentru a fi arhivate în baza de date [30].

Advene este un program care facilitează procesul de împărțire pe categorii a informației hipervideo [33] prin separarea conținutului audio-vizual de metadata. În Advene, metainformația conține elemente ca o schemă (cu informații despre elementele care apar în această categorie de documente audio-vizuale) și adnotări cu Linked Data, precum text sau audio corespunzătoare unui fragment din video.

Când acest pachet de metainformație este conectat cu documentul audio-vizual se obține un hipervideo. Doar metainformația trebuie să fie partajată și modificată în timpul compunerii unui hipervideo [30,34]. Un proiect derivat recent din Advene a fost CHM (Component-based Hypervideo Model), implementarea sa online WebCHM se află încă în proces de rafinare [30].

Popcorn.js (Fundația Mozilla) este o bibliotecă nouă JavaScript în regim sursă deschisă și care interacționează cu HTML5 pentru a facilita hipervideo interactiv [35]. Acest instrument oferă peste 25 de extensii prin care video poate fi conectat cu informații din Facebook sau Google Maps. Prima versiune de Popocorn.js a fost lansată în 2010 și a avut ca public țintă programatorii, aceștia fiind încurajați să testeze biblioteca și să adauge cod util și extensii care să contribuie la dezvoltarea funcționalității ei.

Următorul pas a fost făcut prin lansarea în 2012 a Popcorn Maker, o aplicație ușor de folosit de publicul larg și o interfață grafică pentru Popcorn.js. Utilizatorii pot să creeze propriile materiale video interactive cu elemente de pop-up text cu informații de pe site-uri precum Wikipedia. De exemplu, dacă vocea relatează despre un oraș, o hartă cu zona respectivă poate să fie afișată în partea stângă a ecranului, ca în figura următoare.

Figura 2.4: Exemplu de hipervideo generat cu Popcorn.js

Popcorn se diferențiază de WebCHM prin faptul că abordează elemente diferite de hipervideo. În timp ce WebCHM oferă o structură tehnică mai abstractă și generală cu o modalitate de a clasifica materialele video și adnotările decuplate de video, Popcorn aduce împreună materialul video cu adnotările, într-un mod mai simplu, dar cu anumite limitări [36].

O altă platformă recentă de hipervideo a fost Wirewax [37], deschisă către publicul larg, și permițând adnotarea clipurilor video cu metainformație, fie linkuri externe, fie alte clipuri video. Accentul Wirewax cade pe latura comercială, și pe integrarea produselor interactive în imaginea video. Dezavantajul platformei însă este implementarea sa în Adobe Flash în loc de HTML5.

Weston [36] observă că HTML5 este încă în stadiul incipient de dezvoltare, iar hipervideo are potențialul de a revoluționa modul în care folosim Web-ul atât în domeniul social, cât și în domeniul afacerilor. Dacă World Wide Web a fost inventat pentru a partaja documente via o rețea largă interconectată, hipervideo poate deveni versiunea sa vizuală. Abordările, modelele și implementările descrise mai sus sunt doar primii pași în acest domeniu nou al hipervideo, la care și această teză își propune să aducă o contribuție.

Nevoia de interacțiuni bogate cu materialele video

Există mai multe aspecte care trebuie luate în considerare pentru crearea de materiale video interactive. În primul rând, aspectele tehnice – tehnologiile folosite care permit o aplicatie socială de hipervideo. În al doilea rând, conceptul și designul interactivității utilizatorului cu aplicația sunt cruciale, pentru a crea o experiență intuitivă și antrenantă.

Calitatea informației furnizate, metainformația, precum și relațiile care se stabilesc între diferitele elemente media integrate pentru un asemenea sistem interactiv sunt esențiale pentru asigurarea unei experiențe de calitate maximă. Și nu în ultimul rând, contează decisiv calitatea experienței produse utilizatorului și dimensiunea social-interactivă.

Consumatorii de conținut media pot fi împărțiți în două mari categorii din punct de vedere al interacțiunii cu media, chiar dacă nu pot fi încadrați exclusiv în niciuna din ele. În primul rând, există utilizatori predominant pasivi, care asimilează informația fără a da dovadă de multă inițiativă în a-și modela parcursul propriu prin informație.

Utilizatorii predominant activi pot fi considerați cei care îsi dau concursul într-o măsură mult mai mare decât prima categorie în a descoperi informație nouă, a afla lucruri conexe, a-și crea un traseu propriu de asimilare a informației, și în plus, sunt cei care contribuie prin reacțiile lor la dezvoltarea mediului general informațional.

În domeniul video, televiziunea clasică și mediile inițiale de înregistrare a imaginilor în mișcare au incurajat predominant consumul pasiv de informație video. Însă evoluția World Wide Web a schimbat percepția generală a utilizatorului și așteptările sale de la conținutul informațional oferit. În special revoluția Web 2.0 a dus la schimbarea percepției asupra consumatorului, de la un agent predominant pasiv la un agent activ, direct implicat în procesul de generare de conținut. [38]

Acest lucru nu a lăsat dimensiunea audio-video neafectată. Democratizarea mijloacelor de filmare și editare, precum și apariția platformelor de partajare video al căror exponent principal este Youtube este un semnal clar al schimbării unor lucruri fundamentale în sfera audiovizuală.

De asemenea, aparitia zonelor de fuziune între televiziune și Internet au devenit fenomente dominante chiar și comparativ cu alte dezvoltări de vârf (depășind de exemplu televiziunea 3D [39]). Au apărut sistemele IPTV, media playerele conectate la internet și așa-numitele televizoare inteligente (SmartTV) cu conexiune la Internet încorporată și un browser ce permite navigarea și interacțiunea direct prin intermediul televizorului, considerat până recent un mijloc unidirecțional de transmisie a informației.

De asemenea, un studiu recent efectuat de Cisco [40] arată că terminalele mobile – tabletele și telefoanele inteligente – sunt tot mai folosite în accesarea materialelor video, în 2018 estimându-se că video va constitui două treimi din totalul informațiilor transmise pe dispozitivele mobile.

Au fost efectuate studii pentru determinarea rolului materialelor video interactiv în procesul de învățare și transmitere eficientă a informației, în contextul procesului educațional. Zhang și alți cercetători [9] au comparat 3 cazuri distincte în cazul folosirii unei platforme digitale educaționale – cazul în care este folosit video interactiv, cel în care este folosit material video neinteractiv (obișnuit) și cel în care nu a fost folosit deloc material video – comparându-le suplimentar cu scenariul unei clase normale.

Rezultatele lor indică faptul că studenții care au beneficiat de materiale video interactive în cadrul procesului de învățare au obținut performanțe de învățare mult mai bune, avînd și un grad mai mare de satisfacție, comparativ cu toate celălalte scenarii.

Notabil, același studiu constată că în cazul folosirii video obișnuit neinteractiv, nu au fost observate îmbunătățiri față de scenariile fără video. Concluziile acestui studiu subliniază importanța integrării de video interactiv în platformele educaționale, nu doar a materialelor video obișnuite, pentru a atinge o eficiență bună a procesului de învățare și un nivel ridicat de satisfacție în rândul studenților [9]. Acest principiu consider că poate fi extins și la alte domenii, dincolo de cel educațional studiat.

Modalități de interacțiune cu video

În prezent, la nivel general, există modalități de a interacționa cu un clip video în mediile interactive, însă la nivel redus. Utilizatorii pot alege să deruleze prin materialul video la o viteza sporită de redare, să pună pe pauză sau să reia redarea clipului. Pentru emisiunile difuzate prin televiziune, dispozitivele de tip DVR (Digital Video Recorder) permit înregistrea programatică a anumitor emisiuni din grila TV și redarea lor ulterioară, la un moment convenabil pentru consumator (time-shifting). Iar paradigma de video-la-cerere a capacitat utilizatorul să aleagă dintr-o librărie de materiale ce anume dorește să urmărească.

Mai recent, în special în mediile interactive, există o mai bună clasificare și categorisire a materialelor video, prin organizarea lor în categorii, etichetarea lor cu anumite cuvinte cheie care permit corelarea materialelor în funcție de conținut.

Însă în cazul mediului interactiv dominant, World Wide Web-ul, dacă integrarea textului, a imaginilor și a hiperlegăturilor este de mult extrem de bine implementată și indexabilă, audio și video pe mediul WWW sunt încă obiecte străine neadaptate la Web. Aceste două tipuri de media, cele mai angrenante în momentul actual, pot fi incorporate în paginile web folosind extensii (plugin-uri) externe integrate în browser (metoda dominantă fiind Flash, cu alternativele Quicktime, Windows Media si RealPlayer). Din punctul de vedere al navigatorului web, un clip video astfel încapsulat în pagină este complet opac din punct de vedere al conținutului și al adresării informației prezentate în clip.

Metainformație corelată cu materialul video

Interacțiunile bogate cu un material video nu pot exista în afara generării de informație corelată cu imaginile, tema și conceptele prezentate într-un material video. Interactivitatea pentru orice media folosită presupune o profunzime informațională pe care utilizatorul să o poata explora și asocia cu alte informații, partajând-o de asemenea cu alți utilizatori.

Această informație descriptivă despre un anumit clip video, suplimentară simplei redări ale cadrelor ce compun clipul video, este numită metainformație video, sau metadata video. Ea poate fi generată fie manual, de către un creator uman, fie automat prin diverse mijloace de procesare a clipului video. Informația astfel generată descrie materialul video curent, și poate fi folosită pentru a identifica informații suplimentare asociate temelor ce apar în video.

Din punct de vedere al conținutului și al conceptelor prezentate într-un clip, un material video a însemnat o cutie neagră. În producția materialelor video, este larg folosit conceptul de "timecode", generat de echipamente dedicate sau circuite integrate în echipamentele de captură și editare video, acesta servind la cronometrarea și identificarea precisă a conținutului video, la nivel de cadru. Redacțional, acest time code era folosit apoi de redactori pentru a adnota materialul video, descriind tematic conținutul reprezentat între două timecode-uri succesive.

Inițial acest lucru era făcut pe hârtie, iar ulterior sistemele de gestiune digitală a materialelor media (MAM – Media Asset Management Systems) au preluat acest concept, permițând definirea de metainformație în interiorul unui clip video. Aceste sisteme MAM însă sunt prohibitiv de scumpe și complexe ca și structură, ceea ce a facut ca acest concept să fie folosit exclusiv în interiorul industriei media profesionale, iar dimensiunea de interactivitate este relativ redusă. Acest aspect s-a schimbat în urma apariției internetului.

Din punct de vedere tehnic, metainformația poate fi stocată în interiorul fișierelor video, în câmpuri special definite prin standarde existente, sau poate fi salvată în sisteme dedicate de gestiune – baze de date. În primul caz, metainformația este stocată în antetul fișierului video, în același fișier, câmpurile disponibile pentru metainformație fiind date de structura standardului video folosit.

Această opțiune are avantajul de a avea metainformația asociată direct cu materialul video referit, însă accesul la metainformație este mai lent, fiind necesară procesarea fișierului video care are dimensiuni de obicei mari. O alternativă mult mai rapidă este stocarea acestei metainformații în sisteme de gestiune de date dedicate, cu timpi mici de răspuns la interogări, dar cu dezavantajul de a fi separate de fișierele video la care se face referință.

Așa cum specificam în capitolul introductiv, materialele video oferă o experiență extrem de antrenantă pentru utilizator, însă sunt mult mai dificil de indexat și organizat din cauza mediului video în sine și a volumului uriaș de informație de procesat, comparativ cu informația textuală, sau chiar imaginile statice. Acest lucru face dificilă identificarea și localizarea materialelor video relevante și importante pentru o anumită temă sau căutare. Materialele video care nu posedă metainformație relevantă descriptivă sunt practic invizibile pentru un utilizator care caută o informație specifică.

Consider că există mai multe tipuri de metainformație aferentă unui clip hipervideo, detaliindu-le în Tabelul 1.

Tabel 1: Tipuri de metainformație pentru hipervideo

O primă soluție pentru a completa materialul video cu informație despre video (metainformație sau metadata) este prin generarea ei manuală, definind atribute ca titlul unui video, descrierea lui, etichete și prin asocierea clipului video unei categorii predefinite. Acest aspect a fost practic implementat în toate sistemele de video la cerere existente pe piață, în figura 2.5 fiind prezentată interfața de generare a acestor informații în cadrul platformei Youtube.

Figura 2.5: Interfața de încărcare a unui clip video pe Youtube și de generare de metainformație manuală de către utilizator

Ca pas suplimentar, se poate recurge la adnotarea conținutului video cu informații suplimentare asociate, suprapuse peste video sau într-un spațiu adiacent, care să explice și să extindă semnificația informației prezentate.

Dincolo de o simplă oferire de metainformație despre video (scriptul video-ului, subtitrare, titlu, descriere, etc), aceste adnotări permit un nou nivel de interacțiune a utilizatorului cu materialul video, prin clarificarea informației vizualizate și prin oferirea unei metode de navigație ce explorează mai în profunzime subiectul adnotat în video prin definirea unor hiperlegături [41].

În figura 2.6 este prezentată interfața de adnotare a cunoscutei platforme de partajare video Youtube.

Figura 2.6: Interfața de adnotare temporalo-spațială a Youtube [41]

Pe lângă definirea manuală a acestor câmpuri de metainformație descriptivă și de adnotări suplimentare, există și alte metode automate de procesare a materialelor video.

Această problemă a căutării și identificării unui material video prin metainformație descriptivă nu se abordează la un singur nivel, fie el automat sau manual, sau reprezentând doar video, audio, imagine statică sau text, ci și prin soluții integrate care țin cont de toate aceste elemente simultan.

Fragmente media

World Wide Web Consortium (W3C), o entitate multi-organizațională condusă chiar de către fondatorul WWW, Tim Berners-Lee, are ca scop definirea de recomandări și trasarea de direcții pentru dezvoltarea World Wide Web-ului pe termen lung. Pentru video, una din specificațiile cheie [42] definește noțiunea de "fragmente media" (media fragments).

Principalul scop al acestei specificații a fragmentelor video este adresarea unor subsecțiuni din interiorul unor clipuri video, în mod similar cu ancorele în limbajul HTML. Aceste ancore, definite prin adăugarea unui # urmat de numele ancorei, fac referire la o subsecțiune dintr-o pagină curentă, adnotată ca atare.

În exemplul de mai jos, se face referire la secțiunea de concluzii a paginii web pagina.html.

http://www.site.ro/pagina.html#concluzii

În mod similar, noile recomandări W3C pentru a identifica unic o secțiune din interiorul unui video, propun adresarea materialelor video prin URI-uri de forma prezentată mai jos [43]:

http://www.site.ro/exempluvideo.mp4#t=10,20&xywh=20,20,200,100

Prima parte a adresei unice de identificare (URI) a acestui fragment media, http://www.site.ro/exempluvideo.mp4, specifică locația fizică a fișierului video. Caracterul # indică faptul că partea ce urmează este un fragment din clipul video la care se face referirea, având două componente posibile – dimensiunea temporală și cea spațială.

Dimensiunea temporală este dată de parametrul t, și poate avea una sau două valori, separate prin virgulă, menționând începutul și sfârșitul fragmentului, în secunde.

Dimensiunea spațială este specificată de parametrul xywh care primește patru valori, primele două fiind coordonatele punctului de start al chenarului spațial (stânga-sus), iar următoarele reprezentând înălțimea și lățimea fragmentului definit. Aceste valori spațiale pot fi reprezentate în pixeli (implicit) sau în procente din dimensiunea clipului video.

Exemplul de URI mai sus definește un fragment media descris de un chenar cu punctul de start având coordonatele x=20 pixeli, y=20 pixeli, și având dimensiunea 200px lățime și 100px înălțime, făcând referire la informația cuprinsă doar între secundele 10 si 20 ale clipului video exempluvideo.mp4, și nu la tot materialul video.

Adnotări

În crearea unei experiențe bogate prin intermediul video interactiv și adaptarea materialelor video la paradigma World Wide Web, noțiunea de corelare a altor informații suplimentare este cu neputință de evitat. În cazul unui site web obișnuit, o pagină web oarecare conține hiperlegături atât spre alte secțiuni din acceași pagină, cât și spre alte pagini din interiorul aceluiași site web, și de asemenea, spre pagini web aflate în cadrul altor site-uri și pe alte servere decât cel local. De asemenea, aceste hiperlegături pot indica fie alte pagini, fie imagini, resurse Linked Data sau alte materiale multimedia.

În mod similar, un sistem de video interactiv poate fi privit ca un sistem video care conține referințe spre informații aflate atât în interiorul aceluiași clip, cât și spre alte clipuri și resurse multimedia gestionate pe același server, sau spre alte informații din afară. În primul caz, cel în care se face referire spre o altă subsecțiune din cadrul aceluiași clip video, poate fi folosită noțiunea de fragment video, similară cu un capitol dintr-un film pe DVD.

Adăugarea acestor referințe se face prin adnotări ale clipului video. Pe baza specificațiilor fragmentelor media, se pot construi adnotări de acuratețe mare a clipurilor video. Pentru a acoperi toate cazurile care pot apărea, adnotările trebuie să fie atât spațiale, descriind o anumită secțiune din imagine, cât și temporale, adresând o subsecvență temporală prin specificarea unui interval de timp când adnotarea este validă (de exemplu, materialul video conține o secvență în care se vorbește despre un concept anume, între secunda 10 și 20). Cele două tipuri de adnotări pot fi folosite împreună, pentru a descrie adnotări temporalo-spațiale complexe, referențiind un obiect din imagine care apare pe o durată limitată a clipului.

Figura 2.7: Adnotări ale clipurilor video, reprezentate în timp

În figura de mai sus, am indicat reprezentarea în timp a adnotărilor pentru un clip video, în care pentru fiecare adnotare, există un moment t-start și un t-stop, exprimat în secunde. Așa cum se poate observa, pot apărea cazuri în care mai multe adnotări temporale se suprapun într-un interval de timp, reprezentat în figură de Adnotarea 1 și Adnotarea 2.

Din punct de vedere spațial, putem avea o situație similară, în cazul în care anumite elemente din cadru au forme neregulate și forțează suprapunerea mai multor adnotări spațiale, ca în figura următoare.

Figura 2.8: Adnotări ale clipurilor video, reprezentate în spațiu, în cadrul video

Mai detaliat, ca și consecință a modului în care sunt definite fragmentele video, adnotările pot fi de mai multe feluri:

adnotări conceptuale – se specifică faptul că un anumit clip video era despre un concept generic valabil pe tot parcursul materialului video (de exemplu, în cadrul unui documentar adnotat, se vorbea despre terorism)

adnotări temporale – se specifică faptul că un anumit concept, obiect sau persoană, apare între secunda t1 și secunda t2 (de ex: în clipul video respectiv se vorbea despre atacul de la 11 septembrie 2001, între secundele 10-15)

adnotări spațiale – se specifică o regiune a imaginii care are o semnificație anume (de ex: în colțul din dreapta sus al imaginii apare o siglă de post)

adnotări spațialo-temporale care combină adnotările spațiale și temporale (de ex: în clipul video respectiv apărea președintele Bush între secundele 15-20, într-o anumită subregiune a imaginii video, și doar pentru o durată finită ca timp)

Un alt aspect este dat de nevoia definirii unor adnotări în mișcare, în care subiectul adnotării se deplasează în timp în cadrul video. O implementare simplă care permite definirea unor asemenea adnotări în mișcare, însă fără a permite elemente de interactivitate ale acestor adnotări, a fost implementată de către Vondrick, Patterson și Ramanan [44] în 2013, și poate servi ca model pentru a integra adnotările în mișcare în sistemul prezentat mai sus. Interfața VATIC de definire a adnotărilor în mișcare de către utilizatori obișnuiți este prezentată în imaginea de mai jos.

Figura 2.9: Adnotări în mișcare – sistemul VATIC [44]

Din punct de vedere al conținutului și semnificației informației, aceste adnotări pot fi generate manual, de către un producător de video interactiv care augmentează informația video cu hiperlegături spre resurse externe, folosind o interfață grafică ce permite adnotarea interactivă.

O altă posibilitate este ca aceste adnotări să fie generate automat, de către calculator, prin diverse metode de extragere algoritmică a metainformației. În această situație există o varietate de metode printre care amintesc procesarea histogramei, recunoașterea de imagini și de obiecte în imagine, conversia audio-text și procesarea rezultatului. Pentru metainformația produsă automat, este recomandabilă verificarea ei de către un agent uman înainte de publicare. Prin însumarea tuturor acestor metode, automate și manuale, și se obține un set de adnotări relevante pentru un clip video dat. Prezentarea mai pe larg a acestor concepte va fi prezentată în subcapitolul 4.1

În funcție de tipul adnotărilor externe propriu-zise, pot exista de asemenea mai multe cazuri. Adnotările externe pot referi spre imagini, pagini web, alte clipuri video normale sau interactive, sau pot fi adnotări complexe multidimensionale. În acest ultim caz, distingem de asemenea adnotări clasice (funcționând pe o structură de tip XML sau cu baze de date relaționale) și adnotări semantice, combinând dimensiunea de video interactiv cu norul de date Linked Data.

Figura 2.10: Adnotări video – concept

O adnotare semantică ce face referire la un element dintr-o rețea Linked Data, prin interogări semantice, poate genera informații mult mai complexe, urmărind relațiile între informații corelate cu adnotarea propriu-zisă. Astfel, o adnotare către o resursă aflată în sistemul Linked Data poate returna mult mai mult decât strict elementul adnotat, putând de asemenea returna și resurse corelate din alte surse, pe baza unor interogări inteligente. Suplimentar, se pot folosi așa-numitele Rule Engine-uri, algoritmi automați de creare suplimentară de legături și corelații suplimentare.

Principiile de funcționare Semantic web nu sunt însă scopul acestei lucrări, ele fiind doar amintite ca mijloc de obținere a unor informații suplimentare corelate cu materialul video. Folosind AJAX și servicii web (web services), informațiile obținute în acest mod pot fi afișate direct în pagina aplicației sau integrate în playerul video interactiv. Aceste aspecte sunt prezentate în detaliu în subcapitolul 3.5 al tezei de față.

Decizii interactive – implicarea activă a utilizatorului în narațiunea video

În era televiziunii, telespectatorul avea opțiuni limitate privind conținutul video pe care îl urmărea, el putând fie să urmărească liniar ce era difuzat la acel moment, fie să comute canalul, alegând între un număr limitat de opțiuni și canale. Apariția discurilor optice care puteau reda orice secțiune de video înregistrată pe ele, la orice poziție, a eliminat nevoia de a reda liniar o narațiune video, permițând saltul neliniar în cadrul unei narațiuni.

Suplimentar, noțiunea de hiperlegături în WWW a implementat definitiv dimensiunea de neliniaritate și decizie directă a utilizatorului în traseul informațional. Pe platformele actuale de partajare video pe web, utilizatorul poate alege pentru vizionare dintr-o listă de video-uri înrudite cu cel tocmai vizionat.

Însă anumite materiale video au o formă narativă și sunt corelate și dependente de alte materiale precedente (cum ar fi un film sau documentar, sau un curs video pe o anumită temă), și pentru acest caz, o secvență anume dintr-un asemenea material nu are sens fără secțiunile precedente.

Influența jocurilor pe calculator, având un fir logic și cronologic, dar fiind neliniare și interactive prin definiție, și-a făcut simțită influența și în domeniul video [45]. În cadrul jocurilor, utilizatorul poate opta dintr-o multitudine de opțiuni la orice moment, cu consecințe previzibile și imprevizibile. Anumite jocuri merg explicit pe opțiuni care duc utilizatorul într-o direcție ireversibilă în cadrul jocului și a narațiunii prezentate.

Putem aplica aceeași paradigmă prezentă în cadrul jocurilor interactive și la hipervideo. În special pentru contextele în care materialele video au o succesiune logică și fac parte din narațiuni structurate dincolo de conceptul de video înrudite pe baza unor cuvinte cheie [29], este necesară implementarea unui sistem de decizii care să permită utilizatorului să personalizeze experiența sa cu narațiunea video.

Tehnologii și concepte noi ce permit interactivitatea cu video

După cum menționam în capitolul precedent, în ultimii ani se constată o accelerată tendință de unificare a domeniilor video-TV cu mediul online. Direcția în care se îndreaptă televiziunea, producătorii de conținut video și tehnologia de comunicare per ansamblu presupune faptul că conținutul video trebuie să fie disponibil oricând și posibil de urmărit pe platforme și dispozitive multiple, pe diverse tipuri de ecrane și rezoluții.

În centrul acestui concept este noțiunea de conectivitate și de adaptare a conținutului video la infrastructura de livrare de conținut a Internetului, și la integrarea sa în World Wide Web.

HTML5 și CSS3

Limbajul de prezentare al WWW este limbajul HTML, aflat în prezent în plină tranziție. Standardul emergent HTML5-CSS3 vine să extindă și să înlocuiască vechile standarde HTML4-CSS2 care limitau folosirea aplicațiilor media bogate în conținut și de mare interactivitate. Aceste limitări au fost principalul motiv care a favorizat aplicațiile de navigator (plugins) dezvoltate de terțe companii, notabil Macromedia-Adobe, ce suplineau această lipsă.

Limbajul de client Javascript, ce permitea îmbunătățirea experienței utilizatorului cu informația din pagina web a fost de asemenea extins prin biblioteci care optimizau și fluidizau acest proces, cum ar fi bibliotecile jQuery, Mootools și altele. Suplimentar, toate aceste tehnologii nu sunt deținute de o companie sau de o instituție, ele fiind deschise și de largă adopție.

Principalul avantaj al folosirii HTML5 în contextul video este dat de eticheta <video> conținută în cadrul specificațiilor sale [46,47]. Eticheta (tag-ul) <video> permite includerea de clipuri video direct într-o pagină, în mod similar cu imaginile statice.

De asemenea, este facilitată și stilizarea sa prin stiluri CSS și manipularea sa programatică prin intermediul limbajului Javascript și a bibliotecilor derivate, pentru a adăuga elemente de design și interactivitate, a permite controlul redării video și a îmbogăți materialul video cu alte seturi de date relevante contextului temporal sau spațial prezentat în video, la nivel de client [48].

Includerea clipurilor video direct în pagină prin această etichetă permite evitarea folosirii soluțiilor proprietare de încapsulare a video-urilor într-un site prin intermediul așa-numitelor plugin-uri, cea mai populară soluție fiind Adobe Flash. Din punct de vedere al aplicației și al structurii DOM, în cazul includerii unui video prin plugin-ul/player-ul video Flash, video-ul în sine e o cutie neagră al cărei conținut nu poate fi accesat decât prin mijloace externe [46].

De asemenea, Adobe Flash nu este suportat de anumite platforme mobile, cel mai notabil dispozitivele iOS (iPhone/iPad/iPod), care încearcă forțarea adaptării standardului HTML5 în domeniul web video.

Codul HTML de integrare a unui clip video într-o pagină web este de forma celui de mai jos.

<video id="clipvideo" width="640" height="360" controls autoplay>
<source src="http://site.ro/video.ogv" type="video/ogv" />
</video>

Includerea acestui cod într-o pagină web va genera un element video integrat în pagină, de dimensiunile specificate (640×360), care va porni automat redarea (autoplay) și va include elemente de control al redării clipului (parametrul controls). Aceste elemente de control ale redării sunt specifice fiecarui navigator web, dar pot fi inlocuite și îmbunătățite prin alte metode, cum vom vedea în continuare. Rezultatul acestui cod de embed este prezentat în Figura 2.11.

Figura 2.11: Un clip video integrat într-o pagina web, prin eticheta <video>

SmartTV-urile livrate în ultimii ani conțin și ele un navigator încorporat care permite navigarea prin intermediul telecomandei, de obicei un navigator în sursă deschisă, cel mai des folosit fiind Opera. Set-top-box-urile funcționează pe același principiu, având și ele încorporat un navigator controlabil printr-un terminal.

Toate aceste lucruri sunt avantaje inegalabile pentru soluții video implementate în HTML5. Aceasta este cea mai bună opțiune pentru implementarea părții de prezentare a materialelor, în detrimentul altor tehnologii proprietare. Principalul avantaj este faptul că, în contextul răspândirii mari a Internetului, standardul HTML5 este acum suportat de o largă varietate de dispozitive, de la calculatoare, la mobile, tablete și televizoare moderne.

Codecuri și formate video moderne

Orice fișier video poate fi privit din două puncte de vedere – al containerului/formatului și al codecului. Codecul reprezintă algoritmul folosit pentru codarea și decodarea la recepție a informației video (de unde acronimul CODEC – COder-DECoder), pentru a obține un compromis acceptabil între calitatea imaginii și mărimea fișierului rezultat.

Astfel, pentru un clip video obișnuit, vom avea atât un codec audio, cât și unul video, deși există cazuri rare în care informația video sau audio este necomprimată. Containerul se referă la fișierul care împachetează împreună informația audio și video pentru livrare, ca în figura de mai jos.

Figura 2.12: Codecuri și containere video

Cu toate avantajele oferite de sistemul HTML5 si eticheta <video> pentru redarea de video interactiv, una din dificultățile implementării constă în lipsa de standardizare și uniformizare a sistemelor și codecurilor video suportate de navigatoarele existente.

Principalele navigatoare folosite în momentul actual – Internet Explorer, Safari, Firefox, Chrome si Opera – nu acceptă un codec/format video unic care să poata fi folosit ca și standard. Primele două navigatoare, oferite de companii comerciale, susțin standardul proprietar H264-Mpeg4. Firefox, Chrome și Opera însă prezintă alternativa unor codecuri în regim sursă deschisă, fie ele OGG Video de la Theora, fie WebM dezvoltat de Google în regim sursă-deschisă. Aceste sisteme în regim sursă deschisă folosesc codecuri dezvoltate special pentru video pentru web, ele fiind codecul VP8 pentru standardul WebM și Theora-Vorbis pentru OGV.

Proliferarea dispozitivelor mobile a dus la complicarea suplimentară a acestui aspect, piața fiind dominată de sistemele de operare Android si iOS. Dispozitivele ce rulează pe iOS implementează o variantă modificată a browserului Safari și permit redarea video în format mp4-H264. Varietatea terminalelor Android și a diverselor variante de Android pune uneori probleme implementării video, însă versiunile moderne ale sistemului de operare permit redarea video în mp4-h264 și webm-VP8.

Tabelul de mai jos prezintă sintetic situația actuală a codecurilor și formatelor video în HTML5 și modul în care acestea sunt compatibile cu navigatoarele web existente.

Tabel 2: Video în HTML5 – Codecuri video și navigatoare

Pentru ca o aplicație folosind video în HTML5 să fie funcțională pe toate platformele și ecranele fără a apărea probleme de vizualizare, este necesar să fie folosite mai multe fisiere video cu aceeasi informatie și conținut video, însă codate folosind toate cele 3 codecuri suportate de navigatoarele dominante: MP4-H264, WebM-VP8 si OGV-Theora.

Definirea etichetei <video> în HTML5 permite navigatorului analizarea tuturor fișierelor video specificate ca surse, evaluarea posibilității de a le reda folosind codecurile suportate nativ, și redarea primului fișier care este compatibil cu aceste codecuri.

Pentru transcodarea materialelor video în cele 3 variante, există o varietate de opțiuni, de diverse grade de complexitate. Unul din cele mai populare și ușor de folosit programe de transcodare video, Miro Video Converter, facilitează transcodarea multiplă a fișierelor video sursă în formatele permise de HTML5, deși nu permite modificarea parametrilor de compresie – rata de bit, rezoluția, etc. Interfața Miro Video Converter este prezentată în imaginea de mai jos.

Figura 2.13: Interfața programului Miro Video Converter – transcodare video multiplă în formatele acceptate în HTML5

Mai jos este prezentat codul multisursă de includere în pagina web pentru un clip video, în formatul specificat de HTML5, garantat să funcționeze pe toate dispozitivele, platformele și navigatoarele moderne. Se observă folosirea multiplă a etichetei <source> pentru cele 3 variante video ale aceluiași clip.

<video id="clipvideo" width="640" height="360" controls autoplay>
<source src="http://site.ro/video.ogv" type="video/ogv" />
<source src="http://site.ro/video.webm" type="video/webm" />
<source src="http://site.ro/video.mp4" type="video/mp4" />
</video>

Limbaje de programare client – Javascript și bibliotecile sale derivate

Având în vedere faptul că standardul HTML5 permite prin eticheta <video> integrarea directă a materialelor video în pagină și elimină nevoia de a folosi programe externe (plugin-uri) pentru redarea video, aceste materiale pot fi manipulate și procesate prin limbajele care rulează la nivelul navigatorului clientului.

Limbajul principal de acest tip este Javascript, având și biblioteci derivate (Javascript frameworks) care permit implementarea mai rapidă a interactivității și manipularea facilă a elementelor din pagină (DOM), diverse animații și efecte vizuale, precum și afișarea dinamică de conținut încărcat de pe un server prin tehnologia asincronă AJAX. Printre aceste biblioteci amintim jQuery, Mootools, YahooUI, Prototype si altele, cea mai răspândită la momentul actual fiind jQuery.

Dincolo de accesul și controlul eficient al elementelor din DOM în general, punctul de contact dintre Javascript, CSS3 și eticheta <video> a HTML5 a dus la apariția unor "playere" video care să permită stilizarea avansată și includerea unor elemente de inteligență și interactivitate mult superioare simplei includeri prin intermediul etichetei <video>. Fiind orientate pe obiect, acestea prezintă o varietate de metode care permit extinderea funcționalității dincolo de simpla vizionare a unui material video direct în pagină.

Figura 2.14: Un video integrat în pagina web folosind playerul VideoJS

Limbajele de programare web ce rulează pe server și bazele de date pentru stocarea metainformației

Un server web este o aplicație ce permite servirea de resurse media accesate de către utilizatori folosind Internetul. Această aplicație rulează de obicei pe un calculator puternic, dedicat special acestei sarcini, și servește la găzduirea paginilor web.

Apărute pentru a introduce elemente programatice în paginile web, aceste limbaje permit introducerea de inteligență în aplicațiile web, compensând ceea ce lipsea limbajului de prezentare HTML. Ele se instalează fie ca servicii separate, fie ca module ce extind funcționalitatea unui server web obișnuit. În această categorie amintesc limbajele PHP, ASP, JSP și altele.

Una din principalele avantaje și utilizări ale acestor limbaje este conectarea la bazele de date și procesarea unor seturi de date structurate. Astfel, se permite personalizarea conținutului web prin afișarea anumitor informații specifice pentru un anumit utilizator, precum și alte informații complexe care necesită procesare avansată. Fără această dimensiune, este extrem de dificilă dezvoltarea unor aplicații complexe.

Web 2.0 și tehnologiile media sociale

Un pas înainte în dezvoltarea interactivității in World Wide Web a fost apariția așa-numitului Web 2.0 participativ. O direcție majoră introdusă de această nouă paradigmă, relevantă pentru studiul de față al video interactiv, a fost dimensiunea participativă și socială. Web 2.0 a pus accentul pe căutarea de informație și distribuirea ei facilă spre alte destinații, precum și corelarea ei tematică. A avut de asemenea ca scop abilitarea utilizatorilor de a contribui cu conținut media propriu, de a organiza informația prin etichete și de a refolosi această informație în alte proiecte proprii. Și nu în ultimul rând, a oferit o plajă largă de unelte pentru ca utilizatorii să poată comunica și partaja informația cu persoanele din cercul lor social, pe platforme cunoscute gen Facebook și Youtube, revoluționând comunicarea online [49].

Un alt aspect valoros introdus de Web 2.0 a fost reprezentat de aplicațiile media bogate online (RIA – Rich Internet Applications), cu scopul de a aduce mai multă savoare experienței din navigator și a o face mai asemănătoare aplicațiilor software ce rulau offline, pe calculator. Aceste aplicații erau implementate fie prin folosirea unei mașini virtuale sau printr-un plugin pentru navigatorul clientului, fie prin soluții Javascript-Ajax. Web 2.0 include și folosește o mare parte din tehnologiile descrise în subcapitolele precedente.

Ryan Shaw propune în figura de mai jos [50] o ilustrare interesantă a relațiilor utilizatorilor cu metainformația și elementele media în modelul său MSMDX (Media Streams Metadata Exchange).

Putem observa clasificarea utilizatorilor pe 4 nivele, în funcție de rolul lor în raport cu media (creator sau consumator) și cu metainformația (generare explicită sau implicită). În funcție de cele 4 tipuri de utilizatori, metainformația este clasificată ca metainformație de producție originală, de atenție, de remixare și descriptivă.

Figura 2.15: Ilustrarea relațiilor utilizatorilor cu metainformația și media [50]

Semantic web și Linked Data

Web-ul actual a fost dezvoltat de oameni, pentru oameni. Însă cantitatea enormă de informație prezentă online face dificilă găsirea și corelarea eficientă a informațiilor. Ca răspuns la această problemă au apărut motoarele de căutare, roboți (algoritmi) de indexare a paginilor web, clasificarea importanței siturilor web (ranking), metainfomație pentru paginile web dezvoltată special pentru motoarele de căutare (optimizare pentru motoarele de căutare, sau SEO) și alte tehnici de indexare și minare a informației. Însă oricât de avansate ar fi aceste unelte, interpretarea și clasificarea corectă a informațiilor publicate pentru agenții umani este dificilă pentru algoritmii automați.

Principiile Web-ului semantic implică producerea și organizarea de conținut într-un mod în care sa fie accesibil, interpretabil și usor de organizat atât pentru oameni, cât și pentru calculatoare și mașini care să poată interpreta acest vast univers informațional. În acest mod, Semantic Web înseamnă un pas înainte față de World Wide Web-ul actual. Acesta din urmă implică o rețea uriașă de pagini scrise de oameni și pentru oameni, dar relativ dificil de interpretat automat de către mașini/calculatoare, și deci dificil de corelat cu alte seturi de date din alte surse, în ciuda performanțelor crescute ale motoarelor de căutare de tip Google/Yahoo.

Web-ul Semantic implică conceptul de "Linked Data". În Semantic Web, fiecare unitate atomică de informație (video, secvență de text, imagine, etc) poate fi identificată printr-un așa-numit URI (Unique Resource Identifier), o adresă unică similară cu URL-ul paginilor web actuale. Noțiunea de Linked Data presupune conectarea dinamică a seturilor de date gestionate de indivizi și instituții, cu scopul de a crea legături noi între date eterogene din surse diverse, și a îmbogăți informația existentă cu alte conexiuni informaționale noi – a aduce plusvaloare informației existente prin integrarea ei într-un sistem complex de date.

Majoritatea instituțiilor și agenților prezenți în sfera digitală au în gestiune un set de date (baze de date cu produse, clienti, articole, date personale, un graf al relațiilor, etc), cu semnificația dată de un anumit "vocabular" specific fiecărei instituții/individ. Semantic web-ul permite conectarea tuturor acestor seturi de date, prezentate într-un mod accesibil interpretoarelor automate prin corelarea vocabularelor seturilor de date componente.

Ca exemplu practic, prevăzut pentru Semantic Web, atunci când există o interogare semantică efectuată prin limbajul standard SPARQL asupra un subiect [51], răspunsul poate conține informații și date provenite de la o varietate de URI-uri din mai multe surse și origini, dincolo de cele furnizate de un singur site. Dacă definim o adnotare ce indică spre o resursă semantică, acest mecanism ne permite obținerea unor vaste informații relevante pentru conținutul materialului video. Aceste informații obținute în urma adnotării, afișate corelat cu materialul video, sunt un mecanism de realizare a clipurilor video interactive îmbogățite semantic, un domeniu aflat în prezent în atenția cercetătorilor [52,53].

Dispozitive media care pot reda video interactiv

Calculatoarele sunt prin definiție echipamente prin care utilizatorul lor poate interacționa cu informație. Iar sistemele de operare moderne permit vizualizarea video practic fără nici o constrângere. Dacă luăm în considerare vizionarea de video pe Web, singura posibilă problemă ar fi dată de codecurile video lipsă sau de absența unor programe instalate ce rulează încapsulate în navigator.

În afara calculatoarelor personale, o tendință majoră observată în ultimii ani a fost creșterea exponențială a altor dispozitive capabile din punct de vedere tehnic să se conecteze la Internet, și dezvoltarea platformelor și a aplicațiilor software pentru aceste noi dispozitive. În primul rând, din 2011, ca volum de unități vândute, telefoanele mobile inteligente, PDA-urile și tabletele au depășit calculatoarele personale [54]. O parte tot mai semnificativă de conținut media este accesat prin intermediul acestor dispozitive mobile, acest lucru fiind observat în creșterea traficului de internet mobil din ultimii ani [4]. Cu excepția telefoanelor de generație mai veche care se rezumă la funcții clasice de comunicare mobilă, aceste dispozitive mobile inteligente sunt capabile atât de navigația pe internet, cât și de redarea de material video, situat fie pe unitatea de stocare a dispozitivului, fie ca și clipuri video stocate pe pagini web. Ubicuitatea lor și aceste caracteristici tehnice fac necesară includerea dispozitivelor mobile în proiectarea oricărui sistem de video interactiv.

Dispozitivele mobile pun probleme serioase noțiunii de video interactiv prin câteva aspecte. În primul rând, prezintă un spectru larg de rezoluție și dimensiune a ecranului. De asemenea, sistemele lor de operare și aplicațiile software (de exemplu, navigatoarele) diferă, și chiar pentru aplicații video online pot apărea probleme de codecuri video, cum au fost cele descrise în secțiunea 2.4.2.

Nu în ultimul rând, conexiunea lor la internet poate varia mult, de la a folosi rețele fără fir de mare viteză care permit redarea video fluentă (WiFi, 3G, 4G), până la conexiuni mai slabe care necesită o proiectare tehnică adaptivă a fluxurilor video.

O particularitate a acestor dispozitive mobile care poate prezenta interese pentru video interactiv este dată de includerea unor circuite electronice ce permit geolocalizarea lor prin sistemul GPS, acest fapt fiind folosit pentru a personaliza conținutul oferit în funcție de poziția geografică a dispozitivului mobil.

O altă categorie de dispozitive capabile de redarea interactivă a materialelor video sunt decodoarele TV avansate (set-top box – STB) pentru cablu TV sau IPTV, acompaniate și de așa-numitele dispozitive de redare media conectate la Internet (media-playere). Acestea se conectează la televizorul clasic și permit interacțiunea utilizatorului prin intermediul unei telecomande.

Un pas suplimentar în aducerea interactivității pe televizoarele din sufrageriile telespectatorilor a fost apariția și răspândirea tot mai accentuată în ultimii ani a televizoarelor inteligente (SmartTV) [55], dotate cu conexiune la internet încorporată direct în televizor și cu un navigator web pentru redarea pe ecranul televizorului a conținutului video. Interactivitatea în acest caz se face prin intermediul unei telecomande, sau a unei tastaturi și a unui mouse fără fir dedicate pentru televizorul respectiv.

Deși pot fi amintite și alte dispozitive care pot permite video interactiv, acestea sunt principalele platforme de luat în considerare la momentul actual. Pentru toate acestea, trebuie analizate caracteristicile tehnice ale echipamentelor (puterea de procesare a informației, rezoluția ecranului, viteza conexiunii internet), caracteristicile fizice (dimensiunea ecranului, metoda de interactiune – tastatură, mouse, ecran tactil), platforma software și aplicațiile de care dispune terminalul respectiv.

În prezent, există o varietate de dispozitive capabile să afișeze video și conținut HTML, având o dispersie impresionantă de rezoluții, dimensiuni ale ecranului și capacități de interactivitate cu conținutul permise utilizatorului. Ele au particularitățile lor, fiind folosite în diverse contexte de către utilizatori, facilitând fie experiențe pasive (TV), fie mai degrabă active (PC, Mobile), în care utilizatorul este mult mai înclinat să participe.

De asemenea, contextul folosirii acestor dispozitive diferă. O experiență de vizionare pe TV presupune în general confortul unei case și poate favoriza vizionarea unor materiale de durată mai lungă, spre deosebire de folosirea unui terminal mobil care poate fi folosit practic în orice situație și locație, însă a căror caracteristici tehnice favorizează materialele scurte. Calculatoarele personale se pretează de asemenea la o mare varietate de scenarii de folosire, de la confortul căminului unui utilizator până la utilizarea unui laptop pentru a viziona clipuri în spațiul public.

Indiferent de caracteristicile individuale ale acestor dispozitive și de scenariile luate în considerare, o cerință cheie pentru a putea rula materiale video interactive într-un mod omogen pe toate aceste platforme este prezența unui navigator web capabil de redare HTML5 [56]. Pentru redarea materialului, este necesară de asemenea prezența unui procesor suficient de puternic pentru a asigura cursivitatea materialelor video interactive. Din experiența proprie, recomand un procesor cu minim două nuclee și o frecvență de operare de 1GHz. Din punct de vedere al conexiunii la Internet, un flux video acceptabil ca și calitate presupune o viteză de minim 1Mbps, deși se poate coborî această limită la 512 kbps sau chiar 384 kbps în cazuri extreme. Conexiunile prin 2G, prin viteza lor scăzută nu permit o experiență acceptabilă de video interactiv.

Uzabilitatea sistemelor de video interactiv

Această secțiune discută uzabilitatea și accesibilitatea sistemelor de video interactiv. Conform unui studiu efectuat de Tullis și Albert [57], problemele de uzabilitate apar când există probleme în a duce o sarcină la bun sfârșit sau când apare o deviere de la traseul corect, când se întreprind acțiuni greșite, când se produc confuzie, neînțelegeri sau erori, când se omit lucruri care ar trebui observate, când apar interpretări eronate cu privire la o sarcină sau un element de conținut, sau când elementele de navigație nu sunt bine înțelese.

Putem distinge două fațete ale uzabilității unui asemenea sistem. În primul rând, privind producătorii și creatorii de materiale video-multimedia interactive, este importantă crearea unei platforme ușor de utilizat și intuitive, care să faciliteze rapid adnotarea, punctele de decizie și corelarea informațiilor, simplificând la maxim procesul și evitând procesele repetitive. În al doilea rând, sistemul trebuie să fie plăcut vizual și prietenos cu utilizatorii finali care vizionează materialele video interactive, pentru a garanta succesul sistemului interactiv. Le voi aborda pe rând, la final menționând câteva lucruri despre aspectele multi-platformă și multi-ecran și despre dimensiunea socială a sistemului propus.

Uzabilitate în crearea de clipuri video interactive

Un studiu finalizat recent și desfășurat pe o perioadă de trei ani de către cercetători din California [44] a recunoscut importanța dezvoltării unui sistem de adnotare ușor de utilizat de către cei care se ocupă în mod frecvent de adnotarea materialului video. Cercetătorii au construit o interfață de adnotare pentru utilizatorii obișnuiți, ce include posibilitatea de a trasa un dreptunghi în jurul obiectului de interes. Fiecare obiect poate să aibă mai multe caracteristici care să descrie acțiunile acestuia.

Studiul susține că este foarte important ca platforma de adnotare să limiteze gradul de încărcare cognitiv pentru utilizator, separând procesul de adnotare spațială propriu-zisă de definirea atributelor adnotării, cazul contrar dovedindu-se prea copleșitor pentru persoanele care realizau adnotarea.

Pentru a limita încărcarea cognitivă a producătorului de hipervideo, este recomandabilă implementarea unor soluții care să cuprindă aplicații software și dispozitive deja familiare utilizatorului, pentru a-i permite să se concentreze pe activitatea esențială de a adăuga interactivitatea la video. Corelând această cerință cu aspectele prezentate în subcapitolele 2.4 și 2.5, putem observa că o implementare a interfeței folosind HTML5 are marele avantaj de a permite folosirea navigatorului web preferat, și un ecosistem software cu care utilizatorul se simte deja confortabil. Astfel, pot fi îndepărtate barierele inerente învățării unui sistem nou, pentru a ajuta producătorul să se focalizeze pe adnotare și intercorelarea clipurilor video interactive.

Pentru crearea clipurilor hipervideo de către producător, este recomandabilă folosirea unui calculator, pentru a obține o eficiență maximă a procesului de adnotare și corelare a clipurilor. O a doua platformă foarte răspândită ce poate fi folosită în acest proces este o tabletă sau un telefon inteligent, dotate cu un ecran tactil. Limitările date de telecomanda televizorului (deși au început să apară terminale mai complexe pentru SmartTV-uri) fac din platforma TV o opțiune neadecvată și puțin probabilă pentru generarea de clipuri hipervideo.

Ca atare, consider că interfața destinată producătorului de hipervideo în cadrul sistemului propus în această teză va trebui implementată folosind tehnologii Web, și accesată prin navigatorul web. Tehnologiile ce stau la baza sa vor trebui adaptate în așa fel încât să permită atât interacțiuni cu cursorul, cât și interacțiuni tactile în cazul tabletelor sau a altor dispozitive similare.

Fiind vorba de augmentarea clipurilor video, evident materialele video vor trebui să fie dominante în interfața grafică. Putem avea două subcazuri unde intervenția producătorului e necesară – adnotarea unui clip individual, și intercorelarea mai multor video. În primul caz, este necesară derularea clipului video pentru a se putea efectua adnotări temporale și spațiale. În al doilea caz, clipurile ce urmează să fie interconectate pot fi privite abstract, ca și noduri ale unui graf informațional.

Realizarea adnotărilor trebuie să se facă simplu, trasându-se un chenar cu cursorul calculatorului (sau degetul în cazul ecranului tactil) în jurul obiectului ce se dorește a fi adnotat, în timpul derulării materialului video. La efectuarea unei adnotări, recomand oprirea derulării materialului, și apariția unei ferestre de dialog pentru completarea metainformației aferente, fie suprapusă direct peste video (pentru a ghida atenția producătorului), fie într-o altă regiune a paginii, adiacentă la clipul video.

Pentru intercorelarea clipurilor video, consider că cea mai intuitivă implementare este definirea clipurilor ca noduri ale unui graf. Trasarea legăturilor dintre clipurile video trebuie să fie făcută prin selectarea nodului video sursă și apoi a celui destinație, ținând cursorul apăsat în acest timp (procesul select-drag-and-drop). Această acțiune este compatibilă atât cu cursorul calculatorului, cât și cu gesturile realizate pe un ecran tactil. Efectuarea acestei acțiuni definește o legătură unidirecțională între cele două clipuri video. Interfața trebuie să permită realizarea unui număr infinit de asemenea conexiuni între nodurile video componente. În cazul în care de la un nod anume pleacă mai multe legături (posibilități de vizionare) spre alte clipuri video, printr-o fereastră de dialog trebuie oferită posibilitatea de a introduce metainformația necesară pentru realizarea deciziei de către utilizator.

Uzabilitate în vizualizarea materialelor interactive create

Din punct de vedere al interfeței grafice a utilizatorului, aceste clipuri sunt redate prin intermediul unui player hipervideo. Există mai multe tipuri de abordări [30,56], însă ele sunt asemănătoare în principalele aspecte, iar Sadallah et al. propun [30] 8 elemente componente:

un player video cu elemente de control al redării materialului

text suprapus peste clipul video – subtitrare, alte informații text

elemente grafice suprapuse peste clipul video

regiuni interactive (hotspots) – elemente grafice cu care se poate interacționa și care oferă hiperlegături spre alte resurse

un desfășurator cronologic (timeline) al video având marcate adnotările

un cuprins al video – structura „documentului” video, în format text

o hartă-cuprins vizual al video, folosind cadre din video

un transcris text al video

Consider că acest model de interfață este un bun punct de plecare pentru sistemul propus. Alături de aceste 8 tipuri de componente, propun adăugarea unei a noua componente, numită în continuare Index film interactiv, pentru a permite afișarea informațiilor specifice narațiunilor multi-clip. Această componentă propusă răspunde de afișarea poziției utilizatorului în cadrul filmului interactiv multiclip – ce video este vizionat în prezent, care sunt cele ce urmează, și care este structura informațională arborescentă a narațiunii. Ea este asemănătoare cu harta-cuprins din modelul de mai sus, dar extinsă pentru a prezenta clipuri video externe, și cu un nivel mai mare de interactivitate pentru a permite navigația în cadrul filmului interactiv. Narațiunea multi-clip implică și decizii active ale telespectatorilor, însă afișarea deciziilor la finalul unui material video poate fi făcută prin intermediul unor texte și regiuni interactive, deja cuprinse în modelul pe 8 dimensiuni al lui Sadallah.

În afara player-ului propriu-zis care redă materialul video, componentele interfeței pot fi împărțite în două categorii: informațiile care sunt suprapuse peste video (text, elemente grafice, hotspots), și informații descriptive (cuprins, harta, transcrisul text, timeline, și componenta propusă Index film interactiv). Pentru elementele din a doua categorie, trebuie definită o zonă adiacentă video unde acestea să fie afișate (sau suprapusă peste video, dar posibil de ascuns). Pentru fiecare din ele, trebuie permisă activarea/dezactivarea lor la cerere de către utilizator.

Privind interacțiunea utilizatorului cu aceste elemente, avem câteva cazuri. La interacțiunea cu așa-numitele hotspots care conțin hiperlegături, redarea video trebuie oprită pentru a se urma respectiva legătură, informația rezultantă putând fi încorporată în pagina hipervideo sau afișată într-o nouă fereastră. Componentele care au legătură cu structura cronologică a materialului video (cuprinsul, harta, timeline-ul și Indexul film interactiv, chiar și transcrisul text unde fiecare propoziție poate fi considerată ca element de cuprins al video) nu vor opri derularea video, ci vor sări în locul specificat.

Video social interactiv

Deși acest fapt poate părea mai puțin intuitiv, urmărirea materialelor video poate fi o experiență socială, păstrând în același timp atenția centrată pe informația prezentată în video. Au fost studiate diverse metode de a facilita interacțiunile sociale în jurul video. Concluziile mai multor astfel de studii [38] arată că adăugarea acestor mecanisme sociale duce la o ușoară scădere a atenției și angajării unui utilizator, dar duce la o creștere a satisfacției generale cu privire la experiența vizionării.

În televiziunea clasică, au fost deja implementate moduri elementare prin care telespectatorii luau parte la ceea ce se întâmplă pe ecran, fie prin telefoane în direct pentru a discută cu invitații unei emisiuni, mesaje prin SMS afișate direct pe o bandă grafică orizontală suprapusă peste materialul video, votare prin SMS pentru concursuri de tip "Românii au talent", reportaje cetățenești în care telespectatorii obișnuiți trimit materiale filmate cu cameră personală sau telefonul pentru a fi integrate în știrile televiziunilor mari, etc. Aceste mecanisme folosesc tehnologii cu care utilizatorii sunt deja familiarizați, minimizând problemele de uzabilitate.

Dimensiunea social-interactivă a hipervideo pleacă de la premiza faptului că este necesară adaptarea conținutului video la un utilizator, la preferințele și stilul lui de a urmări conținutul video, dar și la cercul său social. Sistemul de video social trebuie să permită în același timp interacțiunea utilizatorului cu materialul video respectiv pentru a crea conținut nou sub formă de remixare, a-și crea propriul mod de vizionare prin descoperirea altor materiale și resurse similare, și de a împărtăși toate aceste experiențe cu cercul său social de prieteni, sau cu alți utilizatori, fie chiar și necunoscuți, dar având în comun aceleași interese și preferințe. Astfel, video interactiv social integrează materialul video cu elemente Web 2.0. [58]

Oehlberg et al. [59] au arătat că folosirea unui canal de comunicare între utilizatori aflați în locații geografice distribuite, în timpul urmăririi materialelor video nu a dus la distragerea utilizatorilor. Dimpotrivă, utilizatorii și-au adaptat comportamentul la materialul vizionat, comunicând în perioadele mai puțin interesante din material, și rămânând atenți la informația prezentată.

Studiile arată că interacțiunea socială în jurul resurselor video este de maximă importanță pentru ca utilizatorii să perceapă experiența vizionării ca fiind pozitivă [20]. În cadrul unui sistem hipervideo, consider că această interacțiune de natură socială poate lua mai multe forme:

un sistem intern de comunicare sincronă între utilizatori – chat text, audio, audio-video

partajarea experienței navigării în cadrul unui film interactiv – în care să fie făcut public traseul informațional al unui utilizator, interacțiunile și deciziile sale în cadrul aplicației

posibilitatea de a acorda note/voturi legăturilor făcute între materiale video, adnotărilor și a celorlalte elemente de metainformație – contribuind de asemenea la validarea și verificarea informației introduse în sistem

posibilitatea de a genera comentarii text, video și de altă natură ca răspuns la informația vizualizată

posibilitatea de a contribui direct la sistemul informațional prin sugerarea unor alte adnotări, precum și prin contribuirea cu etichete pentru o adnotare sau un clip video

o meritocrație în care participarea și interacțiunea să ofere statut în cadrul comunității

Implicațiile video interactiv asupra proceselor de învățare și transfer de informație

În societatea informațională actuală, în contextul în care școlile și organizațiile de orice natură își redefinesc identitatea pentru a putea face față la schimbările tehnologice, competențele digitale ale unui individ primesc o importanță tot mai mare. În societatea curentă, o pondere tot mai mare o au așa-numiții knowledge workers [60], angajați al căror principal atu este pachetul lor de cunoștințe pe o anumită temă, de obicei antrenați în activități creative sau pentru rezolvarea unor probleme ne-standard. Pentru domeniile de formare profesională și educație, sistemul video interactiv propus în această teză se adresează cu precădere acestora.

Avolio și Kahai [61] susțin ca tehnologia informației facilitează accesul la informație și mijloace media, atât pentru angajator cât și pentru angajați, contribuie la creșterea semnificativă a gradului de interconectare a forței de muncă și transformă comunicarea într-un proces mult mai facil și mai permanent decât înainte. În analiza dinamicii dintre conducere și tehnologie, Avolio, Kahai și Dodge [62] susțin că implementarea și integrarea tehnologiilor informatice avansate necesită o transformare a sistemului de management, deoarece acesta va afecta modul în care oamenii din cadrul organizației vor percepe tehnologiile informatice avansate. Factorii de decizie și conducere joacă un rol important în modul în care hipervideo este implementat și perceput de cei care îl folosesc.

În contextul noilor dezvoltări tehnologice, angajații unei organizații colaborează virtual pentru a face schimb de informații și pentru a participa în cadrul proiectelor derulate de companii. În comparație cu echipele tradiționale, cele virtuale beneficiază de acces la o expertiză înalt specializată și distribuită în spațiu [63]. Cea de a doua caracteristică a echipelor virtuale are în vedere medierea. Bell și Kozlowski susțin că pentru sarcini simple, echipele de lucru virtuale funcționează bine în contextul unei comunicări asincrone. În cazul sarcinilor mai complexe, echipele virtuale trebuie să adopte o comunicare sincronă pentru a beneficia de o colaborare rapidă și de calitate. În ceea ce privește conducerea-ul, mediul virtual necesită o structură clară și crearea de echipe autonome care să primească indicații precise și clare. Liderii unor astfel de echipe, subliniază Bell și Kozlowski, trebuie să traseze în mod clar rolurile celor din echipă și să faciliteze intedependența membrilor echipei.

Dalkir [64] subliniază că acești „knowledge workers” au nevoie de un climat specific care să încurajeze schimbul de cunoștințe și trebuie să fie motivați pentru a face schimb de informații. Dalkir este de acord cu rezultatele studiilor anterioare care au subliniat faptul că schimbul de cunoștințe ca și mentalitate implică o schimbare în modul în care sunt conduse organizațiile de la cele mai de sus nivele. Conducătorii unei organizații sunt responsabili de promovarea unui climat în care schimbul de informații să fie apreciat și reflectat în evaluările angajaților, evaluările performanțelor sau în bonusurile acordate de organizație [64]. De asemenea, acesta susține că schimbul de informații între angajații unei companii, în mediul virtual, este mai dificil datorită absenței unei identități comune și din această cauză este nevoie ca mai multe canale de comunicare să faciliteze acest proces.

Ca și răspuns la necesitatea de a alinia schimbul de informație cu o cultură organizațională, McDermott și O’Dell [65] au propus următoarele acțiuni concrete: (a) o conexiune vizibilă între schimbul de cunoștințe și scopurile, problemele și rezultatele organizaționale; (b) o potrivire a stilului organizației cu elemente ale schimbului de informații; (c) conectarea schimbului de cunoștințe cu valorile esențiale ale companiei; (d) consolidarea conexiunilor umane existente; și (e) obținerea sprijinului acelor indivizi din organizație care practică deja transferul de informație. Sistemul de compensare este privit ca un aspect vizibil care scoate în evidență importanța transferului de informații. Rezultă astfel că conducerea joacă un rol important în facilitarea schimbului de informații.

În cadrul întreprinderilor medii și mari, mai ales în cazul celor care au locații răspândite în mai multe zone, trainingurile tradiționale au devenit din ce în ce mai scumpe [8]. Interacțiunea în timp real trebuie să fie înlocuită cu materiale produse pentru astfel de instruiri care să fie la dispoziția angajaților, în funcție de cerere. Multe organizații au ajuns să aprecieze importanța unei baze de date interne care să permită accesul noilor angajați sau a angajaților cu puține cunoștințe într-un anume domeniu să învețe de la colegii mai experimentați sau chiar să folosească aceste informații mai departe pentru alte scopuri.

Petan et al. [8] subliniază că în era digitală, informațiile sunt distribuite prin intermediul unor sisteme de arhivare sau baze de date precum: Sisteme Document sau Media Asset Management, servere Sharepoint, situri intranet și wikis și multe altele. Studiile [1] arată că dintre diversele tipuri de media, video-ul este mediul cel mai bogat și interactiv, care transmite în mod eficient informațiile către recipienți prin intermediul textului și a imaginilor către membrii organizației. Adăugând interactivitate acestui mediu eficient de transmitere a informației, poate să îmbunătățească semnificativ procesul de învățare, așa cum studiile succesive au demonstrat în anii succesivi. [9]

Studiul continuă să noteze [8] că în ultimii ani a crescut numărul prezentărilor web (webinare), iar această metodă care combină distribuirea de imagini de pe ecranul unei persoane cu explicațiile în timp real ale unui vorbitor, a determinat un transfer îmbunătățit al informației către audiență. Această metodă este folosită cu succes și de școli precum Louisiana Virtual School, ca utilizează webinarele pentru a instrui personalul din cele 300 de școli din 72 de districte [66]. Un alt exemplu de succes îl reprezintă modelul african de educare a personalului medical implicat în campaniile anti-HIV. Acest tip de training a făcut posibil accesul angajațiilor din sănătate la expertiza celor din alte țări [67]. În plus, pachetele software precum Microsoft Office au opțiunea de a exporta prezentări în format video cu explicații audio și subliniază nevoia prezentării de informații în formate mai atractive care să folosească mijloace media îmbunătățite, nu doar text și imagini statice. [8]

Progresul tehnologic din ultimii 20 de ani a determinat schimbarea mentalității oamenilor și se poate observa acum o așteptare privind interactivitatea în utilizarea mijloacelor media [8]. Cesar & Chorianopoulos [68] suțin că proliferarea în masă a programelor de editare video pentru consumatori, a camerelor de filmat și altor aparate capabile să înregistreze video, cît și dezvoltarea unei mentalități de participare interactive și creare de conținut, poate fi folosită pentru a facilita un mediu propice transferului de cunoștințe mai ales în rândul angajaților tineri și a studenților [38].

Hrastinski și Monstad au studiat impactul unui site cu video interactiv asupra procesului educativ la nivel organizațional [69]. Situl era populat cu informații despre principalele valori ale companiei, subliniind aspectele antreprenoriale, în speranța că acest conținut va determina o creștere a spiritului inovativ al angajaților. Angajații au avut acces la acest conținut cu posibilitatea de a lăsa comentarii dupa vizionarea segmentelor video. Grupul intervievat dupa implementarea acestei inițiative a observat că ar fi beneficiat mai mult dacă video-urile ar fi fost despre subiecte mai concrete din cadrului fluxului firmei, despre produsele oferite de companie și modul în care ele se folosesc.

Un studiu realizat de Cisco [70] în 2011 a scos în evidență faptul că tehnologiile interactive educative care folosesc video interactiv și media bogată contribuie la îmbunătățirea semnificativă a procesului de învățare. Acest studiu arată că școlile pot fi considerate organizații cu locații distribuite dar care respectă același planuri de învățământ similare. O concluzie cheie a acestui studiu este faptul că astfel de cursuri sunt produse de un expert și minimizează nevoia de specialiști locali care sunt înlocuiți de persoane care facilitează procesul de învățare, reducând astfel costurile și fiind atractive pentru organizații.

Transferul de informații în format video diferă în funcție de contextul situațional. Pentru a genera video, există în primul rând posibilitatea de a exporta o prezentare PowerPoint cu explicații audio, înregistrarea ecranului și a vocii cu ajutorul unor programe specializate, sau prin înregistrarea de materiale video cu aparatul video sau telefonul a unor procese din cadrul organizației respective pentru ca mai apoi să fie distribuite în celălalte locații [8]. Petan et al. subliniază că există de asemenea opțiuni mai avansate de a dezvolta narațiuni video cu costuri mai mari de producție, și necesitând echipamente profesionale. Astfel de producții implică individul în mod activ și atractiv în procesul de învățare, dar sunt mai dificil și mai scump de produs.

Adăugarea elementelor de interactivitate și interconectare automată a modulelor în moduri noi poate stimula crearea de conținut nou prin refolosirea anumitor fragmente de conținut existente în formate și concepte noi. Studiul mentionat mai sus a demonstrat că materialele interactive pot ajuta instructorii, oferindu-le un grad mai ridicat de libertate în a găsi și a crea conținut nou [70]. Acest principiu poate fi aplicat și în contexte de formare profesională în organizații, în special de dimensiuni medii și mari. [8]

Petan et al. a atras atenția asupra necesității asigurării concordanței între conținutul materialelor de formare și standardele organizaționale. Autorii recomandă aplicarea unui sistem de verificare și aprobare prin care liderii sau factorii de decizie să valideze conținutul materialelor folosite în traininguri, deși este de așteptat ca în marea majoritate a cazurilor, conținutul să fie creat de angajați cu experiență sau de către factori de decizie organizaționali. Petan et al. subliniază că un alt beneficiu al utilizării de video intercativ în cadrul organizațiilor este susținerea colaborării înte angajații care lucrează în diverse puncte de lucru ale aceleași companii. Astfel, experții din cadrul companiei nu mai trebuie să călătorească pentru traininguri tradiționale și pot menține în același timp un standard calitativ înalt prin crearea unor prezentări interactive.

Pentru procesul de educație, cercetările au arătat că materialele video relativ scurte, de 5-15 minute sunt optime pentru capacitatea de concentrare a studenților [71], și că folosirea acestor clipuri în platformele MOOC crează o experiență foarte apropiată de cea obținută într-o sală de clasă. [72]

Așa cum menționam în subcapitolul 2.3, adnotările presupun că pentru o anumită regiune spațială sau fragment video, creatorul video-ului interactiv face legătura cu un concept sau informație externă materialului video. Această referință exterioară poate să fie text, un alt video în cadrul sistemului video interactiv sau o informație externă sistemului – un sit care să detalieze un concept prezentat doar pe scurt în cadrul video-ului interactiv, sau o resursă semantică Linked Data [7,73].

Aceste resurse adiționale pot fi încapsulate direct în pagină sau pot fi afișate ca hiperlegături, deși prima opțiune este preferabilă din punct de vedere al uzabilității, permițând o experiență neîntreruptă în cadrul sistemului. Un sistem video interactiv care utilizează astfel de adnotări poate să faciliteze crearea de cursuri și tutoriale video scurte și antrenante, dar care să permită explorarea în profunzime a anumitor concepte și care să vină în întâmpinarea nivelul de competență al studentului sau angajatului care folosește sistemul video interactiv.

Contribuții și concluzii

Acest capitol reprezintă un studiu critic asupra noțiunilor aferente domeniului de video interactiv. În prima parte a capitolului, am trecut în revistă evoluția istorică a elementelor interactive în raport cu video, scoțând în evidență faptul că încă de la începutul televiziunii s-a dorit adăugarea unor componente interactive la video, sub diverse forme. În ultimii ani, după apariția Internetului, am arătat tendința naturală de convergență a video cu mediul interactiv online.

Am efectuat apoi un studiu critic asupra efectului elementelor interactive în video asupra utilizatorilor, subliniind nevoia acestor interacțiuni. Studiile deja existente demonstrează clar că prin convergența acestor două medii, impactul informațional este substanțial mai mare și produce o experiență mult mai angrenantă pentru utilizator, asigurând și un proces eficient de transmitere a informației către consumatorul de video interactiv. Aceste considerente demonstrează clar nevoia de interacțiuni bogate cu materialele video, acestea fiind percepute în general ca fiind experiențe pasive.

Am analizat apoi conceptele care fac posibilă interacțiunea cu un material video, punând accentul pe metainformație. Studiul meu a scos în relief câteva aspecte pe care le consider cheie în susținerea unor interacțiuni eficiente. Un concept analizat a fost cel de fragment media, definit ca o subsecțiune temporalo-spațială existentă într-un clip video mai mare, similar cu conceptul de secvență în producția video, dar adăugând și posibilitatea referirii doar a unei zone restrânse din imagine.

Pe baza acestor fragmente media, se pot defini adnotări ca fiind informații suplimentare corelate cu informația reprezentată în fragmentul respectiv din video. Adnotările pot fi de diferite tipuri, iar informația rezultată în urma procesării corespunzătoare acestor adnotări va oferi profunzime informațională clipului video. Am analizat și cazul unor filme interactive multi-clip ce necesită definirea unor puncte de decizie la finalizarea unui material, pentru a determina ceea ce va fi redat în continuare.

Principii de uzabilitate au fost de asemenea atinse în studiul meu, extrăgând și aplicând principii de folosire optimală de către utilizatori a noului mediu al video interactiv. Am abordat uzabilitatea din două perspective – a producătorului și a consumatorului de video interactiv. Am discutat un model existent al interfeței cu utilizatorul cu 8 componente propus de Sadallah [30], subliniind nevoia extinderii sale pentru a facilita dimensiunea de filme interactive multi-clip printr-o a 9-a componentă specializată.

Am tratat și implicațiile hipervideo asupra relațiilor sociale care se stabilesc între utilizatori, definind o serie de principii directoare pentru un sistem interactiv pentru a facilita interacțiunea între utilizatori.

În contextul în care dezvoltarea societății informaționale a rezultat în modificarea modului în care studiem și lucrăm, la final am analizat critic implicațiile hipervideo asupra proceselor de învățare și asimilare a informației în special în domeniile de educație și industrie. Am arătat că hipervideo este un pas natural în evoluția folosirii media în aceste procese și oferă o performanță mai bună din punct de vedere al eficienței învățării și a satisfacției utilizatorilor.

Prin acest studiu critic efectuat asupra noțiunilor incluse în domeniul de interactivitate în video, am trasat cadrul teoretic pentru implementarea unui sistem video interactiv adaptiv, discutat în capitolul următor.

Arhitectura sistemelor video interactive adaptive

Acest capitol prezintă un model integrativ și inovator de sisteme multimedia interactive adaptive, având ca element central video, și ca obiectiv, furnizarea unei experiențe informaționale cât mai eficiente pentru utilizator. Teza mea propune arhitectura și modelul conceptual al acestui sistem, fiind apoi discutate diverse aspecte teoretice și practice ce influențează acest model.

În continuarea acestui capitol, propun o implementare prototip a acestor concepte, o platformă video interactivă dezvoltată de mine în limba engleză, sub numele provizoriu de IMP – Interactive Movie Platform, pentru a testa conceptele prezentate. Ea constă dintr-o parte de administrare și generare a materialelor video interactive de către un producător video interactiv, folosind o interfață grafică intuitivă dezvoltată special pentru acest scop – de adnotare multimedia și de implementare a unor decizii și a unor narațiuni video complexe formate din mai multe clipuri video intercorelate. Tot în cadrul acestui capitol, în urma analizei dimensiunii de adnotări video interactive, propun un model teoretic bazat pe studiul sistemelor existente de adnotări și prezint o implementare practică a acestui model teoretic în platforma Interactive Movie Platform.

În continuare, abordez dimensiunea de redare publică a materialelor, prin intermediul unui player video interactiv multiplatformă și multi-ecran, capabil să afișeze informațiile descrise de adnotările interactive prin fragmente de informație corelate cu materialul i-video.

La finalul acestui capitol, am analizat critic modul în care video interactiv și sistemul propus de mine influențează modalitatea în care sunt filmate și editate aceste materiale. Capitolul se incheie cu o sinteză a aspectelor prezentate și cu o listă de contribuții și concluzii.

Arhitectura unui sistem de generare de materiale video interactive – principii și atribute

Această teză de doctorat propune dezvoltarea unui sistem inteligent informatic online, care să administreze un amplu complex de resurse multimedia înrudite, având în centru clipurile video [74]. Aceste resurse media sunt organizate pe baza unor cuvinte cheie, categorii, alte tipuri de metainformație, precum și prin relații descriptive între diversele resurse media și teme abordate.

O schemă simplificată a procesului, conținând blocurile logice componente, este prezentată în diagrama 3.1 de pe pagina următoare, schema mai detaliată fiind prezentată în Anexa 1.

Figura 3.1: Arhitectura generală abstractă a unui sistem de video interactiv

În partea stângă a figurii 3.1 sunt reprezentate sursele de clipuri video care pot furniza material unui sistem de video interactiv. Ca și dispozitive videocaptoare, amintesc diverse camere video, aparate foto sau telefoane mobile cu capacitatea de a înregistra și video. Alte surse de video sunt aplicații software ce permit salvarea unor prezentări sau simulări sub formă de video, aici amintind aplicațiile de proiectare asistată de calculator (CAD – Computer-Aided Design), prezentări de tip Microsoft Powerpoint sau Keynote ce pot fi salvate ca fișier video însoțit de explicațiile verbale ale prezentatorului, sau alte programe de realitate virtuală ce permit salvări ale simulărilor produse în format video.

De asemenea, aplicații software de captură de ecran apărute recent permit unui utilizator să-și înregistreze informația afișată pe ecranul monitorului, combinând-o cu audio provenind dintr-un anumit fișier sau înregistrat prin microfon, pentru a crea clipuri video de sine stătătoare.

Aceste materiale video, impreună cu informații externe ce provin din alte site-uri, fragmente din site, hiperlegături, clipuri video, audio, imagini, resurse semantice sau de orice altă natură, sunt preluate de către un producător/creator de i-video, folosind o platformă specializata pentru a crea clipuri video interactive.

Această platformă video interactivă este un sistem care corelează module video, permite crearea și stocarea adnotărilor multimedia, a punctelor de decizie, hiperlegăturilor spre alte informații, urmărește progresul utilizatorilor și construiește profile personale, pe baza cărora sugerează alte clipuri și resurse multimedia.

Folosind această platformă, creatorul/expertul asamblează și conectează module video între ele, adnotează modulele video cu informație externă, adăugând astfel profunzime informațională.

Clipurile hipervideo rezultate sunt apoi prezentate utilizatorului printr-o aplicație de redare a video interactiv îmbogățit cu informație suplimentară, ce permite în același timp interacțiuni sociale centrate pe materialul i-video între utilizatori, precum și posibilitatea contribuirii utilizatorilor cu informații externe în sistem. Aceste informații generate de către utilizatorii aplicației trebuie tratate diferențiat față de cele generate de către expert, punându-se problema validării și verificării lor.

Platforma propusă este un sistem de sine stătător din punct de vedere funcțional, însă nu este un sistem închis, ci permite interconectarea cu alte surse de informații externe. În acest mod, se poate asigura o rigoare a informației folosind o platformă clar specificată, în același timp fiind creat un sistem informațional deschis, cu actualizare automată în cazul actualizării informațiilor externe.

Sistemul trebuie proiectat modular, pentru o cât mai facilă administrare a resurselor și metainformațiilor, și pentru a ușura procesul de adăugare a noi resurse în sistem. De asemenea, sistemul este proiectat pentru a fi adaptiv, în sensul în care va ține o evidență cât mai completă a tuturor acțiunilor utilizatorului în cadrul aplicației, pentru a putea oferi resurse și sugestii cât mai apropiate de nivelul de interes și competență al utilizatorului. De asemenea, datele colectate pot genera statistici, pot reliefa în timp real interesele publicului și indică direcții noi de investigare și pregătire a resurselor. Aceste aspecte vor fi detaliate în capitolul următor al tezei.

Pentru definirea și organizarea resurselor prin intermediul metainformatiilor, se va folosi un complex de tehnologii, incluzând baze de date relaționale, Linked Data, un sistem de cuvinte cheie, incluzând și un element deschis pentru contribuții din partea utilizatorilor. Ca și componență a resurselor, accentul principal cade pe video, datorită nivelului mare de implicare al utilizatorului pe care acest tip de media îl produce. Se va insista pentru a cataloga și adăuga metainformatie la toate resursele video, precum și de a crea elemente interactive în interiorul cadrului unui video, pentru o experiență cât mai complexă, antrenantă și interactivă.

Studiile au arătat că vârsta este un factor important în proiectarea unui sistem complex interactiv. Această paradigmă a video interactiv implică un set de cunoștințe fundaționale privind principiile WWW și modalitățile de interacțiune ale dispozitivului folosit. Folosind metafora imigranți/nativi digitali, Gunther [75] arată că aceste competențe digitale sunt în general regăsite la generația mai tânără care a crescut cu Internetul, însă generația în vârstă are dificultăți în acest sens. Ca atare, sistemul video interactiv propus în această teză se adresează în special tinerilor și adulților cu vârsta cuprinsă între 18-40 ani, adaptați nativ la WWW, cu personalitate și interese bine formate, cu o capacitate de automotivare peste medie și cu cunoștințe de internet medii-avansate.

În continuare, trec în revistă câteva caracteristici generale esențiale ale unui sistem de video interactiv, de care trebuie să se țină cont la proiectarea arhitecturii sale și a fluxului informațional de la creator spre consumator.

Modularitate

Pentru o administrare facilă a tuturor resurselor media, noțiunea de modularitate este esențială și înseamnă împărțirea tuturor materialelor în unități atomice informaționale, ireductibile suplimentar din punct de vedere al conținutului lor. Modularitatea se aplică atât la conținutul video efectiv, cât și la adnotări și decizii, modele de prezentare a informației și alte forme de prezentare.

Modularitatea implică de asemenea ușurință în a actualiza sau înlocui anumite părți din sistemul informațional care nu mai corespund realității sau care au natura conținutului dinamică și evoluează în permanență. În cazul în care un clip video din cadrul unei narațiuni mai largi, nu mai este relevant sau poate fi înlocuit cu un altul mai potrivit pentru momentul curent, modularitatea permite înlocuirea lor simplă, fără a perturba sistemul per ansamblu. De asemenea, dacă o adnotare a unui clip video nu corespunde, este nevoie de înlocuirea ei facilă fără a reprocesa întreaga informație (sau chiar informația aferentă doar clipului video în cauză).

În mod evident, pentru cazul video, cea mai ușoară metodă de modularizare este crearea de clipuri video de dimensiuni extrem de mici, la nivel de secvențe video, de durate de doar câteva secunde. Însă costul și timpul necesar acestei operații poate fi prohibitiv din cauza cantității mari de informație de procesat în cazul video, astfel încât o altă posibilă opțiune este folosirea fragmentelor media descrise mai sus, care adresează o subunitate informațională din interiorul unui material video mai lung.

Extensibilitate

Complementară noțiunii de modularitate este noțiunea de extensibilitate. Ea presupune capacitatea unor asemenea sisteme de a fi dezvoltate suplimentar, continuu, prin adaugarea graduală a noi funcționalități, fără a perturba mersul normal al sistemului. Acestea se pot adăga sub formă de componente externe, cuplate la un set central de funcționalități esențiale.

Ea presupune de asemenea adaptarea și particularizarea unui asemenea sistem la diverse scenarii și cazuri de folosire. Pentru studiul de față, ce privește trei dimensiuni de aplicabilitate – divertisment, educație și formare profesională – este clar că un sistem de video interactiv adaptiv va trebui să se comporte diferit în scenariile studiate, întrucât scopul consumului de materiale video interactive în cadrul domeniilor respective nu este același.

Arhitectura unui asemenea sistem este recomandabil să fie dezvoltată cât mai extensibil, cu fiecare element de funcționalitate suplimentară capabil să fie cuplat sau decuplat cu ușurință, pentru asigurarea unui sistem adaptiv și cu o evoluție progresivă și naturală în timp.

De asemenea, este importantă includerea unor mecanisme prin care utilizatorii să poată contribui și ei la universul informațional descris de această platformă, prin materiale video proprii, precum și completând metainformația existentă, produsă de creatorii inițiali ai materialului.

Interactivitate și adaptivitate

Vizionarea materialelor video este o experiență în general pasivă, însă sistemul propus are ca scop transformarea sa într-o experiență activă. Sistemul trebuie să faciliteze un maxim de interacțiune între utilizator și materialele video interactive, oferind posibilitatea utilizatorilor care doresc această experiență activă și mai bogată să o poată experimenta (lean-forward experience).

O anumită categorie de utilizatori, sau chiar utilizatorii activi la un moment anume, vor preferă experiența pasivă (lean-back experience) a vizionării video o dată ce o direcție majoră a fost trasată, similară cu experiența din televiziune a alegerii unui post TV de urmărit. În acest caz, și la opțiunea explicită a utilizatorilor de a avea o experiență pasivă, sistemul trebuie să ofere această facilitate utilizatorilor, preluând el sarcina de a alege succesiunea materialelor video ce vor fi redate ulterior, similar cu o experiență de vizionare a unui post TV. Însă această categorie de utilizatori nu necesită un studiu aprofundat în lucrarea de față, fiind în afara domeniului de interes al tezei de doctorat.

Dimensiunea de interactivitate este explicit înțeleasă din termenul de video interactiv. Această interactivitate nu este posibilă decât în contextul generării de metainformație suplimentară despre conținutul video, la publicarea materialului video interactiv. Pentru dimensiunea de adaptivitate a materialelor video, este necesară colectarea și analizarea de date privind procesul de vizionare a materialelor video și interacțiunea cu informațiile suplimentare. Aceste informații comportamentale servesc la profilarea și catalogarea utilizatorilor și la corelarea mai eficientă a prezentării materialelor video sau a informațiilor aferente funcție de profilul utilizatorului. Aceste aspecte vor fi însă dezvoltate mai pe larg în capitolul următor al tezei, fiind aici trecute doar în revistă.

Elemente de socializare și comunitate

Un sistem video interactiv trebuie să permită partajarea experienței utilizatorului cu alți utilizatori și stimularea interacțiunilor sociale în jurul materialelor video. Este de dorit atât integrarea cu platformele de media socială existente, cât și stabilirea unei meritocrații interne și a unui sistem de ierarhizare a utilizatorilor pe baza reputației lor în comunitatea creată.

De asemenea, incurajarea folosirii rețelelor sociale naturale ale utilizatorilor pentru a partaja experiența lor cu platforma și cu clipurile i-video urmărite va duce la creșterea notorietății și vizibilității platformei respective și a conceptului de i-video, un alt obiectiv de urmărit.

Pe baza profilului asamblat în urma colectării de informații de utilizare a sistemului de video interactiv și a modelării comportamentale și psihologice a unui utilizator, sistemul de i-video poate de asemenea asocia utilizatori cu profile și interese apropiate și facilita interacțiunea lor. În acest mod, pe baza scorului utilizatorilor în sistemele de profilare psihologică, pot fi sugerate relații noi între oameni similari ca profil psihologic sau ca interese informaționale. Aceste aspecte le-am analizat în profunzime în capitolul 4 al tezei.

Arhitectura detaliată a unui sistem de video interactiv

Pentru proiectarea unui sistem de video interactiv ce permite afișarea unui video îmbogățit cu metainformație relevantă și cu capabilități interactive, trebuie luate în considerare mai multe aspecte: framework-ul de administrare a resurselor video, a deciziilor și a adnotărilor, aplicația de adnotare a video-ului cu metainformație de către administrator/creator (și posibil ulterior, de către utilizatorii obișnuiți), și partea de prezentare propriu-zisă către clienți și utilizatori a video-urilor interactive rezultate.

Pentru a exemplifica părțile componente ale acestui sistem și modul în care acestea se relaționează între ele, pentru a pune în evidență fluxul informațional, am realizat figura 3.2 de pe pagina următoare, prezentând schema arhitecturii detaliate a unui sistem de video interactiv.

Figura 3.2: Arhitectura detaliată a unui sistem de video interactiv

În partea stângă a figurii 3.2, sunt reprezentate sursele de material video, care vor fi apoi procesate de producătorul de video interactiv, prin adnotare și interconectare manuală cu alte clipuri video. Materialele video rezultate și metainformația aferentă vor fi apoi stocate, și servite împreună ca hipervideo la cererea utilizatorului prin intermediul unui player video interactiv, ce va permite o largă plajă de interacțiuni și va colecta non-intruziv informații despre folosirea sa de către utilizator, în vederea profilării ulterioare. Toate aceste aspecte vor fi dezvoltate însă pe larg în continuare, în cadrul capitolului de față.

Stocarea materialelor video și a metainformației

Pentru producerea unui material i-video, sunt necesare două aspecte – crearea video-ului efectiv folosind standarde și formate uniforme în cadrul sistemului, și generarea de metainfomație relevantă de diverse tipuri (fie automat, fie manual de către creator – vezi subcapitolul 2.3.1) și asocierea ei cu materialul video creat.

Figura 3.3: Stocarea clipurilor video și a metainformației în arhitectura sistemului (fragment)

Procesarea și stocarea fișierelor video

Stocarea fișierelor video presupune un proces de recodare a materialelor video în cele 3 formate de facto permise de sistemul HTML5 pentru a fi incluse direct în navigator – webm, ogv și mp4. Această transcodare se poate face fie manual, fie folosind un sistem automat de procesare video (preferabil).

Pentru a asigura pregătirea corespunzătoare a fișierelor video în forma acceptată pentru încapsularea HTML5 pentru platforma interactivă propusă și automatizarea/ușurința procesului, am studiat diverse soluții de conversie video, oprindu-mă la final la aplicația FFMPEG de transcodare automată în regim sursă deschisă. Pentru a folosi această aplicație, am configurat o mașină virtuală rulând sistemul de operare Ubuntu Linux. Am compilat apoi ultima versiune FFMPEG și bibliotecile adiționale necesare pentru formatele video dorite (MP4-H264, WEBM- VP8 și OGG-THEORA), amintind aici yasm, x264, libtheora și libvpx pentru video și și respectiv libvorbis, libfaac și libmp3lame pentru audio.

Pentru a facilita crearea clipurilor video pe platforma video interactivă de către producătorul de hipervideo, am implementat apoi o interfață grafică web ce permite selectarea fișierului sursă de încărcat și transcodat, și setarea parametrilor de transcodare, având anumite criterii prestabilite (Figura 3.4).

Figura 3.4: Interfața dezvoltată pentru încărcarea și transcodarea automată a fișierelor video

După cum se poate observa în imaginea precedentă, interfața dezvoltată permite utilizatorului controlul facil al parametrilor video cheie pentru fișierele transcodate – rezoluția video, numărul de cadre pe secundă, rata de bit pentru video și audio și alte setări.

După încărcarea sa pe platformă, clipul sursă va fi transcodat implicit în toate cele 3 formate menționate mai sus (deși și acest aspect este controlabil de utilizator, prin interfața dezvoltată). De asemenea, din fluxul video vor fi extrase mai multe cadre și salvate ca imagini statice, în format jpg. Fișierele video și imaginile rezultate în urma transcodării vor fi salvate în dosare separate, într-o locație prestabilită accesibilă unui server web, iar metainformația tehnică privind materialele video se stochează în baza de date (acest aspect va fi discutat pe larg în cele ce urmează). Fișierul video sursă este apoi șters.

Pentru volume mari de materiale video, se recomandă o soluție scalabilă de servere multiple asociate (server clusters) care să proceseze și să găzduiască toate aceste fișiere video.

Stocarea metainformației

Una din principalele diferențe între un sistem de gestiune a clipurilor video obișnuite față de unul ce gestionează materiale video interactive este metainformația, și modul în care aceasta e stocată și folosită. Există în prezent mai multe posibilități de a stoca metainformația cu privire la video. Unele implementări recomandă ca ea să fie inclusă împreună cu conținutul video în același fișier, însă majoritatea recomandă stocarea ei separată [33], organizată pe principiul bazelor de date relaționale sau principii semantice. [53,76]

Pentru partea de stocare a metainformației, am identificat și implementat un model care permite stocarea eficientă a acestora și permite flexibilitatea unui asemenea sistem.

În modelul meu, descris în continuare, metainformația este împărțită pe 7 dimensiuni – Videos, Annotations, Links, Decisions, Movies, Users și Analytics – fiind stocată în orice variantă de gestiune de date. Aceste 7 dimensiuni sunt reprezentate în tabelul 3.

Tabel 3: Stocarea metainformației i-video – structura de date

Primele cinci elemente din tabelul 3 sunt folosite îndeosebi pentru a corela materialele video între ele, manual sau automat. Ultimele două, Users și Analytics, fac posibilă dimensiunea de adaptivitate video-utilizator a sistemului, prin stocarea informațiilor ce privesc utilizatorii și interacțiunea lor cu materialele video și metainformațiile, permițând platformei să cunoască utilizatorul și să se adapteze profilului său.

Videos conține informații despre video, cum ar fi titlul său, o descriere, durata, adresa URL a fișierelor video, etichete și categorii folosite pentru a clasifica clipul respectiv, informații privind publicarea și drepturile de folosire, autorul și data creerii în sistem și alte informații descriptive. Tot aici sunt stocate și metainformația despre fișierele video efective – rezoluție, rata de bit, format, etc. Structura sa este asemănătoare cu cea întâlnită la platformele de partajare video clasice.

Annotations permite stocarea adnotărilor interactive pentru un video, sau un subfragment al său. El permite de asemenea definirea unui titlu și a unei descrieri pentru adnotare, a tipului și categoriei adnotării, precum și a faptului că adnotarea reprezintă un concept referit explicit sau implicit în video. Modelul trebuie de asemenea să se definească daca se poate interacționa prin clic cu informația rezultată în urma adnotării, și dacă această interacțiune trebuie să oprească derularea clipului video.

Links, Decisions și Movies sunt structurile ce permit realizarea unor narațiuni video compuse din mai multe clipuri, de tip film interactiv, detaliate în subcapitolul 3.4. Links permite stabilirea unor corelări efective între mai multe clipuri video, specificând clipul sursă, clipul destinație, precum și un titlu, o descriere și o categorie pentru asocierea făcută.

Folosind informațiile de corelare între clipurile video descrise în Links, Decisions permite definirea manuală a unor puncte de decizie pentru un clip video, la finalul căruia un utilizator poate să aleagă materialul ce urmează să-i fie redat dintr-o paletă redusă de opțiuni, specificată explicit de producătorul filmului interactiv. Este permisă definirea unui titlu si a unei descrieri care să explice decizia utilizatorului, un timp de decizie în secunde, importanța deciziei și posibile elemente de design. De asemenea, este necesară definirea paletei de opțiuni disponibile pentru alegere și calea de urmat (specificată in Links) pentru fiecare opțiune. Poate fi de asemenea specificată o opțiune selectată automat în caz de indecizie. Având în vedere că pot exista decizii care sunt dependente de alte decizii precedente, și acest lucru este luat în calcul.

Movies este responsabil de asamblarea efectivă a tuturor informațiilor care descriu un film interactiv, și corelează o listă de clipuri video și de decizii asociate clipurilor, specificate în Videos și Decisions. Sunt permise elemente de control pentru a modela experiența de vizionare – dezactivarea deciziilor (și luarea unor decizii automate din lista de opțiuni de către platformă) dacă utilizatorul dorește o experiență pasivă de vizionare similară cu un film obișnuit, dezactivarea sau activarea adnotărilor pentru același scop, precum și alte informații administrative.

Analytics colectează fiecare interacțiune a utilizatorului cu elementele ce compun sistemul de video interactiv adaptiv, fie ele adnotări, decizii, interacțiuni sociale sau contributive. Users conține informațiile ce privesc utilizatorii sistemului. Pe baza procesării regulate a informațiilor de utilizare colectate în Analytics, este elaborat și actualizat permanent un profil adaptiv al utilizatorului fundamentat pe modele comportamentale și psihologice adaptate la interacțiunile cu video după un model propus de mine în capitolul următor al tezei.

Acest profil este stocat tot în Users, venind astfel să completeze informațiile standard de descriere a utilizatorilor. Dimensiunea de colectare de informații cu caracter personal ridică probleme legale și juridice, abordate și ele în capitolul următor al tezei.

Figura 3.5: Stocarea metainformației în 7 structuri de date și corelațiile lor

În figura 3.4 sunt reprezentate conexiunile care se realizează între cele 7 structuri de date ce stochează metainformația, cu linie punctată fiind reprezentat aspectul colectării de informații de utilizare.

Cele 7 dimensiuni în care este împărțită metainformația permit o arhitectură flexibilă și adaptabilă la diversele cazuri. Nu este necesară completarea informației în toate aceste structuri pentru fiecare clip video (de exemplu, pentru un video autonom necorelat conceptual/tematic cu alte clipuri video, dimensiunea Movies, Decisions și eventual Links poate rămâne necompletată), însă acest model de stocare a metainformației este proiectat pentru a face față la orice situație care ar putea apărea.

Pentru testarea practică a acestor concepte, am implementat un server virtual pentru a gestiona fișierele video și metainformația. Pentru partea de pregătire a fișierelor video efective am implementat un script ce încărca fișierul video sursă pe server, urmând apoi să îl transcodeze în cele 3 formate video pentru Web deja menționate, extrăgând de asemenea imagini statice din cadrul clipului video. Pentru acest proces de transcodare, am folosit aplicația gratuită și de sursă deschisă FFMPEG. Fișierele video rezultate erau stocate într-un director accesibil unui server web Apache, care găzduia de asemenea fișierele aferente aplicației.

Stocarea metainformației a fost făcută prin intermediul unei baze de date relaționale MySQL, în care cele 7 structuri descrise mai sus erau tabele independente. Procesarea metainformației și asocierea lor era făcută cu ajutorul unor programe scrise în limbajul PHP.

Toate acestea au fost implementate pe o mașină virtuală rulând sistemul de operare Ubuntu Linux, ales pentru stabilitate și fiabilitate, configurat special pentru aplicația de generare de video interactiv. Această implementare are însă limitări tehnice Pentru a asigura scalabilitatea și responsivitatea unui asemenea proiect, este necesară împărțirea proceselor componente pe mai multe servere dedicate.

Adnotări – Modelul propus pentru corelarea cu materiale din surse interne și externe sistemului

Unul din obiectivele principale ale acestui proiect de doctorat este reprezentarea de metainformație suplimentară pentru a augmenta informația video pe orice platformă disponibilă. Astfel, implementarea practică își propune să fie multiecran și multi-platformă. Clipurile video augmentate cu informație semantică trebuie să ruleze atât pe calculatoare, cât și pe diverse dispozitive mobile și pe televizoare inteligente sau pe televizoare obișnuite conectate la media-playere IPTV, prin intermediul unui navigator web.

Principalul argument pentru a folosi un navigator web în locul unor aplicații dedicate este posibilitatea pe care acesta o oferă de a afișa metainformație corelată cu materialul video, într-un mod practic independent de platforma folosită pentru vizionare, cu excepția unor mici ajustări ce țin de capacitățile tehnice ale dispozitivelor. Această augmentare a materialelor hipervideo cu informație suplimentară corelată se face prin intermediul adnotărilor, definite de către un producător de video interactiv sau generate automat, ce fac referire spre informații externe clipului video propriu-zis.

Figura 3.6: Adnotări și locul lor în sistemul video interactiv (fragment)

Adnotările definesc surse de informație suplimentare pentru un anumit concept sau subiect prezentat în clipul video, și sunt apoi folosite pentru a obține și afișa această informație în timpul derulării materialului video interactiv, prin aplicația de redare hipervideo.

Adnotările trebuie privite din două perspective diferite – cea a generării de adnotări pentru materialele video cu anumite concepte, și cea a interfeței utilizatorului care, folosind aceste adnotări, obține informații suplimentare referențiate de adnotări și le prezintă consumatorului.

Pentru exemplificare, să presupunem că, în cadrul unui clip video turistic despre Banat și atracțiile sale, realizăm o adnotare pentru a reprezenta "Timișoara". Prin implementarea unor scurte elemente de logică programatică, putem defini o largă varietate de informații multimedia rezultate de la acest concept – o hartă pentru localizarea sa geografică, informații despre vremea locală, o descriere textuală, un flux de poze cu orașul de pe o platformă de partajare de imagini, un orar de zboruri sau curse înspre și dinspre oraș, personalități ce au locuit în Timișoara, și multe alte informații similare.

Pe lângă aceste metainformații relativ simple care folosesc direct adnotarea propriu-zisă, este posibilă obținerea și afișarea unor informații mult mai complexe rezultate din combinarea mai multor adnotări.

Dacă există o altă adnotare asociată aceluiași clip, referențiind un fragment video apropiat de cel adnotat cu primul concept, combinarea celor două concepte poate duce la o înțelegere mai clară asupra semnificației informației conținute în clipul video, acest lucru fiind folosit pentru a prezenta inteligent informație cât mai relevantă pentru utilizator.

Din valorificarea contextului dat de clipul video, putem prioritiza și diferenția aceste informații rezultate din procesarea adnotării. În exemplul prezentat mai sus, în cazul unui clip video despre Timișoara folosit pentru promovarea turismului (acest lucru fiind specificat în metainformația clipului video), se impune un tratament preferențial pentru informațiile de tip turistic – hartă, puncte de atracție, cazare, informații de călătorie, istoricul locului – față de cele de actualitate sau detalii administrative.

Modelul teoretic propus pentru adnotări interactive

Toate aceste aspecte prezentate mai sus subliniază nevoia unui model de adnotări adaptabil la diversele situații și cazuri ce pot apărea, și care să ofere informații complete și utile unui sistem MVC (Model-View-Controller) responsabil de interfața cu utilizatorul. El trebuie să permită definirea a diverse tipuri de adnotări pentru a facilita procesarea informației (o adnotare semantică referențiind o resursă Linked Data trebuie interpretată diferit față de o imagine), și să lucreze cu adrese absolute unice pentru identificarea resurselor adnotate.

Pentru a permite o structură cât mai flexibilă și mai practică a adnotărilor interactive, am proiectat și dezvoltat un model ce ține cont de neajunsurile actuale ale modelelor de adnotări existente, de toate scenariile ce pot apărea și de particularitățile video interactiv descrise deja. Consider că acest model oferă o alternativă mai bună pentru definirea adnotărilor interactive.

Tabel 4: Structura datelor utilizate în cadrul modelului propus pentru adnotări video interactive

Modelul propus mai sus permite identificarea unică a adnotărilor și a clipurilor video adnotate, iar câmpul Fragment definește fragmentul temporalo-spațial pentru care se face adnotarea clipului video respectiv. Modelul cuprinde metainformație clasică despre video – Titlu, descriere, categorie. Sunt incluse și aspecte Web 2.0 ce permit utilizatorilor să contribuie activ la organizarea conținutului prin etichete (Tags), dincolo de clasificarea definită de autor.

Elementul IDVideo permite fie referirea explicită a unui clip video prin adresa sa unică pe Internet, fie specificarea identificatorului unui resurse hipervideo gestionate de platforma hipervideo prezentată în această teză în subcapitolul 3.3.

Avantajul specificării unui ID al unui hipervideo aflat în gestiunea sistemului propus este că acesta implică o suită de alte metainformații asociate cu materialul video respectiv, și gestionează mai multe fișiere video având conținut identic, dar fiind transcodate în diverse formate și la calități variate.

Elementul cheie prin care se face interconectarea cu alte informații externe materialului video este DataURI, specificând adresa unică a resursei spre care indică adnotarea – acesta fiind o hiperlegătură spre o pagină web, o imagine, o resusă semantică, un document sau un alt obiect adresabil în mod unic. Un alt element important din acest model este AnnotationType, specificând tipul adnotării, și influențând procesarea ulterioară a informației.

Prin specificarea, de exemplu, a faptului ca adnotarea respectivă este semantică, indicând spre o resursă Linked Data, se pot face interogări complexe (influențate și de ceilalți parametri ai adnotării) pentru a obține date suplimentare.

Acest caz este opus situației în care adnotarea indică spre adresa URI a unei imagini, în care procesarea adnotării este limitată la afișarea imaginii.

Conceptele specifice mediului video sunt regăsite în câmpurile binare Clickable, PausesMovie, Explicit și Reusable. Elementul Clickable specifică dacă utilizatorului i se permite să interacționeze prin clic cu informațiile afișate în urma adnotării, iar PausesMovie controlează redarea clipului video la momentul interacțiunii utilizatorului cu această informație, permițând oprirea materialului video original când cel ce vizionează dorește să afle mai multe despre un subiect adnotat.

Câmpul Explicit permite producătorului de video interactiv să specifice dacă subiectul adnotării apare explicit în video, este menționat verbal, sau este doar implicit prezentat în clipul video. Acest aspect ajută la prioritizarea afișării informațiilor interactive bazate pe adnotări.

În cazul în care există o aglomerare de informații disponibile, prioritate la afișare primesc adnotările explicite, în defavoarea celor implicite. Reusable specifică dacă adnotarea făcută de un utilizator poate fi preluată și duplicată de către un alt utilizator care dorește s-o aplice unui alt clip video având prezentat același concept.

Implementarea prototip a modelului propus

Pentru a realiza practic adnotarea unui video și a implementa modelul de adnotare descris mai sus, am dezvoltat o interfață grafică web, folosind limbajele și tehnologiile HTML 5, Javascript-jQuery-AJAX pentru partea de programare client, și PHP-MySQL pentru procesarea și salvarea lor pe server.

Interfața permite adnotarea atât spațială, cât și temporală a materialelor video, în figura de mai jos fiind prezentat procesul de adnotare temporalo-spațială pentru un telefon fără fir aflat în cadrul video.

Pentru procesul de adnotare a unui clip video, am dezvoltat un pagină specială în cadrul aplicației care permitea utilizatorului să traseze chenare peste video, apăsând butonul de mouse pentru a defini colțul de stânga sus al adnotării și apoi mișcând mouse-ul pentru a defini forma adnotării.

La terminarea apăsării butonului, este definit un dreptunghi ce constituie forma spațială a adnotării. Sunt calculate programatic dimensiunile și coordonatele punctului din stânga-sus al chenarului astfel definit, atât în pixeli, cât și în procente (raportat la dimensiunea video).

Tot la terminarea definirii chenarului adnotării se deschide un formular web pentru a cere metainformațiile aferente adnotării propriu-zise – acestea sunt completate manual.

Dacă se dorește o adnotare pur temporală, dimensiunile spațiale ale adnotării trebuie să fie șterse, sau este suficient un simplu clic pe video, fără a trasa chenarul spațial.

Figura 3.7: Interfața dezvoltată pentru adnotarea interactivă a materialelor video

Interfața paginii de adnotare interactivă constă din fereastra principală în care este redat video, și alte ferestre de control adiacente ferestrei video. Clipul video este integrat în pagină folosind eticheta <video> specificată de standardul HTML5. Peste video este suprapus un alt element HTML sensibil la interacțiunea de tip clic a cursorului.

Realizarea unei adnotări se face prin apăsarea cu cursorul asupra materialului video, în timp ce clipul este redat. Pot apărea două cazuri de apăsare a cursorului – apăsarea și ridicarea butonului cursorului în aceeași locație, sau apăsarea butonului cursorului urmată de o deplasare a cursorului, și abia apoi ridicarea butonului cursorului. Acest al doilea caz definește un chenar dreptunghiular folosit pentru a specifica o adnotare spațială.

În cazul adnotărilor spațiale, pentru a păstra proporția relativă a adnotării față de materialul video indiferent de rezoluția video sau de dimensiunea ecranului pe care va fi afișat clipul video adnotat interactiv rezultat, am preferat folosirea coordonatelor spațiale exprimate în procente din video, nu în pixeli. Deși adnotările pot fi exprimate și în pixeli, ar fi fost nevoie de calcule suplimentare pentru adaptarea la diversele rezoluții și factori de aspect ai ecranelor existente, lucru ușor de evitat prin exprimarea adnotării în procente.

Însă recurgerea la procente presupune un raport intre două valori întregi de pixeli (dimensiunea chenarului adnotării raportată la dimensiunea video, înmulțită cu 100), iar acest raport poate avea valori diferite de un intreg. Pentru a păstra coordonatele spațiale procentuale într-o formă simplificată și a respecta standardele existente, am recurs la rotunjirea rezultatului raportului, eroarea maximă a unei adnotări spațiale fiind de 0.5%, o valoare pe care am considerat-o rezonabilă având in vedere dificultatea și imprecizia intrinsecă adnotării manuale.

Adnotările spațiale sunt exprimate în formatul rectangular recomandat de W3C prin 4 variabile xywh, primele două definind coordonatele punctului de start aflat în partea de stânga sus al dreptunghiului, următoarele două specificând lățimea și înălțimea sa.

Adnotări spațiale variabile în timp pot fi și ele implementate, pentru a urmări obiecte în cadrul video aflate în mișcare, folosind același ID al adnotării, dar specificând coordonate temporalo-spațiale diferite. În acest mod, se pot asocia mai multe adnotări având durata de o secundă fiecare, având același subiect al adnotării, dar specificând o locație spațială diferită în cadru pentru subiectul adnotat. Acest aspect nu a fost însă implementat în practică în cadrul acestei platforme, și constituie o direcție viitoare de cercetare.

Redarea publică a materialelor video interactive

Partea de redare a materialelor video interactive către utilizatori se poate face pe baza împlinirii a două condiții. În primul rând, terminalul utilizatorului trebuie să-i permită acestuia interacțiunea cu video, în cazul nostru, prin intermediul unui navigator web, indiferent că această interacțiune se face prin tastatură, cursor, telecomandă sau comandă tactilă.

Această primă condiție este îndeplinită de către telefoanele mobile medii și avansate, toate calculatoarele existente, televizoarele inteligente precum și anumite dispozitive interactive de tip set-top box care se conectează la televizoarele obișnuite.

În al doilea rând, redarea materialelor video interactive prin intermediul unui navigator modern ce suportă standardul HTML5 și eticheta <video> trebuie să se facă printr-o aplicație specială de redare a acestor clipuri și a informațiilor interactive asociate, numită în continuare player video interactiv.

Acest subcapitol prezintă modalități în care conținutul video interactiv poate fi prezentat către utilizatori, folosind un player video special conceput pentru a afișa clipuri video îmbogățite cu informație și interactivitate, care afișează informațiile suplimentare într-un mod accesibil și pe o varietate de ecrane și platforme.

Figura 3.8: Redarea materialelor i-video în arhitectura sistemului (fragment)

Player video interactiv, multiplatformă și multi-ecran

În cadrul unui stagiu de cercetare desfășurat în cadrul organizației de cercetare Salzburg Research, în Austria în 2012, am participat la dezvoltarea unui player video interactiv pentru afișarea adnotărilor semantice, la nivel de client, în cadrul unui proiect de cercetare european numit ConnectME [77]. Pentru partea de prezentare la nivel de client, am am recurs la o implementare HTML5-CSS3-Javascript/jQuery/jQueryUI, respectând arhitectura Model-View-Controller, având ca scop construirea unui player video interactiv care să afișeze clipuri îmbogățite cu informație semantică, numit LIME Player – LInked MEdia Player.

LIME Player a fost conceput încă de la început ca un proiect în sursă deschisă și găzduit pe platforma Github. El este dezvoltat activ în prezent.

Pentru implementarea LIME Player, am folosit abordarea MVC (Model-View-Controller) în care elementele componente ale interfeței cu utilizatorul – modelul de date, afișarea informațiilor și controlorul programatic al elementelor – erau separate. Am plecat de la un player video HTML5 existent, capabil să redea materialele video codate corespunzător, care să fie apoi adaptat și modificat pentru afișarea de adnotări și informații îmbogățite semantic. Am ales playerul video VideoJS, pentru eleganța arhitecturii sale (API) și pentru faptul că permitea și o opțiune de rezervă a afișării materialului video printr-un player Flash, în cazul în care clipul video adnotat ce trebuia afișat nu era codat corespunzător în cele 3 variante video (webM, mp4 și ogg), ci doar în formatul cel mai popular mp4. Elementele grafice tip adnotări erau afișate și ele în varianta Flash.

Figura 3.9: LIME Player – video player interactiv, afișând adnotări temporale și spațiale

Elementul cheie al LIME Player constă în afișarea adnotărilor interactive în cursul redării video, permițând și interacțiunea cu informațiile suplimentare afișate, acest aspect fiind însă discutat mai pe larg în subcapitolul următor. Un alt element inovator este adaptarea acestuia la diversele platforme și ecrane pe care clipul video adnotat interactiv poate fi afișat, el fiind optimizat în special pentru scenariile Web, SmartTV și mobile.

Există 2 scenarii posibile ale prezentării materialelor hipervideo – pe toată întinderea ecranului (fullscreen) și normal (window). Cazul normal este cel întâlnit în scenariul web obișnuit, când clipul video ocupă doar o secțiune a ecranului, iar informația suplimentară definită de adnotări este afișată în secțiuni adiacente video-ului, fără a fi nevoie însă să fie afișate peste video, ca în imaginea de mai jos.

Aceste secțiuni adiacente erau reprezentate de elemente HTML, de obicei <div>, al căror ID era apoi comunicat controller-ului LIME Player prin parametrii de inițializare. În cadrul acestor elemente HTML specificate erau afișate fragmentele suplimentare de informație rezultate în urma adnotărilor, prin intermediul așa-numitor "widget-uri". Această implementare a fost făcută pentru a asigura maximul de flexibilitate în integrarea LIME Player în sistemele de gestiune a conținutului web (Content Management Systems – CMS) actuale, pentru această abordare nefiind nevoie de schimbări structurale ale CMS-urilor.

Figura 3.10: LIME Player – cazul normal (window)

Cazul în care imaginea se întinde pe tot ecranul (fullscreen) este cel întâlnit la SmartTV-uri, decodoare TV inteligente, IPTV, mobile și eventual la web atunci când utilizatorul dorește afișarea video-ului pe întreg ecranul. În acest caz, informația suplimentară obținută trebuie afișată peste imaginea video, cum se poate observa în figura de mai jos.

Figura 3.11: LIME Player – cazul fullscreen

De asemenea, player-ul video este adaptabil la diversele rezoluții și mărimi ale ecranului, în cazul dispozitivelor mobile, spațiul disponibil pentru afișarea informațiilor suplimentare fiind mult mai redus decât în scenariul web sau TV. Și nu în ultimul rând, LIME Player permite dezactivarea totală a afișării informațiilor suplimentare și a adnotărilor spațiale, pentru cazul în care utilizatorul dorește să urmărească nederanjat materialul video, precum și reactivarea zonelor cu metainformatie, la cerere.

Afișarea adnotărilor sub forma unor fragmente de informație de tip widget

Un aspect esențial al LIME Player a presupus dezvoltarea de așa-numite widget-uri, fragmente de informație care au rolul să afișeze metainformație relevantă despre acea resursă adnotată. Conceptul este bazat pe faptul că, pentru o adnotare anume, pot exista mai multe widgeturi care să folosească aceeași adnotare pentru a afișa informații relevante diferite. Ca exemplificare, pentru un video care descria activități sportive în zona Salzburg din Austria, pentru o singură adnotare semantică "Salzburg", diverse widget-uri să poată afișa de exemplu, vremea pe următoarele zile, cele mai bune pârtii de ski, alte activități posibile în afară de ski, evenimente și ocazii în zona Salzburg și alte informații (Figura 3.11).

Figura 3.12: Corelarea între adnotări și widget-uri

Aceste widget-uri erau afișate în secțiuni adiacente clipului video (în cazul normal/web), sau suprapuse peste clipul video (în cazul fullscreen/TV/mobil), în ordinea unei priorități specificată la început de către administratori. Implementarea tehnică a widget-urilor era prin folosirea etichetelor <div> în HTML, accesibile și modificabile dinamic, în timp real, prin intermediul limbajului Javascript.

Această varietate și diversitate de informații afișate prin widget-uri despre un concept anume poate fi implementată doar prin Linked Data. Dacă adnotarea indică spre o resursă semantică, pe baza principiilor Semantic Web, se poate obține un volum uriaș de informații corelate cu video, limitarea fiind dată de widget-urile implementate.

Acest aspect asigură modularitatea, putându-se alege și prioritiza widget-urile cele mai potrivite în funcție de aplicație. În prima fază, s-a dorit dezvoltarea câtorva widget-uri, cele mai notabile fiind un widget de text descriptiv, imagini înrudite, video-uri înrudite, evenimente locale, vreme, alte activități, un widget de sport, etc.

Un alt concept esențial era ca, dincolo de simpla afișare a unor informații, aceste widgeturi trebuie să fie interactive, permițând utilizatorului să exploreze suplimentar informația afișată de ele, și să poată să interacționeze în egală măsură cu celălalte widget-uri și cu clipul video.

Figura 3.13: LIME Player – Exemplu de afișare adnotare Linked Data de pe DBPedia

La începerea redării materialului video, adnotările erau descărcate de pe server prin AJAX, controller-ul implementat programatic în LIME Player procedând apoi la descărcarea efectivă a resurselor media indicate prin adnotări, în mod transparent față de redarea video.

Pentru a spori viteza de reacție a LIME Player și a redării informațiilor aferente, informațiile descrise de adnotări erau descărcate prin intermediul Linked Media Framework – un sistem de gestiune al fișierelor media și a metainformației despre aceste fișiere ce include și posibilitatea stocării locale a informației, fiind de asemenea un mediu de stocare a tripletelor semantice sistem-predicat-obiect accesibile prin interogări în limbajul Sparql.

Având în vedere varietatea tipurilor de resurse indicate prin adnotări, s-a recurs la o implementare flexibilă a modelului de date al informațiilor definite de adnotări. Aceste date erau stocate în DOM în obiectul LIME Player , ca o matrice de adnotări de lungime și complexitate variabilă, depinzând evident de resursa indicată prin adnotare. La descărcarea acestor resurse, controller-ul semnala disponibilitatea pentru ca ele să fie afișate utilizatorului.

Pasul următor privește preluarea acestor date de către widget-uri, mici elemente de logică programatică scrise folosind Javascript-jQuery-jQueryUI, implementate modular și responsabile de afișarea informației descrise prin adnotări.

Ca tipuri de widget-uri, amintesc cele responsabile de afișarea profilului unei persoane folosind sursa de Linked Data GeoNames, afișarea generică de informație extrasă dintr-o resursă semantică din DBPedia, afișarea unei hărți prin GoogleMaps sau a unor poze sau fluxuri de poze de pe diverse site-uri. La inițializarea LIME Player, erau definite widget-urile active pentru clipul video respectiv, putându-se astfel personaliza tipurile de informații afișate.

Implementarea LIME Player separa clar modelul de date de modalitatea de afișare a lor și de partea de procesare a acestor informații, respectând paradigma Model-View-Controller. Implementarea programatică a semnalizărilor interne privind diversele faze ale procesării adnotărilor s-a făcut prin intermediul evenimentelor DOM (events și event listeners), procesarea lor fiind făcută prin intermediul limbajului Javascript și a bibliotecii jQuery.

Tot prin intermediul evenimentelor erau semnalate momentele în care adnotările temporale și adnotările temporalo-spațiale deveneau active și relevante pentru player. Pentru o adnotare temporală având definite momentele de start și de final, erau declanșate evenimente DOM folosite pentru a controla afișarea diferitelor widget-uri care foloseau adnotarea respectivă (putând exista mai multe widget-uri aferente unei singure adnotări).

Dacă exista și o componentă spațială a unei adnotări, era definit și un element HTML <div> având forma rectangulară specificată prin coordonatele xywh ale adnotării spațiale, el fiind apoi atașat obiectului player-ului și afișat în perioada de timp în care informația era valabilă.

Contribuția utilizatorilor la hipervideo prin materiale și informații proprii

Toate dezvoltările recente din tehnologie și din industria media au dus la o schimbare de paradigmă privind rolul consumatorului în raport cu materialul video. Acesta joacă un rol tot mai activ, atât în vizionarea de clipuri video, cât și în remixarea și generarea de conținut nou multimedia, corelat cu clipul vizionat. Orice sistem sau platformă care nu ține cont de aceste noi cerințe de design informațional este în pericol să piardă contactul cu publicul țintă. [38]

Însă un aspect important ce privește generarea de materiale și metainformație de către utilizatorii obișnuiți ține de calitatea acestor date. Studiile arată [44] că aceste date generate de către utilizator trebuie verificate și validate pentru a păstra integritatea materialelor și un grad acceptabil de acuratețe a informației totale prezentate.

În cadrul acestei lucrări, un sistem de video interactiv presupune două perspective – cea a producătorului de hipervideo, și cea a consumatorului (activ) de hipervideo. Diferența principală dintre cele două perspective este faptul că producătorul este autorul (sau beneficiarul) clipului video încărcat pe platformă, și este de presupus că are informații precise (deși posibil incomplete) privind conținutul materialului video respectiv, aceste informații servind ca sistem de referință pentru verificarea calității materialelor.

Pe baza acestor informații precise, după încărcarea clipului video pe platforma interactivă, producătorul procedează la adnotarea interactivă a clipului și la interconectarea sa cu alte clipuri hipervideo. Apoi acest clip este prezentat public utilizatorilor ca hipervideo. Dacă acest lucru este de dorit într-o implementare anume, un utilizator poate ușor tranziționa din a fi un consumator în a fi un producător, prin încărcarea unui material video nou pe platforma interactivă.

Pentru a îmbina armonios cele două aspecte – permiterea contribuțiilor utilizatorilor și păstrarea calității materialului rezultat – consider necesară separarea metainformației definită de către producător de cea adăugată de utilizatorii obișnuiți, ponderea mai mare fiind acordată metainformației generate de producător.

Utilizatorilor obișnuiți li se poate permite generarea de etichete și adnotarea materialelor video, dar având o cotație de importanță inferioară. La validarea explicită și confirmarea informațiilor de către producătorul video inițial sau un moderator/administrator, aceste metainformații generate de utilizatori trec la nivelul de importanță al metainformației generate de producător.

O altă abordare este implementarea unui sistem de meritocrație, în care utilizatori obișnuiți să poată vota contribuțiile altora, iar la trecerea unui prag de voturi pozitive, metainformația respectivă să fie promovată În acest mod de prioritizare a informației pe două nivele, cele două aspecte cu potențial conflictual – deschiderea sistemului spre contribuții, și calitatea informațiilor stocate – pot fi armonizate.

De asemenea, modelul propus de stocare a metainformației hipervideo (subcapitolul 3.3) permite producătorului ce încarcă un clip video să specifice dacă clipul respectiv poate fi refolosit de către un alt utilizator, care va putea genera propria sa variantă de hipervideo, plecând de la același clip video, dar cu adnotări separate, și eventual parte dintr-o narațiune multi-clip diferită.

Principii directoare privind producția materialelor video destinate pentru a fi interactive

Această secțiune evaluează modul în care dimensiunea de interactivitate adăugată programatic ulterior influențează partea de producție a materialelor video, în special aspectele ce țin de filmare și editare. În prima parte, prezint aspectele de care trebuie să se țină cont pentru producția unui material dedicat direct unui mediu interactiv special de genul celui descris mai sus.

Apoi analizez considerentele care se aplică la adaptarea și reprocesarea materialelor video deja produse pentru mediile existente pasive (TV, internet, DVD și altele) pentru a le optimiza pentru experiențe interactive.

Pe baza experienței personale și a studiului făcut, propun un set de principii directoare pentru realizarea clipurilor video destinate pentru a fi folosite într-o platformă de hipervideo, inclusiv în cea propusă în teza mea.

Figura 3.14: Producția materialelor i-video în arhitectura sistemului (fragment)

Unul din principalele dezavantaje ale video interactiv este cantitatea relativ mare de resurse necesare pentru a genera materialele video dorite, atât ca concepție și filmare, cât și ca timp de editare. De asemenea, paradigma de interactivitate adaugă complexitate suplimentară procesului de înregistrare a clipurilor video.

Specificațiile curente ale organului internațional de standardizare W3C pentru adnotări prevăd unitatea de măsură de timp atomică secunda, o adnotare fiind definită între o secundă de start și una de final. Însă în sistemul video actual, informația video este reprezentată în 25 de cadre pe secundă în standardul european PAL, si 29.97 cadre pe secundă în standardul alternativ NTSC.

Adnotările, fiind reprezentate în secunde, sunt independente de standardul video folosit. Însă pot apărea probleme dacă o secvență componentă unui clip video nu are un multiplu întreg de secunde. Adnotarea va fi fie prea scurtă față de informația video afișată, fie prea lungă, suprapunându-se peste secvența următoare având alte informații vizuale. Eroarea de adnotare maximă este de o secundă, exceptând bineînțeles eroarea umană.

Astfel, o recomandare cheie pentru materialele video mai complexe este ca în procesul de editare video, secvențele filmate ce urmează să compună un material video interactiv să aibă durata un multiplu întreg de secunde, pentru o adnotare corectă a elementelor vizuale reprezentate în cadrul video sau a conceptelor pe care clipul video le prezintă. Acest aspect se aplică adnotărilor temporale, făcând mai facilă definirea lor în interfața de producere a materialelor video interactive.

Figura 3.15: Producția materialelor video pentru interactivitate

Pentru cazul adnotărilor spațiale, apar dificultăți în definirea și reprezentarea unei adnotări spațiale în format vizual mai complex decât cel rectangular specificat de recomandările World Wide Web Consortium. Forme geometrice mai simple pot fi relativ ușor implementate, cum ar fi un cerc sau o elipsă, având nevoie de puține informații pentru a defini exact regiunea adnotată. Însă obiectele din realitate pot avea forme extrem de neregulate, dificil de inclus în forme geometrice regulate ca dreptunghiuri.

Din punct de vedere al filmării materialelor video destinate pentru interactivitate, se recomandă cadrarea scenei ce urmează a fi filmată într-un asemenea mod încât să permită definirea facilă a adnotărilor, preferabil prin modelul dreptunghiular specificat de W3C, pentru a evita erorile ce pot apărea prin adnotarea spațială imprecisă, așa cum reiese din Fig. 3.14.

În partea stângă a imaginii, fragmentul media dreptunghiular cuprinde un singur subiect – persoana respectivă. În partea dreaptă însă, dacă dorim să marcăm pentru adnotare un fragment având ca subiect copacul, vom fi nevoiți să includem și omul de lângă copac, având astfel o eroare.

Având în vedere faptul că natura intrinsecă a video presupune imagini în mișcare, vom avea fenomenul deplasării elementelor în cadru care urmează a fi adnotate interactiv. Aceste elemente pot fi persoane sau obiecte aflate în mișcare în cadrul video. Mișcarea apare de asemenea în imaginile video în cazul unor panoramări sau transfocări. Aceste situații pot pune probleme definirii unor adnotări corecte.

Definirea unor adnotări temporalo-spațiale variabile în timp (adnotări de mișcare) compensează parțial aceste probleme, însă sunt limitate de faptul că frecvența de eșantionare a noii poziții spațiale a adnotării este o secundă, ceea ce limitează precizia reprezentării adnotării în mișcare. Din acest motiv, cu privire la producția și filmarea materialelor destinate a fi adnotate, se recomandă folosirea preferențială a mișcărilor liniare și regulate, evitându-se filmări neregulate și schimbări bruște de cadrare.

În ultima vreme se remarcă o creștere a numărului de dispozitive de captură video care sunt dotate cu sisteme de poziționare și localizare, de exemplu prin sistemul GPS. Înregistrările video făcute cu aceste dispozitive includ în fișierul rezultat metainformație de poziționare.

Aceste date pot constitui adnotări generate automat în cadrul unui sistem multimedia interactiv ca cel propus în lucrarea prezentă. Este recomandabil ca filmarea unui material video interactiv să se facă cu astfel de dispozitive, iar la faza de procesare a lor să se acorde atenție conservării lor și importării în sistem, ca adnotare generată automat pentru materialul video ce urmează să fie procesat pentru interactivitate.

Din punct de vedere al conținutului redacțional al imaginilor, în industria de divertisment se practică evitarea includerii în cadru a unor reclame sau produse a căror marcă să poată fi distinsă explicit de către persoana care vizionează, cu excepția unor situații speciale în care firma respectivă plasează intenționat produsele sau marca sa în mod vizibil în cadru, sau sub formă audio, ca metodă de marketing. Evident, același principiu se aplică și materialelor video interactive, pentru a evita posibile consecințe juridice.

Însă în economia World Wide Web, valuta forte este hiperlegătura, algoritmii de clasificare a paginilor de către motoarele de căutare ținând cont de numărul hiperlegăturilor spre o pagină pentru a-i evalua importanța în ordonarea rezultatelor căutării utilizatorilor. Acest aspect face cu atât mai importantă includerea intenționată a anumitor mărci sau produse în materialul audio-video.

Ca și în clipurile video actuale, avem dimensiunea de "impresie" a mărcii sau a produsului asupra utilizatorului, însă adnotarea interactivă explicită a mărcii respective deschide dimensiunea de interacțiune cu marca respectivă, prin clic, și generează statistici și date utile pentru marketing. Acest factor face extrem de valoroasă pentru firme includerea mărcii sau a produselor lor în filmarea unui material video interactiv, oferind valoare adăugată.

În cazul realizării unor narațiuni video compuse din mai multe clipuri video corelate sub forma unui film interactiv neliniar, recomand concepția materialelor sub forma unor module scurte informaționale, ușor de întreținut și modificat în cazul în care din diferite motive, este necesară modificarea lor. În cazul nevoii de actualizare a unei părți din narațiunea complexă compusă din mai multe clipuri video interactive, se modifică doar clipul video individual vizat, lăsându-le pe celălalte neafectate și având adnotările lor intacte.

Acest tip de organizare informațională are avantaje evidente față de realizarea unui singur material liniar lung, pentru actualizarea căruia sunt necesare eforturi mult mai mari și apare posibilitatea invalidării adnotărilor definite precedent dacă durata lui se modifică. Unitatea video ireductibilă în acest caz este secvența video, însă fragmentarea excesivă a unui material va duce la creșterea complexității intercorelării părților componente.

De aceea, în funcție de tipul și conținutul materialelor video, recomand folosirea unor fișiere video modulare de minim 30-45 de secunde, conținând câteva secvențe video.

O altă situație întâlnită este cea în care se dorește readaptarea și reeditarea unor clipuri video obișnuite, produse fără a se ține cont de principiile expuse mai sus. Pentru adaptarea lor pentru a fi folosite într-un context de video interactiv (repurposing), apar destul de puține îmbunătățiri care pot fi aduse unui material deja produs.

Un singur principiu din cele deja expuse mai sus poate fi aplicat în acest caz: prin reeditarea secvențelor componente ale unui clip în așa fel încât ele să aibă durata un multiplu întreg de secunde, pentru a elimina erorile de reprezentare a adnotărilor temporale. Și posibil, segmentarea materialului video în mai multe fișiere componente pentru a face mai ușoară gestiunea din punct de vedere informațional.

Concluzii și contribuții

În urma cercetării depuse și a analizei studiilor, conceptelor teoretice și a tehnologiilor descrise în capitolul 2, am trecut la propunerea unui model pentru un sistem complex de generare de video interactiv. Am creionat scopul său principal, arhitectura sa și elementele sale componente, precum și caracteristicile pe care acesta trebuie să le posede. Am discutat de asemenea modul în care trebuie să fie abordate cele două cazuri principale care permit interactivitatea în video – augmentarea unor clipuri video singulare și narațiuni multi-clip (care pot să fie compuse din clipuri video augmentate), deși acest ultim aspect e prezentat pe larg în subcapitolul 4.1.

Pentru a demonstra și a testa principiile teoretice privind arhitectura unui sistem complex de video interactiv expuse în cadrul acestei teze, am dezvoltat o platformă web prototip de generare a clipurilor hipervideo, numită Interactive Video Platform. Această platformă permite într-un mod facil adnotarea clipurilor video cu informații din diverse surse externe, interconectarea și administrarea materialelor video în narațiuni video interactive, generarea de decizii, toate aspectele esențiale care țin de crearea și administrarea unor clipuri video interactive.

În cadrul acestui capitol, am arătat că, pentru a avea o platformă inteligentă de video interactiv, este necesară corelarea fișierelor video cu metainformație suplimentară complexă. Am studiat factorii ce țin de stocarea materialelor video și a metainformației necesare pentru a avea un sistem video interactiv adaptiv. Am studiat aspectele ce țin de automatizarea și procesarea optimală a clipurilor video în formatele dorite.

Folosind doar tehnologii în sursă deschisă, am implementat un server virtual de transcodare video și gestiune pentru a încărca și procesa clipurile video corespunzător formatelor necesare pentru aplicație, având o interfață ușor de folosit pentru utilizatori și permițând controlul lor asupra parametrilor de transcodare video.

Privind metainformația aferentă unui clip hipervideo, am propus un model teoretic pe 7 dimensiuni pentru structurarea metainformației necesare pentru a permite realizarea inteligentă de video interactiv, permițând atât adnotarea clipurilor video individuale, cât și realizarea de filme interactive compuse din mai multe clipuri video, și înregistrarea interacțiunilor utilizatorilor cu toate acestea.

Pentru adnotări, am propus un model teoretic ce ține cont de majoritatea tipurilor de adnotări ce pot apărea, precum și de tipul interacțiunilor cu informația suplimentară obținută în urma adnotării. Am realizat o implementare practică a acestui model și o interfață de generare a adnotărilor pentru un material video.

Ca urmare a stagiului meu desfășurat într-un institut de cercetare din Salzburg, Austria, în vara anului 2012, am contribuit la dezvoltarea unui player multiplatformă/multiecran numit LIME Player, care redă clipul video îmbogățit cu adnotări semantice, modificându-l și adaptându-l ulterior la nevoile acestei teze.

Am participat la proiectarea, dezvoltarea și implementarea acestui player de hipervideo prin documentare și studierea conceptului, cercetarea de playere video HTML5 existente care să poată fi adaptate la cerințele proiectului, și am propus alegerea playerului VideoJS, adoptat în cadrul proiectului, pentru a dezvolta un player video interactiv semantic, orientat pe obiect.

În colaborare cu un alt coleg din cadrul Salzburg Research, am dezvoltat un player video semantic interactiv prototip, implementându-l pe baza modelului Model-View-Controller. Folosind limbajul Javascript și bibliotecile asociate jQuery și jQueryUI, am implementat prima fază a dezvoltării acestui player video semantic orientat pe obiect, am propus idei care să îmbogățească proiectul, și am programat controllerul și câteva din widget-urile preconizate pentru player. Lucrul nostru s-a concentrat pe scenariul Web si TV, având incluse cazurile de afișare Fullscreen și Window, scenariul Mobile fiind preluat de Universitatea din Passau, Germania.

Procesul de dezvoltare în continuare a acestui player continuă și în prezent, lucrându-se la noi scenarii care să se adapteze cât mai bine utilizatorilor, precum și la implementarea a noi tipuri de widget-uri. O direcție viitoare de dezvoltare este dezvoltarea unor widget-uri capabile să interacționeze între ele, pentru a crea o experiență mai complexă și mai angrenantă. Reprezentarea unor adnotări în mișcare este de asemenea o prioritate.

Video interactiv influențează modalitatea în care materialele video sunt concepute, filmate, editate și exportate. În cadrul acestui capitol, am analizat critic implicațiile conceptului de video interactiv asupra producției materialelor video componente, dezvoltînd o serie de recomandări și principii directoare pentru realizarea lor. Aceste recomandări au ca scop minimizarea erorilor ce pot apărea la adăugarea ulterioară a aspectelor interactive, în cazul în care producția video este efectuată fără a se ține cont de aceste principii. Aceste recomandări și principii au fost testate practic și validate în cadrul implementărilor făcute în studiile de caz descrise în capitolul 5.

Din punct de vedere practic, în cadrul studiilor de caz prezentate în capitolul 5, am filmat și editat anumite materiale video destinate special pentru a fi folosite într-un sistem interactiv. Pentru filmarea materialelor video, am folosit un aparat DSLR capabil de înregistrare video și un telefon mobil. O altă metodă de generare a materialelor video a fost prin înregistrarea ecranului unui calculator folosind programul de captură de ecran Windows Media Encoder. Pentru post-producția materialelor video, am folosit programul profesional de editare video neliniară Adobe Premiere.

Însumate, consider că toate aceste elemente descriu un sistem robust de generare a video interactiv. Acest capitol acoperă toate aspectele de generare și prezentare a materialelor video interactive, folosind cele mai noi tehnologii și fiind adaptat la o plajă largă de dispozitive și interacțiuni posibile.

Anumite aspecte ce țin de funcționarea sa mai bună, de corelarea video-video și de video-om, inteligență și adaptivitate, precum și aspecte de uzabilitate am ales să le tratez în capitolele ce urmează.

Adaptivitate și corelarea inteligentă a materialelor

Acest capitol prezintă modalități în care se poate face intercorelarea materialelor video între ele, și tratează adaptarea acestor materiale video la utilizator, pentru a servi mai bine interesele sale informaționale. Scopul acestor mecanisme este să faciliteze o interacțiune mai bună și o experiență cât mai plăcută și captivantă între utilizatori și un sistem interactiv care se adaptează după nevoile și preferințele lor, oferindu-le profunzime și ușurință în navigarea informațională și perfecționându-se în permanență.

Corelarea materialelor video între ele

Corelarea materialelor video între ele poate fi făcută pe două nivele, manual și automat. De asemenea, această corelare nu necesită un clip video întreg, ci asocierea tematică între concepte abordate în mai multe materiale video poate fi făcută doar la nivel de fragment media, corelând subsecțiuni din materialele video care pot fi asociate.

Ca în platformele video clasice, un prim nivel de corelare a clipurilor video interactive este prin organizarea lor în categorii tematice. Deși există și tehnologii mai inovatoare de intercorelare a materialelor hipervideo, metodele clasice pot oferi în continuare o metodă eficientă de organizare a informației. În cele ce urmează, le vom studia pe amândouă.

Etichetele și cuvintele cheie complementează categoriile predefinite, permițând o taxonomie flexibilă și adaptabilă alături de structura bine organizată definită de categorii. De asemenea, posibilitatea completării acestor etichete ar trebui extinsă și spre utilizatorii obișnuiți, pentru a beneficia și de aportul lor.

În continuare, voi aborda un alt mod de corelare a materialelor hipervideo, bazat pe intercorelarea manuală a mai multor clipuri video independente într-o narațiune hipervideo.

Clipuri video autonome și clipuri video corelate într-un fir narativ (filme interactive)

Cea mai des întâlnită situație este cea în care materialele video încărcate pe platformă nu sunt corelate într-un fir narativ, ci sunt autonome informațional. În acest caz, dimensiunea de navigare în profunzime, pentru clarificarea unor concepte prezentate în video, devine mai importantă decât navigarea orizontală pentru găsirea altor clipuri pe teme similare.

Însă lipsa unei definiri de către creator a altor clipuri video cu care clipul în cauză este asociat permite algoritmilor de intercorelare să preia această sarcină, corelând automat alte video-uri pe baza unor algoritmi ce rulează pe mai multe nivele – procesarea metainformației text, a audio, a histogramei, etc. Acest aspect va fi discutat în subcapitolul 4.1.3 al lucrării de față.

Un alt aspect al interactivității în video este producerea de narațiuni interactive (filme interactive, cursuri multidisciplinare, etc.), în care utilizatorul ia parte activ și influențează desfășurarea acțiunii prin alegeri făcute, apăsând butoane pe telecomandă (pentru TV), sau dând clic pe anumite butoane și elemente grafice (web, mobile). Prin aceste acțiuni, utilizatorul ia decizii în cadrul mai multor clipuri video corelate narativ, selectând dintr-o listă de opțiuni.

Aceste decizii duc la generarea de zeci/sute de posibilități de a ajunge la finalul narațiunii [29], reprezentate de obicei printr-un graf decizional, că în figura de mai jos. De asemenea, filmul trebuie să includă noțiunea de decizii dependente de decizii anterioare, când anumite acțiuni sunt sau nu posibile funcție de decizii luate în trecut. Aceste tipuri de structuri se mai folosesc și la ghiduri interactive, prezentări de organizații, etc.

În figura 4.1 este prezentată o parte din structura unui film interactiv produs și generat de mine împreună cu alți colegi, sub titlul Maya – an interactive adventure [6]. Acest film urmărea acțiunile personajului principal, o femeie numită Maya, a căror acțiuni erau influențate direct de către cel ce urmărea materialele. Fiecare chenar din imagine reprezintă un clip video separat, iar cu albastru închis sunt reprezentate alternativele în cazul unor decizii în narațiunea video. Acest film va fi însă discutat mai pe larg într-un studiu de caz privind divertismentul, în subcapitolul 5.1.

Figura 4.1: Graf cu structura unui film interactiv generat de autor [6]

Din punct de vedere tehnic, aceste filme interactive se realizează fie în Adobe Flash cu programarea logicii decizionale în Actionscript, fie în HTML5 și Javascript, iar graful decizional este generat dinamic în XML sau JSON. Filmul este de obicei segmentat în clipuri scurte care corespund deciziilor – aceste clipuri scurte se încarcă pe măsură ce utilizatorul progresează în film și face deciziile aferente. Este important ca sistemul să rețină locația în narațiune a utilizatorului, eventual permițând și o navigație de tip Înainte/Înapoi, și „sărirea” prin film de la un punct de decizie la altul.

O abordare mai complexă și robustă este crearea unei „engine” de film interactiv, o platformă ușor de folosit care să permită utilizatorilor obișnuiți să definească graful decizional și să incarce elementele media folosind o interfață grafică, apoi facilitând publicarea sa pe web. Asemenea implementări există [6,78], dar sunt încă în stadiu relativ incipient. Teza de față își propune să contribuie și în acest domeniu.

Studiile arată că implicarea activă a utilizatorilor în narațiune este benefică pentru satisfacția percepută [45], însă trebuie luat în considerare și scenariul în care unii oameni preferă o experiență pasivă a vizionării, în care să nu se implice în decizii. În acest caz, un film interactiv poate genera pentru ei aleator alegerile necesare derulării materialului, el devenind astfel un film liniar obișnuit.

Pentru un astfel de film interactiv, se pot genera experiențe sociale prin compararea rezultatelor urmăririi filmului interactiv, descoperirea altor utilizatori care au făcut decizii similare, crearea de filme interactive care să ia în considerare nu doar deciziile unui singur utilizator, ci a mai multora, implementarea unui sistem de sugestii ale prietenilor care să ajute la decizie și alte metode.

Interfața propusă de generare a filmelor interactive

Pentru a demonstra și a testa concret anumite principii expuse în cadrul acestei teze, am dezvoltat o platformă web de generare i-video și adnotare pentru narațiuni video interactive numită Interactive Video Platform. Aceasta permite într-un mod facil și prietenos, interconectarea materialelor video în narațiuni, adnotarea lor și generarea de decizii.

Pentru a folosi această platformă și a genera materiale video interactive, nu sunt necesare cunoștințe de programare sau alte cerințe complexe din partea utilizatorului. Ea a fost concepută ca o unealtă accesibilă pentru utilizatorii obișnuiți, pentru ca ei să poată crea video interactiv.

Am dezvoltat această unealtă folosind tehnologiile deschise Javascript-jQuery-AJAX-PHP-MySQL. Pentru interfața de legare a materialelor video între ele, am folosit biblioteca Javascript numită JSPlumb, adaptată pentru acest scop, ce permitea conectarea clipurilor printr-o simplă tragere a unei săgeți prin intermediul cursorului. Am adaptat această bibliotecă la cazul de față pentru a folosi noduri reprezentând elemente video, facilitând astfel crearea manuală de legături între clipuri video și a deciziilor interactive.

Informațiile de generare a materialelor video intercorelate erau stocate și transmise ca date JSON spre server, o metodă de reprezentare a datelor mai eficientă ca XML și mai ușor de procesat în limbajul de prezentare Javascript.

Interfața dezvoltată pentru generarea narațiunilor video interactive este ilustrată în Figura 4.2.

Figura 4.2: Interfața de generare a narațiunilor interactive prin interconectarea clipurilor video (secvență parțială)

Interfața dezvoltată permite alegerea clipurilor video ce urmează a fi inter-legate dintr-o listă de clipuri disponibile. Clipurile selectate sunt incluse într-o zonă a paginii în care devin noduri ale unui viitor graf, fiind posibilă definirea conexiunilor unidrecționale între nodurile narațiunii prin trasarea conexiunilor între ele, prin intermediul cursorului. Nu există o limitare a conexiunilor ce pot fi stabilite între noduri, însă am implementat mecanisme de verificare a faptului că fiecare nod este conectat la minim un altul.

De asemenea, pentru definirea clară a unei narațiuni, trebuia definit un nod de start, fără de care narațiunea nu avea sens, interfața marcându-l cu o culoare diferită față de celelalte noduri. Interfața permitea și corelarea nodului cu el însuși, pentru implementări în care ar fi fost nevoie să se reia vizionarea materialului.

Decizii interactive

În cazul conectării unui nod la mai mult de un singur alt nod succesiv, apare o bifurcație în fluxul narațiunii video, fiind posibilă optarea pentru o anumită cale de urmat, alegerea unui clip video ce urmează a fi redat în continuare în defavoarea altora posibile. Acest eveniment permite definirea unor decizii pentru utilizator, opțiunea sa afectând direct desfășurarea narațiunii ulterioare.

În Figura 4.3 este prezentată o interfață prototip dezvoltată de către mine în cadrul cercetării doctorale, pentru definirea acestor decizii interactive de către producătorul hipervideo.

Figura 4.3: Interfața dezvoltată pentru definirea deciziilor interactive în cadrul unei narațiuni video multi-clip

După cum se poate observa în figură, există două noduri scoase în evidență de către platformă, amândouă fiind conectate la mai multe clipuri ulterioare, și deci solicitând definirea unor puncte de decizie. Interfața dezvoltată permite stabilirea unui timp de decizie, la expirarea căruia se va face o alegere aleatorie între opțiunile disponibile. În cazul în care nu este specificat acest timp, decizia va rămâne afișată până la intervenția utilizatorului.

Unul din aspectele interesante ale acestui model de decizie interactivă și a implementării descrise mai sus este posibilitatea definirii unor decizii dependente de alte decizii anterioare. Rezultatul unei decizii anterioare poate influența validitatea sau opțiunile real posibile ale unor decizii ulterioare. În exemplul prezentat în Figura 4.3, în cazul nodului ce reprezintă un telefon care sună, răspunderea la apel poate determina evenimente și desfășurări în narațiunea video care nu ar apărea în eventualitatea ignorării apelului. Implementarea deciziilor dependente de alte decizii anterioare se face prin intermediul moștenirii, a relațiilor între noduri în care un nod copil poate fi selectat doar dacă are un anumit nod părinte în structura arborescentă a grafului informațional.

Crearea automată de legături și metainformație pentru clipurile hipervideo

Această corelare automată prezintă o serie de dificultăți prin diferența de semantică între fluxul de biți ce definește un clip video și interpretarea de nivel înalt a imaginilor și conceptelor prezentate în materialul respectiv, precum și evoluția sa în timp [30]. În cele ce urmează, voi prezenta câteva modalități prin care aceste piedici pot fi depășite, atât prin intervenție umană, cât și în mod automat.

Pentru crearea de legături automate, o parte o constă definirea manuală de metainformație la încărcarea materialelor video în sistem, sub formă de text. În modelul propus, câmpurile de completat sunt numele clipului video, descrierea sa, asocierea în anumite categorii predefinite, specificarea de etichete care puteau fi completate și ulterior de alți utilizatori.

Anumite câmpuri pot și trebuie să fie completate automat. La nivel tehnic, prin analiza fișierului video la momentul transcodării, sistemul poate genera ușor informații ca durata video, poze asociate materialului, informații tehnice privind rezoluția materialelor video și a codecurilor folosite.

Analiza textului descriptiv introdus manual de către producător (titlu, descriere, etichete), și în special a adnotărilor care definesc concepte în video, poate oferi informații suplimentare privind tematicile abordate în video. Prin procesarea automată acestui text și compararea cuvintelor cu o ontologie de termeni, putem obține informație structurată utilă pentru hipervideo.

Putem folosi același principiu și pentru metainformație textuală generată automat, prin alte mijloace. Din punct de vedere al informației vizuale, putem recurge la o analiză de histograme, obiecte, regiuni sau cadre din video [79,80]. Recent, în cadrul mai multor studii, au fost testați și implementați diverși algoritmi care permit analiza video, detecția și extragerea unor concluzii sub formă de text propozițional [81,82,83]. Propoziția rezultată în urma analizei video menționează cine a făcut ce anume cui, unde și cum, pe baza analizei informației video segmentată pe cadre, și folosind unui vocabular compus din verbe, adjective, substantive, adverbe, prepoziții și pronume. Singura limitare este dată de complexitatea vocabularului folosit și de performanța neuronală a algoritmilor folosiți pentru recunoașterea de imagini.

Un alt mijloc de a obține informație textuală automat din analiza video este prin extragerea coloanei sonore și conversia ei automată în format text, folosind algoritmi de conversie automată audio-text (ASR – Automatic Speech Recognition), cum ar fi aplicația Sphinx în regim de sursă deschisă sau Google ASR. Extragerea fluxurilor audio și video separate, sau chiar a cadrelor video ca imagini individuale pentru procesare automată se poate ușor realiza prin intermediul aplicației FFMPEG descrise în subcapitolul 3.3.

Textul astfel obținut, fie în urma informațiilor descriptive text introduse manual, fie ca adnotări, fie rezultat în urma procesării fluxului audio sau video-imagine, poate fi analizat eficient prin intermediul unor motoare de procesare a limbajului (Natural Language Processing – NLP). Pe baza unor vocabulare interne, sunt obținute concepte și „entități” extrase automat din video [84], care se pot constitui ca adnotări generate automat pentru clipul video respectiv, sau puncte de plecare pentru a corela mai bine mai multe clipuri video între ele. Cel mai bun rezultat este obținut atunci când motorul NLP funcționează pe principii semantice (un exemplu este proiectul NLP semantic Apache Stanbol) folosind fie ontologii interne, fie externe. În acest caz, entitățile rezultate (adnotările automate) vor face referire spre resurse Linked Data complexe, care duc de asemenea la alte concepte înrudite.

Având în vedere inerența erorilor în metodele de procesare automată, este necesară proiectarea unui mecanism de verificare umană a acestor metainformații create automat. Validarea lor poate să însemne consfințirea lor în baza de date ca adnotări suplimentare temporalo-spațiale pentru hipervideo, sau etichete suplimentare descriptive pentru întreg clipul.

În Figura 4.4 este prezentat conceptul de generare automată de metainformații și includerea lor, după validare, ca metainformații în sistemul de hipervideo.

Figura 4.4: Generare automată de metainformații

Prin analiza automată a tuturor metainformațiilor obținute automat sau manual, putem identifica alte clipuri video înrudite, ce pot fi oferite ca sugestii de vizionare ulterioară pentru utilizator.

În mod practic, am implementat o soluție experimentală de generare a metainformației în modul ilustrat în figura de mai sus, pentru limba engleză. Pentru aceasta, am folosit paradigma de procesare în lanț (pipeline processing) în care ieșirea unui element este intrarea următorului element. După cum descriam în capitolul 3.3, fișierul sursă video este încărcat pe platforma propusă, fiind apoi transcodat în mai multe fișiere necesare pentru încapsularea în pagină, folosind standardul HTML5.

Ca un pas separat, folosind aceeași bibliotecă FFMPEG de procesare video, este realizată și extragerea audio ca element separat, fiind apoi trimisă sistemului ASR Sphinx, care realizează conversia/transcrierea aproximativă a informației audio în format text. Acest text rezultat este apoi trimis pentru procesare unui sistem NLP semantic numit Apache Stanbol, care, pe baza unei ontologii, recunoaște automat concepte (entități) și le corelează cu elemente externe – în cazul experimental, cu diverse concepte reprezentate în DBPedia (Wikipedia). Aceste corelații externe devin adnotări generate automat în sistem.

Adaptivitatea materialelor la utilizatori – corelarea om-video

Acest capitol tratează adaptarea om-video în cadrul sistemului, bazat pe profilarea utilizatorilor în categorii similare, pentru a putea oferi o navigație informațională mai bună utilizatorilor. Sunt discutate aspecte teoretice, apoi voi trece în revistă tipurile de informații colectate.

Studiile au arătat [85] că personalitatea determină direct interacțiunea utilizatorului cu informația, de aceea voi prezenta două modele psihologice de complexități diferite pentru profilarea utilizatorilor.

Voi propune un model conceptual de adaptare a acestor modele psihologice la interacțiunea dintr-un sistem hipervideo pentru a crea profile ale utilizatorilor și a determina interesul lor privind diverse teme prezentate în video, și voi trage concluzii privind adaptarea materialelor video la utilizatori pe baza acestor informații.

Considerente teoretice privind adaptivitatea

În universul online interactiv din zilele noastre se definește tot mai clar nevoia de particularizare și adaptare a informației la nevoile utilizatorului [86], în special în contextul în care acesta nu mai este un consumator pasiv de informație, ci participă activ la crearea și diseminarea ei [68]. Acest obiectiv poate fi atins doar prin colectarea de date în timp real privind progresul utilizatorului într-o aplicație, pentru a construi iterativ un profil de utilizator cât mai apropiat de realitate pentru acea persoană.

Această activitate de profilare a utilizatorilor este numită „user modeling”, și în corelare cu dezvoltarea unei forme de reprezentare a informației multimedia, este fundamentală pentru dezvoltarea unui sistem adaptiv hipermedia care să se adapteze la utilizator. [57,87,88]

Un sistem adaptiv combină hipermedia cu user modeling [89]. Sistemul prezintă un conținut care este adaptat la cunoștințele, obiectivele și preferințele utilizatorului, având în vedere un model al utilizatorului. De exemplu în contextul hipermedia educațional, subiectele sugerate studentului pentru studiul în adâncime sunt determinate de cunoștințele existente ale utilizatorului [90]. Adaptarea (personalizarea) se bazează pe un model al utilizatorului care conține aspecte relevante despre acesta precum preferințele acestuia. [89]

Phobun și Vicheanpaya [91] au subliniat că sistemul adună informații despre utilizator în funcție de modul în care acesta folosește aplicația și în mod specific, analizând modul în care acesta navighează prin conținut. Astfel, hipermedia construiește un model de obiective, preferințe și cunoștințe ale utilizatorului individual și folosește acest model pentru a interacționa cu utilizatorul pentru a adapta hipermedia la nevoile respectivului utilizator. [88]

Un hiperdocument este de obicei alcătuit dintr-o serie de noduri sau pagini conectate prin linkuri [91]. Fiecare astfel de pagină conține un numări de linkuri către pagini similare. Sistemele hipermedia pot deasemenea să includă instrumente de navigare speciale precum tabele, index, și hărți ale site-ului pentru a facilita navigarea către toate paginile care pot fi adaptate atât la nivel de conținut, cât și la nivel de linkuri.

Phobun și Vicheanpaya [91] amintesc că în literatura de specialitate se face diferența între prezentarea adaptivă și navigarea adaptivă. Prezentarea adaptivă presupune adaptarea conținutului unei pagini hipermedia la obiectivele, cunoștințele și alte informații cunoscute despre profilul utilizatorului. Navigarea adaptivă are în vedere îndrumarea utilizatorilor prin adaptarea hiperlegăturilor la obiectivele, cunoștințele și alte caracteristici ale utilizatorului.

În cazul video interactiv și al platformei propuse, dimensiunea de navigare interactivă se aplică îndeosebi la cazul narațiunilor video multi-clip, când pașii următori sunt influențați de decizii precedente ale utilizatorului. Partea de prezentare adaptivă este dominantă în cadrul vizionării unui clip hipervideo singular, a cărui informație suplimentară obținută în urma adnotărilor trebuie să fie organizată și prioritizată la afișare în funcție de profilul utilizatorului.

Un aspect de care trebuie să se țină cont este cadrul legislativ care reglementează confidențialitatea datelor utilizatorilor. Există diferențe semnificative între legislațiile țărilor Uniunii Europene și cele ale țărilor din America de Nord cu privire la colectarea și folosirea informațiilor despre utilizatori.

Legislația UE este semnificativ mai strictă și are restricții mai mari pentru dezvoltatorii de aplicații, cu privire la cetățenii europeni și datele lor personale, decât cea americană mai permisivă [92,93]. În orice caz, este recomandabilă informarea clară a utilizatorului sistemului hipervideo că interacțiunile sale cu sistemul hipervideo vor fi înregistrate și procesate automat.

Tipuri de interacțiune cu materialul video

Dimensiunea de interactivitate este explicit înțeleasă din termenul de video interactiv, și trebuie abordată din mai multe puncte de vedere. Această interactivitate nu este posibilă decât în contextul generării de metainformație suplimentară despre conținutul video. Însă interactivitatea video trebuie definită pe mai multe nivele conceptuale, pentru a avea o privire de ansamblu corectă.

În primul rând, se poate vorbi despre interacțiunea cu mediul și cu clipul video propriu-zis, pe care o voi numi în continuare interacțiune de tip interes. Aceasta presupune controlul redării informației video, afisarea sau ascunderea zonelor adnotate și a deciziilor, derularea normală a clipului video sau parcurgerea lui pe sărite, în general elemente ce țin direct de interfață, cadrul de prezentare a materialelor video și de sistemul video propriu-zis, și nu implică conținutul video propriu-zis. Elementul cheie ce privește acest aspect este noțiunea de uzabilitate și accesibilitate în folosirea sistemului de video interactiv.

În al doilea rând, există interacțiunea cu conținutul conceptual al materialelor video, cu temele prezentate în material, explorarea informațiilor suplimentare adnotate. Această interacțiune între utilizator și informația propriu-zisă prezentată, precum și alte informații corelate presupune un proces de descoperire și învățare al utilizatorului. Aici are un rol vital noțiunea de design informațional. Interacțiunea directă cu informația conținută în cadrul acestui sistem o putem conceptualiza ca având loc pe două nivele, atât în profunzime cât și în plan orizontal. Interactivitatea în profunzime cu materialul video are loc atunci când utilizatorul solicită și explorează informații mai în detaliu.

În al treilea rând avem interacțiunea de tip contributiv-participativ, cea în care utilizatorul generează informații suplimentare ce urmează a fi asociate cu materialul video, fie prin adăugarea de descrieri și etichete suplimentare, fie prin corelarea materialului video cu altele folosind o listă de redare (playlist), fie asociind direct alte materiale text, imagini, audio și video cu clipul inițial. Această dimensiune o putem echivala cu o buclă de reacție a utilizatorului față de materialul urmărit (precum și informațiile asociate), în care acesta are posibilitatea să contribuie și să aducă plusvaloare la sistemul informațional de video interactiv.

Principala problemă care apare în acest tip de interacțiune este faptul că pot apărea contribuții de calitate scăzută care degradează valoarea totală a materialului video interactiv. Această interacțiune participativă poate fi și ea împărțită în două nivele – cea în care informația furnizată de cel ce a vizionat materialul video este considerată ca având același nivel de importanță ca și informația sursă și este integrată în sistemul informațional, și cea în care informația contribuită este considerată ca având o valoare inferioară celei generate de autorul clipului video interactiv. Astfel, noțiunea cheie este moderarea și filtrarea informației pentru a asigura calitatea informației prezentate de către sistem.

O a patra dimensiune de luat în considerare este interacțiunea socială, în cadrul căreia utilizatorul folosește materialele video interactive în cadrul relațiilor cu alți indivizi sau grupuri de indivizi. În general, aceste interacțiuni au loc într-un mediu digital, online, deși anumite studii și implementări arată că video interactiv poate fi folosit și într-un mediu fizic pentru a stimula interacțiuni directe chiar și între necunoscuți.

Indiferent de situația dată, un sistem de video interactiv trebuie să asigure unelte concrete de partajare a experienței interactive, având ca rezultat îmbunătățirea vizibilității platformei de video interactiv și îmbogățirea experiențelor sociale ale utilizatorului. În acest caz, elementul central este calitatea globală a experienței, incluzând aspectele luate în considerare mai sus și incluzând și un atribut ce poate fi descris ca partajabilitate (shareability).

Ca și concluzie, putem avea patru tipuri de interacțiune cu materialul video – cu clipul video propriu-zis (redarea materialului), cu conținutul infomațional al video prin navigarea în profunzime (mai multe informații despre un subiect) sau pe orizontală (alte video asemănătoare sau pe teme corelate), socială (cu alți utilizatori) și participativă (contribuind cu materiale multimedia înapoi în sistem).

În cadrul unui sistem video interactiv, putem defini mai multe mecanisme de realizare a acestor interacțiuni, în funcție de interesul utilizatorului, printre care timpul petrecut, clic-uri, poziționarea cursorului, mijloace de contribuție și altele.

Nu toate aceste mecanisme de interacțiune funcționează pe toate platformele. Dispozitivul de vizionare al utilizatorului influențează mult modul în care se desfășoară interacțiunea. Pentru cazul de vizionare de pe telefonul mobil sau tabletă, sau orice alt dispozitiv dotat cu ecran tactil, noțiunea de hover (poziționarea cursorului peste o regiune activă din interfață, dar fără a da clic) nu se aplică, fiind necesară abandonarea ei pentru acest caz particular.

Colectarea automată a informațiilor despre utilizator

Noțiunea de profil de utilizator a fost implementată într-o largă varietate de aplicații proiectate să colecteze informații despre utilizatori. În general, la momentul creării unui cont pe o platformă oarecare, este necesar ca un utilizator să ofere anumite informații despre sine. Acestea pot varia de la un simplu nume de utilizator și o modalitate de contact (de obicei adresa email), până la informații mai complexe ce privesc vârsta sa, sexul, adresa, statutul socio-economic, iar în cazul unor terminale mobile ce permit geolocalizarea precisă, accesul la locația geografică a utilizatorului în timp real.

Toate aceste aspecte pot fi folosite de către un sistem de video interactiv. În mod evident, toate aceste informații colectate necesită permisiunea expresă a utilizatorului și acceptul său de a asigura aceste informații, precum și informarea lui că anumite date sunt colectate despre el în timpul folosirii aplicației.

Însă o altă dimensiune este cea de profilare automată a individului pe baza interacțiunilor directe cu video interactiv și cu metainformația din jurul acestora. Pot fi construite modele de profilare care să permită acordarea unui scor de personalitate utilizatorilor, pe baza unor scări de măsurare a personalității. În psihologie există mai multe asemenea modele, și este recomandată folosirea lor simultană, în măsura în care ele se pot modela pentru video interactiv, pentru a permite o clasificare cât mai precisă și cât mai complexă a utilizatorului.

Profilarea psihologică automată are la bază colectarea permanentă și non-intruzivă a unor informații de folosire a materialelor i-video și a platformei propuse. Modelul propus presupune înregistrarea atributelor din tabelul de mai jos și procesarea lor într-un mod care să permită iterativ profilarea utilizatorului, pe măsură ce acesta petrece timp interacționând cu i-video. De asemenea, colectând aceleași informații, pe lângă evaluarea profilului unei persoane, poate fi măsurat gradul de interes față de conținutul descris de video.

Tabel 5: Clasificarea tipurilor de interactivitate [94]

Pentru fiecare interacțiune a utilizatorului, indiferent de ce natură ar fi ea, modelul propus presupune transmiterea unui vector de informații privind această interacțiune pentru a fi stocat pe server, în baza de date Analytics prezentată în subcapitolul 3.3. Structura vectorului este prezentată în figura 4.5.

Figura 4.5: Vectorul care descrie o interacțiune înregistrată de sistemul propus

După cum se poate observa, informația din vectorul interacțiune este separată în două categorii. Prima parte este reprezentată de metainformația ce privește interacțiunea propriu-zisă. Este necesară specificarea unui identificator unic, a utilizatorului pentru care se face înregistrarea. Dacă interacțiunea este cu o adnotare sau cu o decizie, modelul propus permite opțional specificarea tipului de interacțiune (Decizie interactivă, urmărirea adnotărilor) și a identificatorului unic al acestei metainformații.

Urmează apoi o serie de câmpuri având valori binare, corespunzând tuturor interacțiunilor descrise în tabelul 4. Ele iau valoarea 1 în cazul în care interacțiunea efectuată de utilizator este de tipul descris de ele. Acest model permite situații în care aceeași interacțiune poate fi de mai multe tipuri simultan, mai multe câmpuri binare luând valoarea 1 în cadrul vectorului.

Această reprezentare a informației privind o interacțiune punctuală permite o înțelegere detaliată a interacțiunii unui utilizator cu clipul video, și o analiză complexă a tuturor acestor interacțiuni separate în timp. Dacă se dorește un model simplificat, se poate renunța la informațiile care descriu explicit subtipul de interacțiune, modelând doar tipul de interacțiune efectuată pe 4 nivele corespunzând celor 4 categorii de interacțiune.

Profilarea utilizatorilor folosind modele psihologice și comportamentale

Informațiile de interacțiune colectate non-intruziv, așa cum sunt ele descrise în subcapitolul precedent, pot fi folosite pentru profilarea utilizatorului pe baza unor modele comportamentale. Am reprezentat acest concept sub forma unei ecuații, a unui produs de matrici descris în figura 4.6.

Figura 4.6: Concept – profilarea utilizatorilor folosind modele psihologice [94]

Acest model de profilare pe care îl propun are avantajul că permite separarea părții de colectare a datelor despre utilizator (prin vectorul interacțiune) de modelele psihologice, permițând astfel un număr practic infinit de asemenea modele ce pot fi aplicate simultan la informațiile colectate despre un utilizator. De asemenea, stocarea acestor interacțiuni ca elemente separate individuale permite și o analiză a evoluției în timp a utilizatorului.

În cele ce urmează, voi prezenta două modele psihologice de clasificare a indivizilor. În primul caz, vom studia un model psihologic simplu pe două nivele, propus inițial de Carl Jung [95], urmând apoi să analizăm un model mai complex propus de Keirsey [96], pe 4 nivele, extensibil chiar până la 16. Aceste modele nu se exclud unul pe celălalt, ci consider că ar fi recomandabil să fie folosite simultan pentru a crea o imagine de ansamblu multidimensională despre utilizatori și despre interesele și preferințele lor.

a) Personalitatea individului și stilul de învățare al utilizatorului – modelarea pe două nivele – Introvertit/Extrovertit

Conform lui Kreber [85], personalitatea individului joacă un rol deosebit de important în procesul educațional. Acesta a descoperit că tipul de personalitate determină predispoziția studenților de a se implica într-un proces de învățare autonomă ("self-directed learning"), astfel încât o personalitate intuitiv-extrovertită va fi mai înclinată să se angajeze într-un proces de învățare independent.

Carl Jung [95] este cel care a formulat pentru prima oară conceptele de Extrovertit și Introvertit în context social și ca reprezentând comportamente opuse. Astfel că extrovertiții sunt cunoscuți ca fiind persoane sociabile, iar introvertiții mai rezervați, misterioși și timizi.

Jung a subliniat că extrovertiții sunt orientați spre lumea din afară, în timp ce persoanele introvertite sunt mai degrabă orientate spre sine, lumea subiectivă. Studiile cercetătorilor indică faptul că persoanele extrovertite vorbesc mai mult în cadrul unor grupuri de oameni, dar nu neapărat și când sunt doar cu o singură altă persoană [97,98].

În urma unui studiu realizat cu ajutorul unui grup de studenți, Thorne a observat [99] că persoanele extrovertite promovează un stil conversațional vesel și expansiv, în timp ce persoanele introvertite inițiază discuții mai serioase și focalizate. Ca și aplicabilitate, tendința studiior asupra proceselor educaționale este de a include personalitatea ca o variabilă importantă. Preocuparea pentru acestă dimensiune a crescut în contextul introducerii tehnologiilor multimedia în actul de predare.

Cu privire la elementele de personalitate ale utilizatorilor de video, un studiu recent asupra influenței mediului educațional asincron video a constatat că persoanele extrovertite apreciază posibilitatea de a lăsa comentarii video, dar nu au manifestat interes față de a citi comentariile colegilor săi.

Introvertitul a considerat potrivită flexibilitatea și bogăția video-ului asincron, însă a petrecut foarte mult timp înregistrând și re-înregistrând propriile video-uri. De asemenea, a petrecut mult timp explorând în profunzime informația, spre diferență de extrovertit. [100]

Pentru un model simplificat de personalitate în scopul profilării pentru un sistem de video interactiv, vom considera că Introvertitul nu este foarte social și va naviga în profunzime pentru a afla mai multe informații despre subiectele expuse în video, iar Extrovertitul va naviga mai rapid prin conținut și va căuta în special interacțiunea socială.

Pe acest model de personalitate, putem defini un model relativ simplu, în care să putem oferi un scor utilizatorului pe această scară binară de măsurare a personalității, în funcție de interacțiunea cu materialele i-video, definită în tabelul 3.

Pentru interacțiunile de tip Interes, putem considera că un timp mai scurt petrecut în cadrul video interactiv și urmarea unei structuri neliniare pot fi caracteristice unui Extrovertit, reversul fiind valabil pentru Introvertit. Interacțiunile tip Conținut vor fi considerate de tip Introvertit, mai înclinat spre a explora informație suplimentară legată de subiectele prezentate. Interacțiunea de tip Social va fi caracteristică unei personalități Extrovertite, mai înclinate spre a partaja experiențele sale cu alte persoane. Interacțiunea Contributivă, prin care utilizatorul contribuie cu informație utilă înapoi spre platformă, va fi caracteristică Introvertiților, mai orientați spre conținut.

Pentru obținerea profilului psihologic momentan al unui utilizator pe baza modelului Introvertit/Extrovertit, se însumează numărul tuturor acestor interacțiuni, precum și subsumele corespunzând celor două nivele, și se calculează valoarea lor procentuală din suma totală. Rezultatul va fi un scor procentual de personalitate de forma x% Extrovertit, y% Introvertit, suma x+y fiind 100.

Prin însăși natura sa, acest profil va fi temporar, evoluând în timp pe măsură ce utilizatorul interacționează în diverse moduri cu aplicația. Însă, din punct de vedere al erorilor inerente ce apar în urma folosirii de informații insuficiente, un profil astfel construit trebuie să mizeze pe un număr acceptabil de asemenea interacțiuni înainte de a oferi date utile. Consider că un număr de minim 20 de interacțiuni este limita de jos de la care se poate începe evaluarea pe baza modelului dual propus.

b) Temperamentele – Modelarea pe patru nivele – Artizan, Idealist, Rațional și Gardian

Temperamentul este descrierea unui tipar de personalitate în care individul interacționează cu mediul din jur pentru a-și satisface nevoile [101]. Kersey [96] definește temperamentul ca o configurație de înclinații, spre deosebire de caracter, care este o configurație de obiceiuri. Teoria temperamentelor este înrădăcinată în lucrările lui Plato care a identificat patru tipuri de caracter prezente într-o societate perfectă: Artizanul, Gardianul, Idealistul și Raționalul.

Plecând de la aceste categorii, și de la ideile unor alți psihologi predecesori printre care și Jung, Keirsey [96] a alcătuit un instrument de identificare a temperamentului pe cele 4 nivele principale, definind de asemenea 4 subcategorii la fiecare nivel principal. Identificarea temperamentelor este importantă pentru a înțelege de ce indivizii răspund în mod diferit în situații identice. [102]

Keirsey susține că fiecare tip de temperament are anumite trăsături specifice. Gardianul este caracterizat de seriozitate față de responsabilități asumate, de încredere și loial. Acesta are un înalt nivel de încredere în autoritate, este sociabil, caută siguranța, apreciază mulțumirea și visează să facă dreptate. Gardianul preferă să urmeze instrucțiunile, să construiască pe sarcini primite și este orientat pe detalii în procesul de învățare.

Artizanul este o persoană plăcută, optimisă, realistă și focalizată pe prezent. Acest tip de persoană este îndrăzneață, neconvențională și spontană. Este o persoană creativă, impulsivă, adaptabilă, competitivă, care apreciză libertatea și caută lucruri care să o provoace. Acesta preferă experiențele practice și este orientat pe acțiuni în procesul de învățare.

Idealistul este preocupat de creșterea personală, entuziast, încrezător în propria intuiție și romantic. Acesta caută relații profunde și speră să ajungă înțelept. Idealistul este o persoană iubitoare, plină de bunătate, generoasă, spirituală și se focalizează pe oameni în abordările asupra procesului educativ.

Raționalul este pragmatic, sceptic, focalizat pe rezolvarea problemelor și analiza sistemelor. Persoanele din această categorie se mândresc cu ingeniozitate, independență, voință. Aceste persoane apreciză valoarea cunoașterii, a tehnologiei, își doresc să ajungă să înțeleagă cum funcționează lumea și sunt focalizate pe concepte.

Dintre cei care au folosit instrumentul dezvoltat de Keirsey pentru auto-evaluarea temperamentului, unul dintre cele mai folosite din lume, disponibil pe website-ul Keirsey Temperament, 43% au fost catalogați ca fiind gardieni, 30% idealiști, 14% raționali și 13% artizani (statistici valabile până în iulie 2001).

Pentru a evalua tipul de temperament al unui individ, Keirsey folosește o clasificare pe 4 nivele, prezentate în tabelul de mai jos.

Tabel 6: Cele 4 dimensiuni de clasificare a temperamentelor [96]

Fiecare persoană evaluată prin instrumentul dezvoltat de Keirsey va fi descrisă de 4 inițiale din cele de mai sus, fiind posibile 16 combinații. Pentru simplificare însă, au fost stabilite cele 4 tipuri principale de temperament, caracteristicile corespunzătoare lor fiind prezentate în tabelul 7.

Tabel 7: Cele 4 tipuri de temperamente si caracteristicile lor [96]

Miller [103] consideră că fiecare din temperamentele descrise mai sus are nevoie de un anumit tip de conținut în procesul educativ. Miller [103] și Neuhauser [104] oferă ca exemplu idealiștii care sunt mai interactivi si au astfel nevoie de mai multă interacțiune care poate să fie realizată prin intermediul unor discuții online în timp real și conferințe video.

Gardienii vor aprecia sisteme obiective care să le pună la dispozitie un proces de învățare bazat pe concepte (text sau video), și apreciază structurile clare, însă nu se simt în largul lor atunci când trebuie să interacționeze cu alții. Raționalii sunt mai înclinați să prefere prezentările de tip Powerpoint, podcast sau descrieri conceptuale, dar de asemenea apreciază schimbul de idei. Artizanii sunt cei mai predispuși spre modele tradiționale (față-în-față), au nevoie să fie stimulați, și reacționează bine la prezentări.

Pentru modelul de video interactiv, putem considera tipurile de temperamente ca având următoarele caracteristici:

Gardianul progresează încet prin conținut și urmează o arhitectură relativ liniară a informației. Va fi susceptibil să aibă mai multe interacțiuni de tip Conținut și Interes.

Artizanul progresează rapid prin conținut, stă puțin pe un anumit tip de informație, însă caută tot timpul să interacționeze cu elemente din conținut astfel încât să fie stimulat. Este de așteptat să aibă scor mic la interacțiunea tip Interes, însă mare la interacțiunea Socială și de tip Conținut.

Idealistul caută informații care să ofere semnificație, este foarte social și prețuiește interacțiunea cu ceilalți utilizatori. Interacțiunile Sociale ar fi descriptive pentru această tipologie, precum și cele Contributive, în care participă la discuție.

Raționalul va da clic pe acele informații care să îl ajute să înțeleagă mai bine cum funcționează cele prezentate, însă nu este social. Ca atare, va avea scor ridicat la interacțiunea Conținut, Interes și la cea de tip Contributiv.

Tabel 8: Modelarea interacțiunilor pentru modelul Keirsey

În tabelul 8 de mai sus, am prezentat un model pentru adaptarea celor două modele (modelul de interacțiuni cu video și modelul temperamental al lui Keirsey). Pentru obținerea profilului psihologic momentan al unui utilizator pe baza modelului Gardian/Artizan/Idealist/Rațional, se însumează interacțiunile pentru fiecare tip, luându-se cele două caracteristici cu valorile cele mai mari. Aceste două cele mai des întâlnite tipuri de interacțiune vor defini tipul dominant de personalitate, așa cum e el prezentat în tabelul 8.

După cum se poate observa, pentru un model mai complex pe 4 nivele, devine mai dificilă profilarea corectă a utilizatorului prin creșterea complexității. De aceea, consider că plafonul minim acceptabil de interacțiuni înregistrate înainte de a oferi date utile trebuie ridicat la minim 30 de interacțiuni. Dacă e necesar un nivel și mai complex de profilare a utilizatorului, se poate trece la segmentarea în cele 16 nivele permise de modelul lui Keirsey.

Măsurarea interesului utilizatorilor pe un anumit subiect

Modelul pe 7 nivele propus în subcapitolul 3.3 pentru stocarea metainformației permite stabilirea de către producătorul filmului interactiv a unor ponderi pentru adnotări sau decizii interactive, prin alocarea unui număr mai mare decât valoarea implicită 1.

În acest mod, producătorul poate marca anumite adnotări sau decizii mai importante prin acordarea unor ponderi mai mari. Aceste adnotări sau decizii au directă legătură cu o anumită temă sau subiect, iar acest mecanism de ponderare permite cuantificarea interesului utilizatorilor pe tema respectivă. Folosind același vector de înregistrare a interacțiunilor, putem de asemenea măsura interesul unui utilizator, sau a mai multora, pentru un subiect anume. În acest caz, se pune problema unei înmulțiri între o matrice ce stochează datele privind interacțiunea utilizatorului și o alta care ponderează contribuția fiecărei interacțiuni în funcție de importanța sa pentru subiectul dorit – Figura 4.7. Suma rezultatelor acestui produs cuantifică interesul unui utilizator pentru o anumită temă.

Figura 4.7: Concept – Detectarea interesului utilizatorilor pe o anumită temă [94]

Pe lângă interesul explicit al utilizatorului înr-un anumit subiect (prin interacțiunea sa cu widget-uri, adnotări, decizii luate într-un anumit sens într-o narațiune multi-clip), putem obține și informații opuse, privind lipsa interesului sau a problemelor de conținut sau uzabilitate. Prin analiza interacțiunilor din acest punct de vedere, putem obține de asemenea o înțelegere asupra resurselor video sau a adnotărilor greu de înțeles pentru utilizatori, reflectate prin repetarea lor insistentă, sau prin timpi lungi petrecuți asupra unei zone anume.

Acest aspect e îndeosebi util în mediul academic, profesorul având astfel șansa să afle daca e nevoie de refacerea unor materiale didactice sau explicarea mai eficientă a unor concepte (în contextul în care e mai puțin probabil ca studenții să-i comunice o asemenea informație), rezultând în general îmbunătățirea cursului. Tot în contextul învățământului, soluția propusă permite evaluarea non-intruzivă a interesului studenților asupra subiectelor predate în curs prin intermediul materialelor hipervideo.

Folosirea profilelor și a intereselor utilizatorilor pentru adaptivitate

Profilele utilizatorilor obținute pe această cale cuantifică numeric informații privind personalitatea și interesele lor. Aceste profile sunt pasibile de erori, fie datorate unor date insuficiente privind interacțiunile utilizatorilor, fie datorită modelării interactiv-psihologice simplificate. Fiind un domeniu nou, există puține studii în acest domeniu interdisciplinar între media și psihologie. Însă ideea centrală a acestui capitol este perfecționarea iterativă, permanentă a acestor profile [94].

Pe baza unui „scor” numeric pe scara dată de modelele psihologice folosite, sistemul poate facilita interconectarea a doi utilizatori cu profile apropiate (și alte informații relevante, cum ar fi vârsta sau locația geografică), pe baza unei afinități temperamentale, facilitând dimensiunea socială între utilizatori.

Rămâne deschisă intrebarea dacă interacțiunea directă între doi utilizatori apropiați ca personalitate ar trebui să fie mediată de sistemul video interactiv și încurajată ca atare, sau daca, o dată stabilită legătura directă între persoane, să se lase la latitudinea lor modul în care vor continua comunicarea.

Tot pe baza acestor asemănări detectate, dincolo de interacțiuni sociale, sistemul poate recomanda Persoanei 2 anumite clipuri hipervideo vizionate de Persoana 1, adnotări cu care a interacționat sau decizii luate în cadrul unei narațiuni multi-clip, facilitând astfel descoperirea de conținut nou, în spiritul „navigării interactive”. [91]

Aceste două mijloace de adaptare a sistemului la utilizator, privind conținut relevant sau persoane apropiate, corespund celor două scenarii descrise de Jung de Introvertit/Extrovertit (și reluate în componența modelului lui Keirsey), în care Extrovertiții ar prefera interacțiuni sociale, pe când cei Introvertiți ar prefera explorarea mai în adâncime a anumitor concepte.

Modelul conceptual propus în acest capitol, de profilare și adaptare la utilizator, își are limitele sale. Din punct de vedere tehnic, există situații în care nu este posibilă măsurarea exactă a interesului sau a interacțiunii prin mecanismul propus în modelul meu, de exemplu din cauza caracteristicilor tehnice ale dispozitivului. De asemenea, există situații în care lipsa interacțiunii poate însemna informație valoroasă privind relația utilizatorului cu conținutul hipervideo (de exemplu, faptul că utilizatorul asimilează atent informația).

Complexitatea modelelelor psihologice folosite este un alt factor ce va influența profilarea. Un model psihologic prea simplu, cum este cel de Introvertit/Extrovertit, va duce la o profilare relativ vagă a utilizatorilor și la dificultatea mecanismului de adaptare. Un model psihologic prea complex, cum este cel detaliat pe 16 dimensiuni al lui Keirsey, va fi dificil de integrat cu modelul de interacțiuni hipervideo, și ca atare, poate duce la interpretări eronate. Recomand ca fiind potrivit, din punct de vedere al complexității și acurateții profilării, un model pe 4 dimensiuni, cum este cel simplificat al lui Keirsey (deși în literatura de specialitate există și alte modele). Însă acest aspect necesită studii suplimentare.

Contribuții și concluzii

În acest capitol, am analizat aspectele ce țin de corelarea materialelor hipervideo între ele, precum și adaptarea lor la utilizatorii ce le vizionează. Din punct de vedere al corelării clipurilor hipervideo, putem distinge cazul în care asocierea lor se face manual de către un producător, sau cel în care asocierea se face automat pe baza unor procese și algoritmi computerizați de generare a metainformației.

Am identificat dimensiunea de narațiuni hipervideo multiclip în care pot exista mai multe trasee diferite prin informație. În această situație, mai multe clipuri video sunt asociate de către un producător de hipervideo într-o structură neliniară dar succesivă, pe care am numit-o film interactiv. Studiile citate în această secțiune indică faptul că acest mod de a naviga prin informație este foarte antrenant și satisfăcător pentru utilizator și produce un transfer eficient al informației.

Faptul că această narațiune este interactivă presupune implicarea directă a utilizatorilor prin luarea unor decizii privind materialele ce urmează a fi vizionate, alegând din două sau mai multe opțiuni. Am subliniat importanța deciziilor interactive intâlnite la finalul unui clip, pentru a oferi sugestii relevante și precise de vizionare a altor materiale. Același principiu, deși mai puțin critic, poate fi aplicat și la clipurile video interactive individuale.

Plecând de la o bibliotecă Javascript, am realizat o unealtă web de implementare a filmelor interactive ca parte din platforma Interactive Web Platform propusă, ce permite interconectarea manuală facilă a clipurilor video și definirea facilă a deciziilor în cazul unor trasee multiple ce pleacă dintr-un nod al narațiunii.

De asemenea, am prezentat câteva metode relevante și actuale de extragere automată a metainformației din audio și video și de generare a adnotărilor dintr-un material video, prin folosirea aplicațiilor NLP – Natural Language Processing. Am propus un model pentru a folosi această metainformație generată automat pentru a corela tematic clipuri hipervideo autonome (fără a fi parte dintr-o narațiune logică de tip film interactiv).

Am implementat și o soluție practică pentru procesarea automată în regim pipeline, extrăgând fluxul audio din clip, convertindu-l în text folosind un sistem ASR, textul rezultat folosindu-l pentru analiza semantică și extragerea de „entități” – termeni ce vor fi folosiți ca adnotări automate. Această soluție este valabilă doar pentru limba engleză, limitată de algoritmii de recunoaștere audio-text. Toate contribuțiile privind corelarea manuală sau automată a clipurilor hipervideo sunt prezentate pe larg în subcapitolul 4.1.

Pentru o experiență cât mai plăcută și relevantă a utilizatorului cu video interactiv, este nevoie de o adaptare cât mai eficientă a materialelor video la utilizator și la nivelul cunoștințelor sale, la preferințele și interesele sale. Pentru a obține această adaptivitate și a infuza inteligență unui sistem video interactiv, este nevoie de colectarea de date personale ale utilizatorului, cu acordul său, precum și informații legate de modul lui de folosire a aplicației i-video.

Modelul conceptual propus în acest capitol presupune colectarea non-intruzivă a interacțiunilor utilizatorului cu clipul hipervideo și mediul aferent, și folosirea acestor statistici pentru a modela profilul utilizatorilor conform unor clasificări psihologice consacrate în literatura de specialitate. Aceste statistici pot de asemenea furniza informații privind interesul utilizatorilor într-un anumit subiect.

Ca atare, în subcapitolul 4.2, am propus o clasificare a tipurilor de interacțiune cu un material video pe 4 nivele – cu clipul video propriu-zis (redarea materialului), cu conținutul infomațional al video prin navigarea în profunzime (mai multe informații despre un subiect) sau în plan orizontal (alte video asemănătoare sau pe teme corelate), socială (cu alți utilizatori) și participativă (contribuind cu materiale multimedia înapoi în sistem).

Pentru fiecare categorie, am specificat interacțiunile aferente. Am specificat apoi tipurile de informații care trebuie colectate pentru a evalua cele 4 tipuri de interacțiune ale utilizatorului cu un sistem i-video identificate. Aceste date de interacțiune, pentru fiecare interacțiune a utilizatorului, au forma unei matrice unidimensională, pe care l-am numit vector interacțiune. Vectorul interacțiune conține atât informații care să identifice unic elementul cu care s-a interacționat, precum și tipul de interacțiune efectuată (anumite interacțiuni putând fiind incluse în mai multe categorii din cele definite).

Am căutat în literatura de specialitate modele de profilare psihologică și comportamentală care să permită sistemului să colecteze și să evalueze informații despre utilizator, construind scoruri de personalitate utilizatorilor, în funcție de interacțiunile lor cu sistemul. Am propus un model conceptual simplu și extensibil de profilare a utilizatorilor pe baza interacțiunilor cu materialele video, într-un sistem i-video, care să permită dezvoltarea adaptivității sistemului la utilizatorii săi.

Adaptarea înseamnă atât descoperirea de conținut nou relevant pentru interesele unui utilizator, cât și facilitarea unor interacțiuni sociale între utilizatori cu profile și interese similare.

Faptul că această profilare și adaptare se realizează non-intruziv, fără ca utilizatorul să fie nevoit să facă ceva anume în afara folosirii naturale a sistemului, este un atu important. De asemenea, sistemul este iterativ, rezultatele sale îmbunătățindu-se succesiv, pe măsură ce beneficiază de mai multe informații despre utilizator. Însă este necesară colectarea unui minim de informație privind interacțiunea cu hipervideo pentru a putea începe realizarea unei interpretări aproximate despre profilul utilizatorului.

De asemenea, faptul că putem folosi vectorul interacțiune pentru a măsura interesul utilizatorilor pe anumite teme este un câștig. Acest interes poate fi interpretat fie ca un grad mare de curiozitate pentru tema respectivă, fie ca dificultate în a înțelege anumite concepte prezentate. Ambele tipuri de informații pot fi folosite pentru a îmbunătăți calitatea materialelor hipervideo prezentate, pe lângă aspectele deja discutate de adaptivitate.

Principala direcție de cercetare viitoare în acest domeniu este testarea acestui model de profilare și adaptare în practică, prin compararea rezultatelor testelor de personalitate administrate manual cu rezultatele obținute automat prin mecanismul automat propus. Pe baza acestor rezultate, modelul poate fi îmbunătățit. Un alt element cheie ar fi determinarea unui model psihologic potrivit, ca și compromis între acuratețea reprezentării utilizatorilor și complexitatea implementării sale, și adaptarea sa la modelul de interacțiuni cu video. Prezentarea pe larg a tuturor acestor contribuții se găsește în subcapitolul 4.2.

Studii de caz

Acest capitol prezintă câteva cazuri practice de implementare a sistemului propus de hipervideo. Studiile de caz reprezintă domenii principale de activitate, care beneficiază direct de introducerea materialelor video interactiv și a sistemelor propuse în capitolele precedente.

În continuare, în acest capitol, voi evalua folosirea video interactive în divertisment, educație și formare profesională în cadrul organizațiilor, extrăgând concluzii specifice pentru fiecare domeniu.

Divertisment

Filmul interactiv Maya – an interactive adventure a fost produs de mine cu ajutorul altor câtorva studenți din SUA. A fost filmat ca o demonstrație de concept privind realizarea unui film neliniar, interactiv, ce necesita intervenția directă a utilizatorilor în narațiunea video. Filmul folosește 3 personaje principale, interacțiunile dintre ele fiind decise de către telespectatori, și afectând desfășurarea firului narativ al filmului.

În urma conceperii unui script care includea explicit alternative și mai multe scenarii posibile pe care narațiunea putea să le urmeze, au fost filmate scenele necesare, și apoi am trecut la editarea secvențelor video. În total, filmul interactiv Maya însumează 37 de clipuri video și audio corelate, unele din ele adnotate temporalo-spațial și făcând referire la resurse externe filmului. Fiind o demonstrație de concept, lungimea acestor clipuri video este relativ scurtă, fiind cuprinsă între 10 și 60 secunde.

O primă implementare a acestui film interactiv a fost făcută folosind tehnologia proprietară Adobe Flash, având materialele video comprimate în formatul FLV. Interacțiunea privind deciziile și zonele interactive a fost programată prin intermediul limbajului Actionscript. A rezultat un fișier swf conținând logica interactivă a filmului. Acesta a fost încapsulat într-o pagină web, fișierele audio și video fiind externe aplicației, pentru o mai ușoară mentenanță și pentru a încărca succesiv resursele folosite.

Aspectele de interacțiune socială și contributivă au fost implementate în afara aplicației Flash, fără nici o corelare. În ciuda funcționalității oferite, această primă implementare a fost deficitară, tehnologia proprietară folosită nepermițând dezvoltări suplimentare ca cele descrise în capitolele precedente, arhitectura folosită nefiind suficient de flexibilă, iar programarea interactivității fiind dificil de modificat.

Aceste clipuri video au fost reintegrate în cadrul aplicației de video interactiv, transcodate și pregătite pentru platforma propusă. Drept urmare, a rezultat structura narativă din figura 5.1.

Figura 5.1: Structura narativă neliniară a filmului interactiv Maya

În structura filmului au existat 11 puncte de decizie în care utilizatorul era solicitat să intervină direct prin alegeri pentru a putea continua vizionarea. Deciziile utilizatorului erau implementate ca întrebări de forma Ce bluză să port?, narațiunea fiind oprită până la alegerea expresă a utilizatorului. Un alt concept implementat a fost noțiunea că anumite decizii din trecut afectau direct secvențele care puteau fi redate mai târziu în film (în funcție de răspunsul la un apel telefonic, personajul poate urma un traseu sau altul).

Am implementat de asemenea posibilitatea unor decizii luate la întâmplare de către sistem (alegerea la întâmplare a unei reclame audio din șase posibilități, care să fie prezentate la radio când personajul principal se trezește).

A rezultat o structură care permitea peste 1000 de modalități de vizionare ale filmului respectiv interactiv, și ca atare, durata filmului putea varia între 4 și 6 minute, în funcție de traseul informațional ales. Structura filmului Maya este prezentată detaliat în schema din Anexa 2.

Adnotările au fost folosite în acest context pentru promovarea unor evenimente și pentru introducerea de reclame pentru produse comerciale. O astfel de reclamă definită prin sistem, ca și adnotare, permitea posibilitatea de a achiziționa o bluză similară cu cea purtată de personajul principal, apăsând cu cursorul pe bluza respectivă, ca în Figura 5.2.

Figura 5.2: Adnotare-Reclamă în cadrul unui film interactiv

Unul din principalele dezavantaje ale acestui proiect a fost cantitatea relativ mare de resurse necesare pentru a genera materialele video necesare, atât în ceea ce privește concepția și filmarea, cât și ca timp de editare.

În acest caz de narațiune tip divertisment, un alt aspect de discutat este probabilitatea mai mare ca utilizatorii să prefere o experiență mai degrabă pasivă decât activă. Sistemul de i-video în acest caz trebuie să permită predefinirea unor scenarii de urmat pe care utilizatorul să le poată preselecta la începutul vizionării, având ca și consecință automatizarea unor alegeri. În funcție de scenariul filmului, se pot defini astfel, în cazul de față, posibilitatea unui film cu final fericit, sau dimpotrivă cu final nefericit, sau varianta cea mai scurtă, sau posibilitatea ca toate alegerile să fie făcute la întâmplare de către sistem.

Filmul Maya a fost postat pe internet, pe o pagină special pregătită, lăsând ca vizionările filmului să se facă aleator, fără a controla în vreun fel accesul la film. Filmul nu pornea automat la vizitarea paginii, fiind necesară acțiunea explicită a utilizatorului de a începe derularea, pentru a filtra persoanele ajunse din greșeală pe pagină. Nu au fost colectate informații personale despre utilizatorii propriu-ziși, în afara adresei lor de IP pentru geolocație și informații privind traseul lor prin filmul interactiv. A fost de asemenea afișat clar faptul că filmul respectiv este pentru demonstrație.

Statisticile colectate privind vizionarea acestui film pe o durată de câteva luni, dupa eliminarea vizitatorilor ajunși pe pagină din greșeală (cei care nu au vizionat nici măcar 5 secunde din material, și pot fi considerați bounce) au reliefat faptul că filmul a fost vizionat de 27 de utilizatori din 14 țări. Din aceștia, 12 utilizatori au ajuns la finalul narațiunii (44%), vizionând între 4-6 minute de video interactiv.

De asemenea, jumătate din utilizatori au interacționat cu reclamele reprezentate prin zone interactive (adnotările spațiale) din material, fapt notabil având în vedere faptul că existau doar 3 astfel de regiuni interactive. Satisfacția, dată de voturile exprimate cu privire la experiența avută, a fost la 60% (63 de voturi unic exprimate). Prin faptul că există mai multe voturi decât persoane ce au vizionat efectiv materialul, și luând în considerare faptul că valoarea individuală a fiecărui vot nu a fost înregistrată, avem motive să presupunem că mulți din utilizatorii neangajați au dat votul minim înainte de a părăsi pagina, deci votul real (și satisfacția astfel exprimată) al celor care au vizionat în mod real filmul interactiv a avut valoare mai mare.

Calitatea narațiunii și a conținutului acestui material a fost relativ scăzută, deciziile interactive fiind date de alegeri asupra felului de mâncare sau prin răspunderea sau nu la un apel telefonic. A fost clar marcat faptul că filmul era conceput ca o demonstrație de concept. De aceea, deși numărul de utilizatori care au vizionat acest film este relativ redus, rezultatele sunt încurajatoare.

Alte situații – publicitate, turism

Folosirea video interactiv în cadrul industriei de divertisment poate îmbrăca multe forme. Cel mai ușor poate fi folosit în publicitate și marketing. Mai multe studii [79,105] spun că organizațiile trebuie să folosească acest nou tip de media pentru publicitate pentru a ajuta consumatorii să efectueze un tur virtual la cumpărături, adnotând clipurile cu hiperlegături către o varietate de informații și produse aflate pe web, existând deja soluții [37] care să permită zone interactive în cadrul unor clipuri reclamă.

Potențialul video interactiv în acest domeniu este uriaș. Faptul că utilizatorul obișnuit poate interacționa direct cu produsul prezentat în video (de exemplu, prin adnotări temporalo-spațiale pe care se poate face clic) deschide posibilitatea achizițiilor impulsive imediate, având un impact direct și măsurabil asupra relațiilor comerciale între utilizatori și firme.

De asemenea, chiar și în lipsa unei tranzacții financiare, simpla apăsare a unei zone interactive definite de un produs prezentat în hipervideo indică un nivel de angajament al utilizatorului cu produsul mult peste o simplă impresie. Acest fapt permite definirea unui nivel suplimentar al relației clientului-utilizator cu marca produsului în spațiul virtual, poziționat între impresia mărcii produsului și achiziția sa – cel al interacțiunii active cu produsul și caracteristicile sale, dincolo de citirea unor informații pe un site web (similar cu a lua în mână un produs de pe raft și a interacționa cu el în vederea unei decizii de cumpărare). Faptul că aceste interacțiuni sunt înregistrate de sistemul propus și profilele de utilizatori sunt create în urma acestor interacțiuni reprezintă informații valoroase pentru persoanele aflate în departamentele de marketing și vânzări.

Un alt caz pe care l-am luat în considerare pentru ilustrarea conceptelor prezentate în această teză a fost realizarea unui tur hipervideo al unui oraș sau unui obiectiv turistic de vizitat, folosind o prezentare hipervideo realizată cu un ghid turistic profesionist. Și acest caz se pretează la implementarea ca narațiune video, ghizii având de obicei un traseu predefinit la obiectivele turistice pentru a putea explica contextul istoric și cultural.

În acest scenariu, fiecare prezentare a unui obiectiv de către ghid devine un modul video autonom, ce urmează apoi să fie adnotat cu informații diverse (informații suplimentare din Wikipedia, fluxuri de imagini de pe Flickr, starea actualizată a vremii în locația respectivă, etc) și integrat apoi în narațiunea turistică hipervideo.

Particularitatea acestui caz este posibilitatea ca utilizatorul-turist să vizioneze turul hipervideo prin intermediul telefonului mobil, chiar la fața locului, pentru a afla informații despre ceea ce vede. În acest caz, devine importantă geolocația utilizatorului. După cum afirmam în subcapitolul 3.8, anumite dispozitive videocaptoare posedă un localizator GPS încorporat și pot include informații privind locația în care a fost filmat materialul, informația aceasta fiind păstrată în platforma hipervideo. Locația materialului poate fi adăugată și ulterior, manual.

Corelarea geolocației utilizatorului cu informații similare de localizare geografică ale materialelor poate servi la sugerarea unor noi clipuri hipervideo de urmărit, sau pentru a prezenta diverse activități sau oportunități actuale aflate în aceeași zonă geografică. Implementări sunt posibile și prin intermediul realității augmentate [106], o direcție de cercetare viitoare fiind analiza modului în care prezentarea hipervideo poate fi derulată în funcție de orientarea terminalului mobil și a imaginii captate de camera sa încorporată.

Pentru acest caz al folosirii video interactiv în divertisment, se remarcă varietatea scenariilor posibile și dificultatea de a trasa principii general valabile. Cu toate acestea, este demnă de remarcat capacitatea mare de adaptare a hipervideo la aceste scenarii diverse din industria de divertisment.

Educație și viitorul hipervideo în contextul MOOC

Pentru anumite domenii, generarea de video interactiv se poate dovedi mai rapidă decât crearea de materiale text și imagini, tipurile de media cele mai des întâlnite într-un curs. Studiile [9] arată că hipervideo este o unealtă extrem de eficientă pentru educație.

În dimensiunea de educație de tip e-learning, în mod uzual se folosesc materiale sub formă de documente cu text și eventual imagini sau prezentări tip Powerpoint, sau clipuri video descărcate sau transmise în timp real prin intermediul unui server de streaming video [107,108].

Pentru reprezentarea acestui caz de video interactiv în e-learning, am luat ca exemplu materiale de prezentare produse pentru un curs despre formate video pe care l-am susținut în cadrul disciplinei de Compresie Audio-Video în cadrul Facultății de Electronică și Telecomunicații a Universității Politehnica Timișoara.

În figura 5.3 este prezentată o planșă dintr-o prezentare Powerpoint aferentă unui curs care tratează diversele formate și codecuri video. Ea poate fi folosită atât ca suport pentru un curs față-în-față, cât și încărcată pe o platformă de e-learning ca resursă pentru studenții la distanță. În cazul învățământului la distanță însă se va pierde informația verbală asociată și interacțiunea din clasă, chiar dacă anumite unelte de comunicare din cadrul platformei e-learning vor compensa acest dezavantaj. Acest lucru va duce la diminuarea interesului și a calității experienței educaționale percepută de student.

Figura 5.3: Prezentare powerpoint clasică – Curs de Compresie Audio-Video

În sistemul hipervideo propus, există mai multe posibile abordări pentru a genera un curs similar, dar mai antrenant și mai bogat în informație, pe principiul video interactiv. Privind generarea materialului video propriu-zis, începând cu variantele mai noi ale pachetului Office, prezentarea Powerpoint poate fi exportată ca video, explicații audio putând fi adăugate ulterior. Sau se poate recurge la o captură de ecran cu capturarea vocii profesorului prin intermediul unui microfon, sau la folosirea unor alte imagini filmate special.

O soluție aleasă pentru cazul de față a fost înregistrarea ecranului folosind programul de captură video Windows Media Encoder și înregistrarea vocii prin intermediul unui microfon. Pentru prezentarea temei alese, formate și codecuri video, în locul unei expuneri teoretice, am folosit prezentarea unui program performant de transcodare video numit Rhozet Carbon Coder, permițând conversia fișierelor video într-o multitudine de formate și codecuri.

Acest video scurt a fost produs pentru a clarifica termenii și a oferi exemple practice privind principiile și cazurile de folosire, precum și parametrii specifici formatelor respective.

Apoi, după încărcarea pe platforma hipervideo, folosind adnotări interactive, am generat hiperlegături spre alte materiale suplimentare care pot fi consultate de către studenți pentru a aprofunda noțiunile prezentate, ca în Figura 5.4. A se observa în imagine faptul că adnotarea a fost făcută pentru un interval de 6 secunde, pentru o regiune spațială clar marcată printr-un chenar roșu suprapus peste imaginea video.

Figura 5.4: Prezentare video interactiv cu adnotări – Curs de Compresie Audio-Video [109]

Sistemul de video interactiv se pretează în special la învățământul informal, prin modelul propus de corelare cu informații externe sistemului și deci necontrolabile, precum și din perspectiva faptului că utilizatorul este cel care își alege traseul informațional prin platforma i-video folosită pentru educație. Putem prevedea un scenariu în care să se impună anumite constrângeri, de exemplu, ca utilizatorul să parcurgă un anumit procent din clipurile video aferente unui „curs” pentru a putea fi evaluat, sau adnotările și legăturile să fie făcute predominant în cadrul unui sistem informațional închis și controlat de către profesori sau tutori.

Video interactiv în educație – platformele MOOC

În contextul învățământului electronic modern și a dezvoltărilor recente în domeniul învățământului prin platforme digitale online, considerațiile expuse mai sus fac din sistemul de hipervideo prezentat în această teză un candidat ideal pentru implementarea unor cursuri de masă, așa-numitele MOOC (Massive Open Online Courses). Spre diferență de cursurile școlare/universitare tradiționale care se bazează în mare măsură pe informații închise, platformele de MOOC folosesc resurse deschise publicului, corelează informații generate de profesori/specialiști cu resurse externe, încurajează comunitatea digitală precum și contribuțiile studenților, și prezintă un grad mai mare de informalitate a procesului de învățare. Toate aceste atribute și principii ale MOOC rezonează armonios cu sistemul de hipervideo discutat în această teză.

Ca tip de media, video este deja folosit ca unul din principalele mijloace de predare prin aceste platforme MOOC, în multe fiind chiar elementul media central [71,110]. Deși în practică, din punct de vedere instrucțional, adaptarea cursurilor obișnuite la paradigma video este dificilă și necesită adesea reproiectarea cursului și restructurarea conținutului său, ducând la o creștere a costurilor aferente producției materialelor video pentru MOOC [111], beneficiile obținute în urma hipervideo sunt net superioare față de metodele clasice [110].

Prin avantajele sale și prin profunzimea informațională pe care o pot aduce adnotările, video interactiv poate și trebuie să fie folosit în acest scenariu ca element central în procesul de învățare, incluzând și alte elemente de tip text, imagine sau hiperlegături spre alte locații pe World Wide Web.

Cercetătorii arată că materialele video clasice folosite ca prezentare pasivă vor genera un tipar de vizualizare pasivă la studenți, în locul unor activități de învățare activă (scopul principal al procesului de educație digitală) [110]. De aceea, studiile recomandă ca materialele video să evolueze dincolo de o experiență pasivă unidirecțională tip TV, pentru a ajunge să faciliteze activități colaborative, examinări și sondări în profunzimea informațiilor studiate, dirijarea atenției studenților [112] și obiective clare pentru procesul de învățare. Acest lucru este din nou perfect adaptat la sistemul de hipervideo descris.

Principiile adaptive expuse în capitolul 4 al acestei teze permit modelarea studenților și adaptarea la ritmul și interesele proprii ale fiecărui student. Modelul propus de înregistrare a interacțiunilor utilizatorilor cu materialul hipervideo, și clasificarea lor pe 4 nivele, este mult mai complex chiar decât sistemele cele mai avansate de folosire a video în MOOC, cum ar fi MITx [113], care contorizează doar simpla redare a materialelor video.

Cursurile pot fi de asemenea privite ca și narațiuni hipervideo, fiecare material video săptămânal ca un modul într-o narațiune educativă. În această narațiune video se pot impune condiționări privind vizionarea unui curs hipervideo mai avansat de parcurgerea unui modul introductiv fundamental, o situație des întâlnită în educație privind anumite cunoștințe fundamentale care trebuie însușite înainte de cursuri mai complexe. Conform unui studiu recent efectuat de Marchioria et al., folosirea acestor narațiuni multi-clip vizuale va contribui la creșterea interesului și satisfacției studentului în raport cu conținutul [45].

Hipervideo poate fi adaptat atât la cursurile xMOOC (oferite în regimul tradițional universitar ierarhic de profesor-student, conținutul nefiind uneori deschis din acest motiv), sau cMOOC (unde informația este distribuită între membri, interconectată și complet deschisă) [114]. Din cauza costurilor mai mari de producție, scenariul xMOOC în care universități sau instituții finanțează dezvoltarea materialelor media pentru cursuri este mai favorabil realizării materialelor hipervideo.

De asemenea, în paradigma xMOOC există diferențierea mai clară între studenți și profesori din punct de vedere al competențelor, conținutul postat de către profesori fiind mai bine cotat decât cel al studenților. Acest aspect se apropie mai mult de structura propusă de mine în această teză, în care tratez diferențiat metainformația produsă de către autorul hipervideo și cea generată de utilizatorii obișnuiți.

Utilizarea elementelor video în conceperea și rularea cursurilor pe platforme MOOC are marele avantaj de a asigura o familiarizare între cursanți și dezvoltatorul de curs, lucru altfel imposibil în contextul rulării unor cursuri de masă cu zeci de mii de studenți în paralel. Pe de altă parte, nu este indicat nici excesul în utilizarea unor prezentări video făcute de către profesor, deoarece se poate produce o plafonare a interesului studenților, fie datorită monotoniei, fie datorită lipsei de charismă a profesorului. O posibilă soluție o constituie asigurarea unui traseu interactiv cu mai multe sau mai puține înregistrări video ale profesorului, pe baza profilului de utilizator al studentului.

Un alt posibil scenariu pe care îl propun, este acela în care generarea traseului educațional se face pe baza rezultatelor unor evaluări intermediare pe care studentul trebuie să le facă. Aceste evaluări pot conduce diverși studenți pe diverse niveluri ale parcurgerii materialelor educaționale.

Ca și concluzie, principiile expuse în această teză privind sistemele video interactive adaptive sunt perfect compatibile în spectrul învățământului digital în special cu paradigma MOOC, în care cursurile sunt proiectate pentru a fi deschise publicului larg, interconectate cu alte resurse, adaptabile, și deși având ca centru de greutate informația definită de specialiști (cadre didactice sau specialiști în domeniu), permit contribuțiile studenților.

Combinarea celor două mecanisme de generare a interactivității în video deja prezentate – adnotarea clipurilor video individuale cu informație externă și interconectarea mai multor clipuri în narațiuni hipervideo – și prezentarea lor prin intermediul unui „player” video interactiv către studenți oferă o unealtă flexibilă, puternică și captivantă ce poate stimula procesul de învățare în platformele MOOC.

Formare profesională în organizații

Pentru a reflecta folosirea video interactiv pentru instruirea angajaților și distribuirea informațiilor cheie pentru succesul unei afaceri, am ales să studiez folosirea video interactiv pentru instruirea consultanților în scrierea de proiecte pentru accesarea fondurilor europene nerambursabile, un mediu în care cunoașterea și experiența sunt foarte valoroase și se pot traduce în beneficii imediate și directe pentru organizațiile beneficiare.

Aderarea României la Uniunea Europeană a deschis accesul către mai multe tipuri de linii de finanțare nerambursabilă. Procesul de scriere de proiecte de finanțare este adeseori complex. În acest context, au apărut și pe piața din România o serie de firme specializate de consultanță care se ocupă de scrierea de proiecte pentru obținerea de fonduri nerambursabile și de implementarea acestora.

Documentația pe care aceste firme o pregătesc includ un plan de afaceri cu studiu de piață și evaluarea impactului financiar pe care investiția îl va avea asupra organizației. Primele proiecte aprobate au devenit exemple de bună practică pentru cele care au urmat.

În multe cazuri, structura și o parte din informațiile incluse în proiecte depuse în cadrul unei linii de finațare, pot fi folosite în cadrul altor proiecte (de exemplu un studiu de piață pe segmentul audio-video în județul Timiș). Proiectele aprobate sunt adesea folosite ca îndrumar pentru consultanții noi pentru a-i instrui în scrierea de astfel de proiecte.

Având în vedere faptul că fondurile sunt alocate pe regiuni de dezvoltare, o parte din firmele de consultanță din România și-au deschis birouri în mai multe orașe din țară pentru a răspunde cererii existente pe piețele locale și pentru a interacționa în mod direct cu potențialii clienți. În plus, pentru a răspunde realităților curente, facultățile românești au început să ofere studenților cursuri care abordează tematici precum dezvoltarea regională și accesarea de fonduri nerambursabile.

Companiile angajează absolvenți de studii europene sau științe economice pentru a lucra în acest domeniu, însă adeseori se confruntă cu lipsa de experiență practică a noilor angajați. Noii angajați în diversele puncte de lucru din țară a unei firme, au nevoie să fie instruiți pas cu pas.

Pentru a evita costurile legate de deplasările celor care se ocupă de traininguri și de timpul necesar instruirii noilor angajați, experții pot să creeze un video interactiv cu ajutorul platformei video propuse.

Studiul de caz a privit instruirea angajaților în realizarea practică a unui proiect de finanțare prin fonduri europene pe linia de finanțare POR 4.3. Un proiect de finanțare UE presupune completarea unor formulare standard, realizarea unui plan de afaceri și pregătirea unor anexe care să susțină proiectul, concretizându-se într-un set de documente Word și foi de calcul tabelar tip Excel.

În acest caz, instruirea prin video interactiv a presupus realizarea unui ansamblu de materiale video interactive, corelate între ele și dependente unul de celălalt, adnotate suplimentar, folosind ca exemplu un proiect de finanțare aprobat în domeniul de activitate audio-video. Materialele video au fost generate prin înregistrarea ecranului consultantului-expert, împreună cu explicații vocale, folosind programul de specialitate Windows Media Encoder.

Au fost înregistrate 9 fișiere video în formatul proprietar wmv, transcodat ulterior în formatele aferente HTML5 – ogv, webm și mp4. Fișierele prezentau fiecare câte o secțiune din proiectul de finanțare: cuprinsul video, formularul cererii de finanțare, calendarul activităților, finanțarea proiectului, declarația de eligibilitate, declarația privind încadrarea întreprinderii în categoria IMM, planul de afaceri, proiecțiile financiare, precum și o explicație în profunzime a modului de realizare a analizei SWOT. În figura de mai jos este reprezentată structura informațională a acestui sistem de instruire organizațională, sub formă de narațiune neliniară i-video.

Figura 5.5: Structura unui tutorial video interactiv despre scrierea unui proiect de finanțare cu fonduri europene

Ca și navigație și interacțiune informațională pe "orizontală", nodul de "start", reprezentat în albastru închis, este "cuprinsul" video al aplicației, cu referințe spre toate celălalte materiale. Un alt nod cheie este în acest caz Formularul cererii de finanțare care, prin natura conținutului său, face referire la toate celelalte module.

În afara acestor noduri speciale, prin însăși natura unui proiect de finanțare care are ca rezultat un document liniar, și structura sistemului de i-video este liniara, modulele video urmând corelarea capitolelor din proiectul de finanțare prin fonduri europene.

O excepție este modulul care tratează finanțarea proiectului, el fiind corelat atât cu capitolul următor în ordinea proiectului, cât și cu proiecțiile financiare din fișierul Excel aferent bugetului proiectului.

Ca navigație în profunzime, în acest caz, o atenție specială a fost acordată planului de afaceri, elementul cel mai complex din proiectul de finanțare. Astfel, pentru o secțiunea cea mai importantă a planului de afaceri, și anume analiza SWOT, a fost realizat un material video suplimentar care detaliază acest aspect.

Această structură permite o flexibilitate informațională în prezentarea informației pe o anumită temă pe mai multe nivele de complexitate, adaptabilă atât pentru un consultant cu experiență care urmărește să afle doar lucruri de finețe privind domeniul aprofundat, cât și unui consultant în devenire care folosește această platformă pentru a învăța de la zero cunoștințele necesare pentru realizarea unui proiect.

Ca și adnotări, sunt incluse hiperlegături și informații suplimentare în diverse puncte din prezentare, prin explicarea suplimentară a unor noțiuni și referirea spre elemente externe.

Figura 5.6: Exemplu de adnotare pentru cazurile de training organizațional

De asemenea, materialele video folosite pentru această structură adaptată și asamblată pentru un proiect de consultanță pe o linie specifică de finanțare pot fi în parte refolosite și recombinate în alte forme și structuri. Ca exemplu, este posibilă refolosirea doar a anumitor module constituirea unei colecții i-video de studii de piață, sau alte informații care pot fi refolosite în interiorul companiei. Acest fapt reflectă încă o data avantajul unei structuri modulare informaționale.

În interviul cu consultantul-creator al materialelor video interactive, acesta a declarat că platforma este „foarte ușor de folosit, și economisește timp pe termen lung prin facilitarea pregătirii consultanților din mai multe filiale din țară.” Din punct de vedere al structurii informaționale, hipervideo „ajută la prezentarea eficientă a informației și oferă mai multe nivele de adâncime pentru utilizator, în funcție de interesul său”.

Acest exemplu relativ simplu poate fi extins la situații mai complexe. În mod evident, prin natura sa, hipervideo va fi mai eficient pentru explicarea unor sarcini comune mai multor angajați, în special activități de rutină care se pretează mai bine unei asemenea abordări instrucționale. Prin folosirea adnotărilor, se poate personaliza traseul informațional al fiecărui angajat după ritmul său personal, păstrându-se însă o structură comună a informației (dată de clipurile video efective). Studiile au validat și în acest caz faptul că angajații răspund bine la asemenea materiale video interactive, și își doresc ca ele să fie pe teme cât mai concrete privind activitățile profesionale [69].

Concluzii

Video interactiv poate fi aplicat la o varietate mare de domenii. În acest capitol, am aplicat principiile descrise în capitolele precedente la 3 domenii concrete – divertisment, educație academică online și formare profesională în cadrul firmelor. Am descris implementările făcute și am analizat rezultatele și implicațiile lor, făcând recomandări acolo unde a fost cazul.

Pentru cazul divertisment, am prezentat implementarea unui film interactiv constând din 37 de fișiere modulare componente, filmate special pentru acest scop. Modulele video au fost asociate într-un fir narativ prin platforma propusă, cu 11 puncte de decizie. Câteva din aceste clipuri video au fost adnotate cu referințe externe, unul din acestea fiind un produs încorporat interactiv, pe care utilizatorii puteau să-l evalueze în vederea cumpărării. Acest film a fost implementat cu accent pe partea narativă multi-clip, rezultând o structură foarte complexă cu peste 1000 de posibile moduri de a viziona hiperfilmul. Rezultatele de vizionare au fost și ele pozitive, confirmând interesul utilizatorilor.

De asemenea, am analizat alte două situații ce pot fi clasificate în acest domeniu de divertisment – clipurile hipervideo publicitare, și ghidurile turistice video interactive. În cazul reclamelor încorporate în clipul hipervideo, concluzia mea a fost aceeași cu cea a altor studii în acest domeniu – este avantajoasă și antrenantă crearea de reclame video interactive pentru vânzări.

Prin asocierea aspectelor de profilare a utilizatorului și adaptare, descrise în capitolul 4, putem avea o unealtă extrem de puternică pentru promovarea și vânzarea produselor către grupuri țintă și persoane ale căror interese și achiziții trecute sunt iterativ cunoscute de către platformă. Pentru cazul de ghid turistic interactiv, putem avea situații în care materialele aferente ghidului să fie văzute fie dintr-o locație aleatoare (sufrageria utilizatorului), fie chiar din locația descrisă în ghid (utilizatorul este la locul descris de video). Este evidentă importanța capitală a geolocației utilizatorului, pentru a furniza informații privind evenimente relevante din vecinătate și alte obiective de interes.

Pentru cazul de educație, am prezentat aplicativitatea hipervideo în cadrul unui curs de nivel universitar, am discutat pe scurt o implementare hipervideo pentru un seminar de compresie audio-video. În acest caz, am folosit captura de ecran ca metodă de înregistrare video, iar prin adnotări, am asigurat profunzimea informațională. Analizând rezultatul și implicațiile sale, am arătat că hipervideo se potrivește perfect noii paradigme MOOC din educația online. Dacă permitem clipurilor video interactive să-și asume rolul de principal tip de media folosit în MOOC, ele au potențialul de a duce procesul educațional într-o nouă etapă, privind eficiența învățării și gradul ridicat de satisfacție a studenților. Consider MOOC ca fiind domeniul în care hipervideo este cel mai bine adaptat, alături de reclamele și filmele interactive.

Am studiat de asemenea și contextul de pregătire continuă profesională în cadrul organizațiilor. Pentru acest scenariu, am implementat un tutorial despre scrierea proiectelor pentru accesarea de fonduri europene, pentru o companie de consultanță financiară cu filale distribuite în mai multe locații în țară. Rezultatele mă determină să consider că video interactiv poate fi folosit cu succes pentru implementarea unor tutoriale și materiale informative pentru angajați, iar cazurile cele mai potrivite sunt firmele medii și mari, sau organizațiile având filiale distribuite în mai multe locații.

În toate cazurile descrise mai sus, dezvoltarea și implementarea hipervideo este un proces mai costisitor din punct de vedere al timpului și al resurselor, și poate necesita competențe specializate. Însă studiile de caz se adresează în special organizațiilor mai mari (școli și universități, firme medii și mari, companii media profesioniste de producție video), unde există fonduri pentru rezolvarea acestor probleme. Bazat pe experiența mea cu hipervideo, consider că deși pe termen scurt este un efort producerea hipervideo, pe termen mediu și lung, video interactiv poate produce economii substanțiale, asigurând stocarea informației produse de un specialist în cel mai captivant și fidel format media inventat până în prezent.

Contribuții și concluzii

Această teză am dedicat-o domeniului emergent de video interactiv, aflat la confluența celor două mari curente media ale lumii moderne – televiziunea și internetul – fiecare din ele având avantaje și vulnerablități. Fuziunea numită video interactiv poate însă să aducă împreună doar avantajele celor două lumi, cu implicații imense în modul în care asimilăm informație.

Elementele cheie în această ecuație sunt metainformația, definirea elementelor interactive în cadrul video prin adnotări, decizii și informație inclusă suplimentar în video, intercorelarea eficientă video-video și adaptarea inteligentă a materialelor video la utilizatori prin colectarea de informații comportamentale și un proces de învățare continuă a sistemului. În aceste domenii am făcut tot posibilul să ofer contribuțiile mele teoretice și practice.

Contribuții teoretice

La începutul capitolului 2 am desfășurat un studiu critic asupra istoricului hipervideo, și a evoluției conceptelor de-a lungul anilor, arătând dorința perpetuă de a infuza interactivitate sub diverse forme materialelor video încă de la inventarea televiziunii, dar și eșecurile înregistrate până la momentul scrierii acestei teze. Însă apariția World Wide Web-ului și apariția etichetei <video> în HTML5 au deschis perspective promițătoare pentru video interactiv. Studiul meu evaluează implementări actuale ale sistemelor hipervideo, prezentând avantajele și dezavantajele lor și subliniind nevoia de contribuții suplimentare în acest domeniu, ceea ce a constituit motivația tezei mele.

În continuare, în cadrul tezei, am analizat conceptele relevante și dezvoltările tehnologice actuale în domenii de interes înrudite cu cel ales. Am trecut în revistă principalii factori ce pot contribui la dezvoltarea eficientă a unui sistem i-video – concepte Web, codecuri video, limbaje de programare și dispozitive capabile de a reda conținut multimedia – reliefând modul în care aceste lucruri pot fi aduse împreună în HTML5. Prezentarea pe larg a contribuției se găsește în subcapitolele 2.3, 2.4 și 2.5.

Am evaluat și dimensiunea de uzabilitate și accesibilitate a acestui domeniu, evaluând experiențele de creare/generare a unui material video interactiv, precum și partea complementară de vizualizare a acestora, propunând recomandări ce pot îmbunătăți experiența utilizatorilor cu video interactiv, și analizând implicațiile hipervideo pentru interacțiunile sociale între utilizatori. Plecând de la un model de 8 componente pentru interfața unui video interactiv al lui Sadallah [30], am arătat că modelul său trebuie extins pentru a include dimensiunea de narațiuni video. Prezentarea pe larg a contribuției se găsește în subcapitolul 2.6.

Video interactiv influențează de asemenea modalitatea în care materialele video sunt concepute, filmate, editate și exportate. Am dezvoltat un studiu critic asupra influenței video interactiv asupra producției de materiale video, și în urma acestui studiu și a experienței proprii în realizarea materialelor video, am dezvoltat un set de recomandări pentru cei ce doresc să producă materiale video destinate pentru un sistem interactiv. Prezentarea pe larg a contribuției se găsește în capitolul 3.7 din această teză.

Ca urmare a cercetării depuse, a experienței profesionale de peste 10 ani în televiziune și media digitală, precum și a acumulării de informații pe temele menționate mai sus, am trecut la propunerea unei model pentru un sistem complex de generare i-video. Am prezentat arhitectura sa, caracteristicile pe care acesta trebuie să le posede, și modul în care să abordeze cele două cazuri de video interactiv luate în considerare – narațiuni multi-video și clipuri video singulare. Prezentarea pe larg a contribuției se găsește în subcapitolele 3.1 și 3.2.

Pentru a înregistra precis metainformația aferentă unui clip hipervideo, am propus un model de adnotare flexibil pe 7 dimensiuni, capabil să stocheze metainformațiile necesare pentru clipuri video individuale, filme interactive și decizii, adnotări și înregistrarea interacțiunilor utilizatorilor. Contribuția este prezentată în subcapitolul 3.3. Am propus și implementat un model pentru adnotările individuale ce permite o maximă flexibilitate în definirea de legături și informații externe sistemului, în subcapitolul 3.4.

În special pentru clipurile video independente, necorelate manual de către creator cu alte clipuri video, apare nevoia de corelare cu alte materiale asemănătoare, într-un mod mai precis decât prin folosirea unor etichete sau categorii. În această teză am evaluat posibilele metode de analiză și extragere de metainformație automată a clipurilor video, și am propus un model teoretic de intercorelare a clipurilor video, prin procesarea audio și video pentru a extrage text, și apoi procesarea textului rezultat prin sisteme NLP. Am analizat de asemenea și principiile ce stau la baza asamblării unei narațiuni video multi-clip, pe care am numit-o film interactiv. Prezentarea pe larg a acestor contribuții se găsește în subcapitolul 4.1.

Am analizat conceptului de interacțiune, video interactiv și implicațiile sale, clasificând interactivitatea utilizatorilor cu materialele hipervideo pe 4 nivele distincte – Interes, Conținut, Social și Contributiv – analizând implicațiile acestora. Pentru a infuza inteligență unui sistem video interactiv, am căutat în literatura de specialitate modele de profilare psihologică și comportamentală care să permită sistemului să colecteze și să evalueze informații despre utilizator, construind scoruri de personalitate utilizatorilor, în funcție de interacțiunile lor cu sistemul. Am propus un model de colectare și analiza a datelor privind interacțiunea utilizatorului cu sistemul video interactiv.

Prin corelarea acestor date de interacțiune cu modele psihologice adaptate la contextul de video interactiv, am propus o metodă conceptuală de estimare iterativă continuă a personalității unui anumit utilizator. Pentru exemplificare, am propus două astfel de modele psihologice de catalogare/profilare a utilizatorilor pe două, și respectiv patru nivele, acestea putând fi completate și extinse în continuare prin alte modele.

De asemenea, am propus un mecanism de evaluare a interesului unuia sau a mai multor utilizatori pentru un subiect anume, prin corelarea datelor de interacțiune cu informații care ponderează aceste interacțiuni. Pe baza acestor soluții de estimare a gradului de interes a utilizatorului pe anumite teme și a profilului său psihologic, am arătat că se pot dezvolta recomandări și metode de a adapta conținutul hipervideo la utilizatori și la interesele sale. Prezentarea pe larg a acestei contribuțiii se găsește în subcapitolul 4.2.

Apoi, în urma analizei studiilor de caz realizate și prezentate în capitolul 5, am extras concluzii suplimentare și principii directoare pentru o platformă de video interactiv. Aceste principii sunt adaptate la contextul celor trei domenii aplicative luate în calcul – divertisment, educație digitală și formare profesională – unde consider că o asemenea platformă ar avea un rol major.

Contribuții practice

Pentru a demonstra și a testa concret principiile expuse în cadrul acestei teze, folosind o paletă largă de tehnologii, am dezvoltat o platformă web prototip de adnotare și generare narațiuni video interactive numită Interactive Video Platform, descrisă în capitolul 3. Aceasta include încărcarea și stocarea clipurilor video și a metainformației, generarea metainformației manual sau automat și adnotarea acestor materiale video cu diverse resurse externe. Am realizat interfețe web pentru toate aceste procese, ele fiind interfața sistemului video interactiv propus. Din punct de vedere administrativ, platforma propusă am realizat-o folosind un server de baze de date MySQL pentru stocarea metainformației, un server web Apache+PHP, precum și alte programe pentru transcodarea și procesarea video și a metainformației. Logica programatică necesară pentru procesarea și afișarea metainformației interactive a fost realizată în limbajele PHP și Javascript.

Pentru partea de stocare și procesare a metainformației și a fișierelor video, am realizat o soluție prototip ce implementează modelul teoretic propus, sub forma unei mașini virtuale. Pentru procesarea video, pe mașina virtuală a fost configurată o soluție automată de transcodare video folosind biblioteca FFMPEG și alte biblioteci dependente, pentru transcodarea clipurilor în formatele video cerute de HTML5 și extragerea imaginilor statice. Am descris pe larg acest proces în cadrul subcapitolului 3.3.

Folosind aceeași bibliotecă FFMPEG, am implementat o soluție experimentală automată în regim „pipeline” de extragere a fluxului audio din clipul video, conversia sa în text și analiza semantică a textului rezultat. Această analiză o fac pentru a recunoaște entități – termeni în text – care pot fi asociate automat cu surse externe de informație, ele devenind astfel adnotări generate automat. Pentru aceasta, am folosit sistemele în sursă deschisă Sphinx ASR (Automatic Speech Recognition) pentru conversia audio-text și Apache Stanbol (NLP – Natural Language Processor) pentru procesarea semantică a textului rezultat. Contribuția este descrisă în secțiunea 4.1.3.

Platforma permite de asemenea interconectarea materialelor video în narațiuni și generarea de decizii interactive, într-un mod facil și accesibil. Am dezvoltat în acest sens o interfață grafică pentru realizarea manuală a intercorelărilor clipurilor de către un autor-producător de film interactiv, prezentată în subcapitolul 3.4.2 și 4.1.2. Prin abordarea tuturor acestor aspecte esențiale care țin de crearea și administrarea hipervideo (fie ca și clipuri autonome, fie ca narațiuni multi-clip), am propus o soluție integrată de generare a materialelor video interactive, dezvoltată pentru producătorii de video interactiv. Prezentarea pe larg a contribuției se găsește în subcapitolele 3.3, 3.4 și 4.1.

De asemenea, ca urmare unui stagiu desfășurat în Institutul de cercetare Salzburg Research din Austria în vara anului 2012, în cadrul unui proiect european de cercetare numit ConnectME, am contribuit la dezvoltarea unui player HTML5 multiplatformă și multiecran care afișează adnotări definite semantic pentru un clip video, prin intermediul unor elemente interactive de logică programatică numite widget-uri, permițând interacțiunea utilizatorilor cu informațiile adnotate și prezentate în video. Acesta a fost testat și găsit ca funcțional pe calculatoare personale, televizoare inteligente, tablete și telefoane mobile. Această parte de redare a hipervideo completează armonios contribuția practică descrisă mai sus, prin faptul că tratează prezentarea spre public/utilizatori a materialelor video interactive generate de către producător. Prezentarea pe larg a contribuției se găsește în subcapitolul 3.5.

Am implementat de asemenea câteva studii de caz pentru a oferi o înțelegere mai bună asupra aplicativității domeniului ales pentru cercetare, și a explora particularități ce apar în diverse cazuri. Aceste cazuri particulare le-am ales pentru a reflecta domeniile pe care le consider ca prime beneficiare în urma cercetării din această teză – divertisment, educație și formare profesională în cadrul organizațiilor. Pentru cazul divertisment, am realizat un film interactiv, descris în secțiunea 5.1. Am evaluat de asemenea aspectele ce țin de publicitate privind produsele interactive încorporate într-un material hipervideo, precum și implicațiile hipervideo pentru turism.

Am abordat de asemenea dimensiunea de e-learning, printr-un curs produs prin această platformă și detaliat în subcapitolul 5.2, analizând apoi implicațiile pentru noua paradigmă MOOC (Massive Open Online Courses) în educația online, unde consider că hipervideo este o unealtă foarte potrivită pentru îmbunătățirea procesului educațional. Pentru cazul de formare profesională în organizații, am realizat un tutorial interactiv privind un proiect de finanțare, prezentat în subcapitolul 5.3. Acest studiu de caz ilustrează beneficiile folosirii unui sistem de video interactiv pentru organizații medii și mari, când este necesar un grad mare de expertiză într-un anumit domeniu și în special atunci când organizația are filiale în locații distribuite geografic. Pentru fiecare din cazuri, am discutat implicațiile fiecărui caz și moduri de a optimiza implementarea lor, precum și aspecte ce țin de uzabilitate. Prezentarea pe larg a contribuției și concluziilor rezultate se regăsește în capitolul 5.

În urma filmării, editării și generării de materiale video pentru acest sistem și studiile de caz prezentate mai sus, am explorat implicațiile concrete pentru cameramani și editori pentru generarea de materiale video pentru paradigma interactivă, generând un set de recomandări practice. Prezentarea pe larg a contribuției se găsește în capitolul 3.8.

Direcții de cercetare pentru viitor

Domeniul de video interactiv este încă la început de drum, și posibilitățile deschise de acesta sunt imense. În contextul creșterii exponențiale a cantității de informație din jurul nostru, și materialele video fiind și ele prinse în același curent, există o nevoie tot mai mare de a evalua automat un clip video și de a extrage eficient metainformație de calitate cât mai bună din procesarea materialului video, la scară globală, dincolo de microsisteme video închise. Principalul obstacol, volumul uriaș de informație de procesat în cazul unui clip video, va fi treptat depășit de creșterea capacității de procesare.

De asemenea, dezvoltarea de algoritmi mai performanți pentru automatizarea adnotărilor este o direcție importantă de cercetare pentru viitorul video interactiv. Pentru studiul meu, am folosit fluxul audio pentru a genera adnotări automate, însă pentru clipurile video, evident informația dominantă rămâne cea de imagine. De aceea consider necesară dezvoltarea de algoritmi cât mai performanți care să permită eficiență maximă în recunoașterea automată semantică a informației video, și o văd ca o direcție majoră de cercetare ulterioară.

Este nevoie de studii suplimentare care să clarifice și să aducă profunzime noțiunii de interacțiune a utilizatorilor cu video, și a nivelului lor de implicare. Recomand studierea cazurilor în care lipsa interacțiunii cu materialele nu înseamnă lipsa interesului, ci doar pasivitate sau observare, și acest lucru poate fi implementat prin metode de urmărire a privirii utilizatorului (eye-tracking) folosind camere încorporate în dispozitiv.

Și nu în ultimul rând, teza mea propune un model conceptual al clasificării utilizatorilor în urma interacțiunii lor cu video. Este necesară testarea în practică a acestui model, prin compararea profilului generat automat de sistem cu un test de personalitate administrat personal. Pe baza rezultatelor, se poate face o mai bună adaptare la utilizatori folosind modele psihologice mai performante și mai precise, rețele neuronale și alte tehnologii adaptive.

Teza de față abordează un domeniu larg cu implicații în multe alte domenii în afara celor 3 luate în considerare ca studii de caz. Aceste studii de caz au scos în evidență faptul că fiecare domeniu își are particularitățile sale, iar aceste diferențe trebuie susținute printr-un sistem adaptiv interactiv multimedia. De aceea, o direcție principală de cercetare rămâne evaluarea impactului hipervideo asupra altor domenii de activitate.

BIBLIOGRAFIE

ANEXE

Anexa 1 – Arhitectura generală abstractă a unui sistem de i-video (detaliu)

Anexa 2 – Graf cu structura filmului interactiv Maya

Similar Posts