World Wide Web conține o cantitate enormă de informații, însă poate fi extrem de dificil [630302]
World Wide Web conține o cantitate enormă de informații, însă poate fi extrem de dificil
pentru utilizatori să găsească resurse atât de înalte de calitate, cât și relevante pentru nevoile lor
de informare. Există o serie de motive fundamentale pentru acest lucru. Webul este un corp de
hipertext de dimensiuni enorme aproximativ trei sute de milioane de pagini web din această
scriere | și continuă să crească la o rată fenomenală.
Dar variația paginilor este chiar mai gravă decât scara brută a datelor: setul de pagini
Web luate în ansamblu nu are aproape nicio structură unificatoare, cu variabilitate în stilul de
creație și conținut mult mai mare decât în colecțiile tradiționale de documente text. Acest nivel
de complexitate face imposibilă aplicarea tehnici lor de gestionare a bazelor de date și de
recuperare a informațiilor într -o manieră de tip "o -pe-shelf". Motoarele de căutare bazate pe
index pentru WWW au fost unul dintre instrumentele primare de către utilizatorii Web căutând
informații .
Cele mai mari astfel de motoare de căutare exploatează tehnologia modern ă de stocare
care face posibilă indexarea unei mari părți a WWW, prin urmare, pot construi indici giganți
care să permită recuperarea rapidă a setului de pagini web care conțin un cuvânt sau un șir.
Utilizatorul de obicei interacționează cu aceștia introducând termeni de interogare și primind o
listă de pagini Web care conțin termenii respectivi. Utilizatorii experimentați pot folosi
utilizarea eficientă a unor astfel de motoare de căutare pentru sar cini care pot fi rezolvate prin
căutarea cu ajutorul cuvinte lor cheie și expresii constrânse, însă aceste motoare de căutare nu
sunt potrivite pentru o gamă largă de sarcini la fel de importante. În special, un subiect de orice
lățime va conține de obicei câteva mii veral milioane de pagini web relevante; în același timp,
un utilizator va fi dispus să privească un număr extrem de mic de pagini. Cum ar putea , din
această mare de pagini, un motor de căutare să le selecteze cele “corecte” sau “relevante” ?
W3 u tilizează o arhitectur ă client -server, pentru a permite furnizarea de facilități
complexe de prezentare de către client, precum și algoritmi puternici de căutare și manipulare
a datelor pe site -ul datelor de către un server. Protocolul necesar pentru a co necta serverul și
clientul este un simplu protocol de căutare și recuperare fără stat. În practică, toți clienții W3
includ abilitatea de a utiliza diverse alte protocoale, inclusiv FTP, Gopher, acces la fișiere locale
și NNTP pentru știrile de pe interne t.
Aceasta oferă fiecărui client W3 acces la mai multe lumi deja existente de informații.
Schema de adresare a documentelor permite acordarea de nume pentru orice document, fișier,
director, grup de știri sau articole în aceste sisteme. Aceasta înseamnă c ă un document hipertext
poate fi scris sau generat care include legături către aceste obiecte. Alte lumi de informații, cum
ar fi cele ale serverelor WAIS, sunt puse la dispoziție de gateway -urile care efectuează maparea
acelei lumi în web .
Fig 2.1. Arhi tectura client – server W3
Sursa: https://www.tankonyvtar.hu/hu/tartalom/tamop425/0027_ADW1/ch01s02.html
În mod ideal, un protocol utilizat de W3 are următoarele carac teristici:
• Găsirea documentului după nume.
• Căutarea indexului după numele acestuia plus textul furnizat de cititor.
• Operațiunea fără stat. Traversarea rapidă a legăturilor dintre documentele de pe diferite
servere face conceptul unei sesiuni între client și server să fie inadecvat.
• Pipelining care permite ca prima parte a unui document să fie afișată (sau transmisă printr –
un gateway) înainte ca întregul document să fie transmis. Acest lucru este ușor atunci când
se utilizează un protocol orientat că tre fluxul de octeți.
Pentru a realiza acest lucru, un protocol simplu, HTTP (Hypertext Transfer Protocol) a
fost definit în stilul Internet ului convențional. Acest lucru rulează peste TCP / IP, folosind o
astfel de conexiune pentru fiecare operație de că utare sau recuperare.
Forma inițială a protocolului implică trimiterea de către client a unei cereri ASCII
simple pentru un document: comanda "GET" și numele documentului. Răspunsul la aceasta
este fie un fișier hipertext marcat în SGML, folosind un tip sp ecific de document cunoscut sub
numele de "HTML", fie un document text simplu cu un antet HTML.
În noua versiune a protocolului (în curs de dezvoltare), un obiect de cerere formatat
SGML include detalii despre capabilitățile clientului. Capabilitățile cli entului includ o pondere,
sub forma unor puncte de penalizare pentru pierderea de informații și timpul necesar pentru
conversii la sfârșitul clientului. Acest lucru permite serverului să ia o decizie echilibrată pentru
a trimite un anumit format atunci cân d sunt disponibile mai multe, minimizând degradarea
informației și întârzierea suplimentară asociată conversiei formatelor. Documentul returnat
conține un antet HTML și un corp care poate fi în orice notație sau combinație de scheme de
codare pe care clien tul și -a declarat că este capabil să le gestioneze. Caching -ul documentelor
convertite pe partea clientului sau a serverului este evident o tehnică utilă care ar putea fi
aplicată, în principiu, ca o optimizare.
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: World Wide Web conține o cantitate enormă de informații, însă poate fi extrem de dificil [630302] (ID: 630302)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
