Avram Elena Loredana, Mitsc, Dmdw, Web Log Mining [607249]
UNIVERSITE “POLITEHNICA” DE BUCAREST
FACULTE D’INGENIERIE EN LANGUES
ETRANGERES
MANAGEMENT, INNOVATION ET
TECHNOLOGIE DES SYSTEMES
COLLABORATIFS
L’algorithm e Web Log Mining
Prof. coordinateur : Sl. Dr. Mihai DASCALU
Etudiante : Avram Elena -Loredana
Contenu :
1. Introduction
2. Généralités
2.1 Définition
2.2 Importance de l’algorithme
3. Pseudocode
4. Domaine et résultats d'utilisation
5. Avantages et inconvénients
6. Application s pratiques du l'algorithme
6.1. Implementation de l’algorithme
6.2. Set de données
6.3. Résultats
7. Conclusions
8. Références
1. Introduction
Dans l’ère de l’Internet, les sites web sont une source d'information utile dans les activités
quotidiennes. Il y a donc un développement rapide du World Wide Web dans son volume de trafic
et la taille et la complexité des sites.
Web est un trésor d'informations et de données, où une grande quantité de données est
disponible dans différents formats et structures. Trouver les données utiles à partir du Web est une
tâche complexe, donc l'algorithme de data mining travaille à identifier le modèle et l'information
à partir des données.
2. Généralités
2.1. Définition
Web mining est l'application de l'exploration de données, de l'intelligence artificielle, de la
technologie graphique sur les données web et qui traces les comportements de s utilisateurs et
extrait leurs intérêts en utilisant des modèles.
L'exploration w eb est utilisée pour découvrir des modèles de navigation intéressants des
utilisateur s qui peuvent être appliqués à de nombreux problèmes , comme l'amélioration des pages
web, la formulation de recommandations de sujets ou de produits ou des études de comportement
des utilisateurs et des clients.
Par web mining, on comprend trois directions :
a. Web usage mining
Ce domaine permet les travaux collectés d'informations d'accès web pour les pages web. Ces
données d'utilisation fournissent les chemins menant aux pages web accédées.
b. Web content mining
L'exploration de contenu consiste à numériser et à extraire du texte, des images et des
graphiques d'une page Web pour déterminer l'importance du contenu .
c. Web structure mining
C'est un outil utilisé pour reconnaître la connexion entre les pages Web liées par l'information
ou la connexion directe. Cette organisation de s données est détectable par la condition du schéma
de la structure Web à travers des techniques de base de données pour les pages Web. Cette relation
permet une recherche pour extraire des données relatives à une requête de recherche directement
à la page Web de connexion à partir du site Web sur lequel repose le contenu.
2.2. Importance de l’algorithme
Du point de vue de l'utilisateur, la classification des modes de navigation peut améliorer la
qualité des recommandations w eb personnalisés qui vi sent à prédire quelles pages sont plus
susceptibles d'être consultée par les utilisateurs actuels ou prochaine s. Par l'intermédiaire de cet
algorithme, on peut estimer le meilleur profil décrivant le comportement de navigation de
l'utilisateur co urant, et de trou ver des pages w eb connexes, non sollicités, mais de grand potentiel
pour les prochaines pages que l'utilisateur veut voir.
Du point de vue des sites, la classification des modes de navigation peut guider les webmasters
à organiser le contenu de sites. A u lieu d'être purement disposés selon un p oint de vue du contenu
de site w eb, un site sera ajusté en fonction des désirs des utilisateurs. Par exemple, les liens
nécessaires seront ajoutés entre les pages w eb, qui ne semblent pas partager le même sujet, ma is
ont été visitées une après l'autre par de nombreux utilisateurs.
En outre, les pages qui ont attiré beaucoup de clics seront mis en évidence à partir de leurs
catégories de sujets, tandis que les pages qui ne sont pas visités pendant une période de tem ps
seront déplacés ou éliminés. En fait, l'organisation de sites par thèmes est à la fois statique et
réactive.
Depuis les habitudes de navigation des utilisateurs seront tirées périodiquement, le changement
de leur intérêt de navigation peut être capturé régulièrement et puis l'organisation du site peut être
ajustée en conséquence. Ceci est une façon dynamique et pr oactive de la gestion de sites w eb.
En conséquence, les visiteurs de passage seront incités à devenir des consommateurs ou
utilisateurs du sit e tandis que les utilisateurs actuels sont prêts à rester fidèles au site.
3. Pseudocode
Il existe plusieurs algorithmes de création de fréquences qui sont mis en œuv re pour la
personnalisation du w eb à l'aide de l'extraction de journaux par accès proxy. De plus, diverses
autres approches séquentielles et fréquentes d'exploration de modèles sont développées, mais elles
ne fournissent pas les performances suffisantes pour un ensemble de données important.
L'algorithme Apriori est un algorithme influent pour e xtraire des ensembles d'articles fréquents
pour les règles d'association booléenne.
Ensembles d'éléments fréquents : l es ensembles de l'élément qui a un support
minimum (noté 𝐿𝑖 pour l’élément numéro i).
Propriété Apriori: Tout sous -ensemble d'éléments fréquents doit être fréquent
Opération de Join: Pour trouver 𝐿𝑘, un ensemble de k éléments candidats est généré
en joignant 𝐿𝑘−1, avec lui -même.
-> Trouver les ensembles d'éléments fréquents: les ensembles d'éléments qui ont
un support minimum – un sous -ensemble d'un ensemble d'éléments fréquents doit
également être un élément fréquent, c'est -à-dire si {AB} est un ensemble d'éléments
fréquents, les deux {A} et {B} devraient être un ensemble d'éléments fréquents.
-> Itérativement trouver les ensemb les d’éléments fréquentes avec cardinalité de 1
à k (ensembles avec k éléments )
Utilisez les ensembles d' éléments fréquents pour g énérer des règles d'association
Etape de Join : 𝐶𝑘 est généré en joignant 𝐿𝑘−1avec lui -même.
Étape de la Prune: Tout ense mble (k -1) -item qui n'est pas fréquent ne peut pas être
un sous -ensemble d'un k -item-set fréquent
L'algorithme traditionnel Apriori est le plus souvent utilisé par différents chercheurs et
groupes pour extraire des données de journal. Cet algorithme a un certain problème avec leur
performance, nous observons que lorsque l'ensemble d'éléments sont augmentés, le temps et la
mémoire requise est augmenté exponentiellement. Pour résoudre ce problème, il est proposé un
nouvel algorithme Apriori m odifié.
4. Domaine et résultats d'utilisation
A cause de son application directe dans le commerce électronique, l'analyse Web, e -learning
ou récupération d'information, l'exploration web est devenu l'un des domaines importants dans
l'informatique et la science de l'information.
Pendant l'exploration web, les applications web ne sont pas les mêmes, mais chaque serveur
web a une structure similaire au fichier journal d'accès, sa fouille a donc une signi fication générale
et réaliste.
En extrayant les fichi ers journaux du serveur web, nous pouvons identifier les chemins utilisés
par les groupes d'utilisateurs pour accéder à la page web. Cette opération est connue sous le nom
d'analyse par clusters utilisateurs et permet d'optimiser le chemin d'accès et d'amé liorer ainsi la
topologie du site. En outre, les fichiers journaux du serveur web nous aident à identifier le contenu
auquel les g roupes d'utilisateurs accèdent.
Cette connaissance permet aux développeurs web de fournir des services personnalisés. En
outre , l'analyse et la recherche des comportements des utilisateurs peuvent conduire à développer
une stratégie de marketing pour les utilisateurs potentiels qui peut conduire à un plus grand
avantage concurrentiel.
5. Avantages et inconvénients
Avantages :
• Permet au commerce électronique de faire du marketing personnalisé, ce qui se traduit par
des volumes commerciaux plus importants.
• Les agences gouvernementales utilisent cette technologie pour classer les menaces et lutter
contre le terrorisme.
• La capacité de prédiction peut profiter à la société en identifiant les activités criminelles
• Les entreprises peuvent mieux comprendre les besoins du client et réagir plus rapidement
aux besoins des clients.
Inconvénients :
• La confidentialité est considérée comme p erdue lorsque des informations concernant un
individu sont obtenues, utilisées ou diffusées, surtout si se passe sans leur consentement
• Les entreprises qui collectent les données pour un objectif spécifique peuvent utiliser les
données dans des manières to talement différentes, ce qui constitue une violation des
intérêts de l'utilisateur.
• La désindividualisation peut être définie comme une tendance à juger et à traiter les gens
sur la base de caractéristiques de groupe plutôt que sur leurs propres caractéris tiques et
mérites individuels
6. Applications pratiques du l'algorithme
L'analyse des fichiers journaux web a commencé comme un moyen pour les administrateurs
informatiques d'assurer une bande passante et une capacité de serveur suffisantes sur le site Web
de leurs organisations. Les données des fichiers journaux peuvent offrir un aperçu précieux de
l'utilisation du site Web. Il reflète l'utilisation réelle en condition de travail naturel, par rapport à
la mise en place artificielle d'un laboratoire d'utilisab ilité. Il représente l'activité de nombreux
utilisateurs, sur une période potentiellement longue, par rapport à un nombre limité d'utilisateurs
pendant une heure ou deux chacun.
Applications pratiques qui nécessitent l’utilisation de l’algorithme Web Log Mining :
Implémentation des sites web pour répondre aux besoins des utilisateurs
Classification effective des modèles de navigation des utilisateurs
Identification des sessions
Reconstruction des activités de visitateurs
6.1. Implementation de l’algorithme
L'algorithme IGSP (Intelligent Generalized Sequential Pattern) est utilisé pour trouver les
séquences fréquentes qui se produisent dans le fichier journal pour un seuil donné. Cet algorithme
est une ex tension de l'algorithme GSP et plus efficace que GSP qu e le temps de fonctionnement
est moindre par rapport au GSP.
Le pseudocode de l'algorithme IGSP est présenté dans d es étapes ci -dessous :
a. Lire la base de données séquentielle et stocker les séquences dans une liste.
b. Stocker les séquences lues à partir de la base de données séquentielle dans une table de
hachage et initialiser les valeurs de clé des séquences à "0".
c. Initialiser les entrées de table de hachage avec la valeur de clé "0".
d. Si la séquence est présente dans la table de hachage, incrémenter la va leur de comptage
correspondant à la chaîne . Si la séquence n'est pas présente dans la table de hachage, insérez
la séquence dans la table de hachage et réglez count = 1. La table de hachage contient
maintenant les séquences avec leur compte.
e. Vérifiez le co mptage des séquences et comparez -le avec la valeur minimale de seuil de
support. Si le nombre de séquences est inférieur au seuil minimum de support, ignorez la
séquence. Sinon, ajoutez la séquence au fichier comme séquence fréquente.
f. Si les séquences res tantes ne sont pas épuisées, passez à l'étape (b) sinon quittez .
6.2. Set de données
Les résultats expérimentaux et l'analyse des algorithmes de découverte de modèles fréquents à
partir de données de journal web sont décrits ci -dessous.
L'analyse expérimentale a été effectuée sur Click Stream Data qui représente des données de
journal web coté serveur contenant 12 000 enregistrements. Chaque enregistrement contient les
champs suivants : un identifiant de magasin, un horodatage, une adresse IP, un i dentificateur de
session unique, une page visitée et un référent. Les séquences fréquentes générées à partir de
données de flux définies avec un nombre de seuils de support minimum de 10, 20, 30, 50 et 80.
Les tableaux à hachage sont utilisés, ce qui améli ore l'efficacité. Les données prétraitées, sous
la forme de séquences, sont prises en entrée de l'algorithme. Chaque ligne dans la base de données
séquentielle correspond à une séquence de pages web visitées dans une session particulière. Cette
base de don nées séquentielle contient également les sous -séquences des séquences trouvées. Un
fichier contenant les différentes séquences fréquentes qui ont été identifiées à partir du fichier
journal est obtenu comme sortie.
6.3. Résultats
Le tableau 1 montre la comparaison entre les temps de fonctionnement des algorithmes GSP
et IGSP.
A partir du graphique 1 et du graphique 2, on constate que le temps de parcours pris par
l'IGSP est moindre par rapport au temps d'exécution de l'algo rithme GSP.
Le tableau 2 montre les comparaisons entre le nombre de modèles générés par
Algorithmes GSP et IGSP.
On observe à partir du graphique 3 et du graphique 4 que le nombre total de modèles générés
par l'IGSP est plus élevé que celui du GS P.
7. Conclusions
L'objectif général de Web Log Mining est de recueillir des informations intéressantes sur les
modèles de navigation des utilisateurs (c'est -à-dire, pour caractériser les utilisateurs Web).
Ces informations peuvent être exploitées ultérieurement pour améliorer le site Web du point
de vue des utilisateurs. Les résultats obtenus par l'exploitation des journaux Web peuvent être
utilisés à diverses fins :
Personnaliser la diffusion du contenu Web
Améliorer la navigation de l'utilisateur grâce à la pré -extract ion et à la mise en cache
Améliorer les sites Web de conception ou de commerce électronique
Améliorer la satisfaction de la clientèle
Interaction de la société avec le web a comme but de changer le web ainsi que la façon dont
les gens interagissent les uns avec les autres. En tant que stockant l'histoire de toute cette
interaction dans un endroit est clairement une tâche trop difficile , au moins les changements sur le
web sont enregist rés par le projet pio nnier d'archivage sur Internet.
La recherche doit être réalisée en extrayant des modèles temporels de la façon dont le contenu
web, les structures web, les communautés w eb, les autorités, les hubs évoluent au fil du temps. Les
grandes organisations archivent généralement des donnée s d'utilisation de leurs sites w eb. Avec
ces sources de données disponibles, il existe un large champ de recherche pour développer des
techniques d'analyse de la façon dont le web évolue avec le temps.
Le Worl d Wide Web est devenu l'un des médias les plus importants pour stocker, partager et
distribuer de l'information. À l'heure actuelle, Google indexe plus de 8 milliards de pages Web.
L'expansion rapide du Web a fourni une excellente occasion d'étudier le com portement des
utilisateurs et des systèmes en explorant les journaux d'accès web. Le Web Mining qui découvre
et extrait des connaissances / modèles intéressants à partir du Web pourrait être classé en trois
types basés sur des données différentes que l'exp loitation est exécutée : Web Structure Mining qui
se concentre sur la structure de lien hypertexte, Web Contents Mining qui se concentre sur le
contenu de page ainsi que Web Usage Mining qui se concentre sur les journ aux web.
8. Références
[1] An Implementation on Web Log Mining , Bhaiyalal Birla, Sachin Patel, 2014
[2] An Effective System for Mining Web Log, Zhenglu Yang, Yitong Wang, Masaru
Kitsuregawa
[3] World Wide Web Usage Mining Systems and Technologies, Wen -Chen Hu
[4] Data Pre -processing o n Web Server Logs for Generalized Association Rules Mining
Algorithm, Mohd Helmy Abd Wahab, Mohd Norzali Haji Mohd, 2008
[5] Web Mining Research: A Survey, Raymond Kosala, Hendrik Bloockeel
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Avram Elena Loredana, Mitsc, Dmdw, Web Log Mining [607249] (ID: 607249)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
