Induction d e sens des mots Arabe dans un [603845]

1
Induction d e sens des mots Arabe dans un
espace vectoriel des mots.

Djaidri Asma 1, Aliane Hassina 2, Azzoune Hamid 1

Résumé— Nous décrivons dans cet article , une nouvelle approche d’induction d e sens des mots pour la langue Arabe dans un espace
vectoriel des mots. Les modèles de représentation vectoriels suscitent un grand intérêt de la part de la communauté de recherche TALN .
Ces modèles sont fondés sur l’hypothèse distributionne lle qui prend en compte le « contexte » d’un mot cible. Ces modèles mappent tous
les mots du vocabulaire à un espace vectoriel et fournissent ensuite une description sémantique des mots d'un corpus en tant que vecteurs
numériques. Néanmoins, un problème bi en connu de ces modèles est qu'ils ne peuvent pas gérer la polysémie. Nous présentons un
nouveau modèle simple qui utilise les word embedding s que nous expérimentons pour la tâche non supervisée de l'induction de sens des
mots arabe s. Les modèle s sont développés à l'aide des outils Ge nSim pour SKIP -Gram et CBOW. Le modèle permet ensuite de créer un
indexeur basé sur la similarité cosinus en utilisant l ’indexeur Annoy, qui est plus rapide que la fonction de similarité de GenSim. Un ego-
network est utilis é pour étudier la structure des relations d ’un individu et permet de construire un graphe de mots associés provenant des
voisins locaux. Les différents sens des mots sont générés en utilisant du clustering de graphe s. Nous avons travaillé avec deux cor pus
d'information : OSAC et Ara Corpus ainsi qu’un modèle de Word Embeddings existant AraVec . Ensuite, nous avons expérimenté les
différents modèles pour l'induction du sens des mots et nous avons obtenu des résultats prometteurs.
Termes d'index — : Représentation vectorielle de mots , Word2Vec, Induction de sens, langue Arabe, TALN.
—————————— ◆ ——————————
1 INTRODUCTION
E sens d’un mot est une représentation discrète d'un
aspect significat if du mot, ce qui implique que les sens
d’un mot sont l'ensemble des significations possibles d'un
mot que l'on peut trouver dans les dictionnaires, corpus,
dictionnaire électronique… etc.[17] Le choix de la
représent ation des sens des mots est un problème
fondamental en TALN et dépend du type d e l’application.
Un inventaire de s ens peut être construit de différentes
manières : il s'agit généralement d'une liste fixe des sens de
chaque mot [15] [18]. La construction manuelle de
ressources lexicales ou de données annotées manuellement
est coûteuse et p rend du temps. L’induction de sens des
mots ( Word Sense Induction -WSI) permet de résoudre ce
problème en utilisant des algorithmes de clustering qui
n'ont pas besoin de données d’apprentissage [16]. WSI est
un problème ouvert en TALN , lié à la désambiguïsation
lexicale des mots (Word Sense Disambiguation -WSD ), qui
vise à induire automatiquement des sens de mots d'un
corpus. La taille du corpus a un impact important sur le
WSI. Cependant, le clustering dans un texte de grande
dimension est un problème difficile.
Le plongement des mots littéralement ou la
représentation vectorielle d’un mot techniquement (Word Embeddings en anglais ) est une méthode efficace pour
représenter des mots dans une dimension réduite . Un
vecteur à une -dimension est utilisé pour représenter les
mots [2]. Ces modèles permettent aux mots ayant une
signification similaire d'avoir une représentation similaire.
Cependant, ces représentations utilisant un seul vecteur
sont incapables de capturer les différents sens du m ot. Afin
de bénéficier de la technique d e la représentation
vectorielle de mots pour des sens de mots individuels,
plusieurs approches ont été proposées [3] [4] [5] [19] [20]
[21].
La contribution de cet article est une technique qui
produit automatiquemen t un inventaire des sens de mots
arabes en utilisant l'induction du sens des mots via les
Word Embeddings , où les sens des mots de l'inventaire
sont représentés par des groupes de mots. À notre
connaissance, il s’agit de la première tentative de création
automatique d’un inventaire de sens arabe en utilisant la
représentation vectorielle des mots. Les expériences
montrent que notre approche est prometteuse et démontre
une bonne performance de l'induction de sens des mots
pour un échantillon de mots arabes a mbigus .
2 LES MODELES DE LA REPRESENTATION
VECTORIELLE DES MOTS
La représentation vectorielle des mots est l'une des
dernières solutions proposées pour de nombreuse
applications de TALN qui a eu un grand succès . Elle a été
proposée pour la première fois en 2003 par Bengio et al [1]
et est devenu e populaire avec le modèle Word2Vec en 2013
[2]. Ces modèles « plongent » des mots dans des vecteurs
à valeur réelle dans un espace sémantique de dimension ————————————————
• D.A. Author is with the LRIA Laboratory of the University of Science and
Technology Houari Boumedien USTHB, Algiers, Algeria, CO 16111. E –
mail: adjaidri@usthb.dz .
• A.H2. Author is with the Research Centre for Scientific and Technical
Information CERIST, Ben Aknoun, Algeria. E -mail: haliane@hotmail.com
• A.H1. the LRIA Laboratory of the University of Science a nd Technology
Houari Boumedien USTHB, Algiers, Algeria, CO 16111. E -mail:
azzoune@yahoo.fr
L

DJAIDRI ET AL. INDUCTION DE SENS DES MOTS ARABE DANS UN ESPACE VECT ORIEL DE MOTS
2

inférieur e qui peut être appris par des algorithmes
d'apprentissage automatique pour prédire des mots et non
pour compter des mots. L’avantage principal de ces
modèles, outre leur faible dimensionnalité est qu'ils
peuvent capturer l ’information de similarité des mots ; des
mots similaires ont de s vecteurs similaires. Cependant, ces
modèles ne prennent pas en compte les ambiguïtés
lexicales, ils représentent tous les sens d'un mot par une
représentation vectorielle unique [3]. Afin de pouvoir
bénéficier de s techniques d e la représentation vectorielle
des mots pour trouver les sens des mots individuels, nous
induisons automatiquement les différents sens des mots
arabes et construisons des inventaires pouvant être utilisés
ultérieurement pour des applications telles que la
désambiguïsation sémantique (WSD ).

2.1 Re ssources de données
L'objectif principal de ce travail est de construire un
Embeddings modèle de mots arabes pour la discrimination
de sens des mots. À cette fin, nous avons construit deux
modèles Word2Vec ; Skip -gram et CBOW pour chacun des
deux corpus : le corpus arabe Open Source (OSAC) et le
corpus standard arabe moderne nommé : AraCorpus;
Nous avons ensuite réalisé WSI avec nos modèles obtenus
et un modèle AraVec existant.

Le corpus arabe open source (OSAC). C'est un corpus
construit à partir de plusieurs sites Web. Il est divisé en
trois groupes principaux : BBC -Arabe Corpus qui contient
1,860,786 (1.8M) mots et 106,733 mots uniques après
suppression des mots d'arrêt, CNN -Arabic Corpus qui
contient 2,241,348 (2.2M) mots et 144,460 mots uniques
après l'arrêt suppression des mots. Ensuite, OSAC collecté
à partir de plusieurs sites Web présentés dans [6] qui
contient environ 18 183 511 (18M) mots et 449 600 mots
uniques après suppression de mots vides [6] [22]. Nous
n'avons pas utilisé le corpus CNN -Arabic, à cause de
problèmes de codification dans le corpus.

Le corpus arabe moderne standard (AraCorpus). C'est
une collection d'articles de journaux arabes provenant de
dix pays arabes. Il compte 102 134 articles, avec 113
millions de mots (800 Mo) et 296570 mots uniques [7] [22].

AraVec. Il s’agit d’un projet open source pré-entrainé de
représentation de mots vectorielle , il est gratuit et offre de
puissants Embeddings modèles . AraVec propose six
modèles différents con struit s à partir de trois corpus
arabes différents : Twitter, Wikipédia et des pages Web. Le
corpus Twitter a 1090 millions de mots et 164077 mots
uniques. Le corpus de Wikipédia contient 78,9 millions de
mots et 140319 mots uniques, et le co rpus WWW compte
2225,3 millions de mots avec 146273 mots uniques [8].

2.2 le Pré -traitement
Pour créer un modèle Word2Vec, une étape de
prétraitement est requise. Nous utilisons l'outil Gen Sim
développé par Radim Rehurek [9], qui attend une
séquence de ph rases en entrée, où chaque phrase contient une liste de mots et chaque ligne du fichier est une phrase.
AraCorpus est prêt à utiliser pour construire un modèle
Word2 Vec avec GenSim, il suffit de supprimer certains
caractères spéciaux, mais le corpus OSAC nécessite un
prétraitement supplémentaire tel que la normalisation et la
suppression de :
1. Des l ettres non arabes ; comme BBC Arabic ou
CNN Arabic au début de chaque fichier du
corpus .
2. Des caractères spéciaux attachés aux mots
comme. " بحسم
3. Les chiffres .
4. La vocalisation comme : اطالعا ً
5. L’allongement des lettres .
2.3 l’Apprentissage d ’un Model Word2Vec
Après la préparation du corpus, nous avons construit les
modèles CBOW et Skip -gram en utilisant le toolkit Gen Sim
pour OSAC et AraCorpus. Les modèles AraVec [8] ont
également été construits à l'aide de l’outil Gen Sim, ce qui
nous permet de faire une comparaison raisonnable entre
les modèles obtenus avec OSAC, AraCorpus et les modèles
AraVec.
Le choix des paramètres d'entraînement est une éta pe
importante ici. Nous avons sélectionné un ensemble de
paramètres en fonction des évaluations antérieures des
expériences présentées dans [5] et des modèles de AraVec
[8]. Nous avons modélisé des Embedding s modèles de
OSAC et AraCorpus avec une dimension de 300 réel , une
taille de fenêtre contextuelle de 5, une fréquence minimale
de 5. Le tableau 1 montre la configuration utilisée pour
construire nos modèles pour OSAC et AraCorpus et la
configuration utilisée par les créateurs d'AraVec [8].

TABLE 1
Configuration de modèles Word Embeddings

3 INDUCTION DU SENS ARABE EN UTILISANT LES
MODELES WORD2VEC
Nous induisons l'inventaire des sens arabes en regroupant
le graphe de similarité des mots de manière similaire à [5]
[10] [13] [14], où un sens de mot est représenté par un
groupe de mots. Par exemple, le mot «ًذكر » avec le sens «
mentionner ذكر » peut être représenté par le cluster : أورد .
اقواال,ًواورد,ًذم,ًاورد,ًذكر,ًحكى

DJAIDRI ET AL. INDUCTION DE SENS DES MOTS ARABE DANS UN ESPACE VECT ORIEL DE MOTS
3
Pour induire des sens, nous construisons simplement
un indexeur à l’aide de l’outils « Anno y [23] » pour chaque
embeddings modèle , ensuite nous l’utilis ons comme
graphe de similari té. Enfin nous générons un ego -Network
pour chaque mot du vocabulaire du modèle, sur lequel
nous avons effectué un algorithme de clustering pour
l’ego-Network .

3.1 Construction d'un Graphe de Similarité de Mots
Le graphe de similarité de mots contient tous les mots du
vocabulaire en tant que nœuds liés par des arêtes
pondérées par la similarité de cosinus entre eux, le graphe
n'est pas orienté. Pour construire le grap he, nous devons
récupérer pour chaque mot du vocabulaire les k -voisins les
plus proches et les présenter dans un fichier constitué
d'une ligne de t uples de mots avec leur poids de similarité.
Nous utilisons la bibliothèque Annoy (Approximate
Nearest Neighbours Oh Yeah) [23] pour les requêtes de
similarité car l'implémentation actuelle du k -voisins plus
proche dans Word2Vec via le GenSim présente une
complexité linéaire par force brute dans le nombre de
documents indexés. Cependant , l’outil Annoy peut
trouver les voisins les plus proches approximatifs
beaucoup plus rapidement. Annoy a la capacité d'utiliser
des fichiers statiques en tant qu'index et c' est une
fonctionnalité importante qui nous aidera plus tard. La
similarité entre deux mots mot1 et mot2 est calculée avec
la similitude cosinusoïdale du vecteur de mot1 et du
vecteur de mot2, la formule est définie comme suit :
𝑐𝑜𝑠_𝑠𝑖𝑚 𝑤2𝑣 (𝑤𝑜𝑟𝑑 1,𝑤𝑜𝑟𝑑 2)= 𝑤𝑜𝑟𝑑 1• 𝑤𝑜𝑟𝑑 2
∥𝑤𝑜𝑟𝑑 1∥•∥𝑤𝑜𝑟𝑑 2∥(1)
Où mot 1 et mot 2 sont les vecteurs réels
représentant le mot 1 et le mot 2. Le choix du nombre de
voisins les plus proches est motivé par des études
antérieur es [5] [11] [14] .

Construction d'un Ego-Network. Le graphique de
l'ensemble du vocabulaire peut nous renseigner sur la
population entière et sa sous -population, mais il ne nous
en dit pas beaucoup sur les opportunités et les contraintes
auxquelles font fa ce les individus [12]. Pour induire des
sens pour chaque mot du graphe de similarité des mots,
nous devons regarder de plus près chaque mot en tant
qu'individu et ses voisins. Ceci est possible avec un réseau
d'Ego-Network où un seul ego représente : un mot
individu, des alters représentent les voisins du mot et les
arcs entre ces altères [12] [14] [5]. Comme on peut le voir
sur la figure 1, le réseau d u mot « ذكر » est : l ’ego est « ذكر »,
les alters sont « ذكر،ًاتقاكم،ًاكرمكم،ًوانثى،ًاقواال،ًذم،ًوأورد،ًأورد،ً
حكى », qui sont pondéré s avec la distance de similarité
cosinus. Nous utilisons les fichiers d'index fournis que
nous avons mentionnés dans la section 3.1 sous forme de
graph ique pour créer l'ego -Network à partir de ce s index.

Fig1. Ego -Network du mot ذكر avec ses 9 voisins plus
proche obtenue du modèle OSAC_CBOW.
3.2 L’Induction du Sens des Mots
Pour discriminer les sens d'un mot donné W, nous
clustérisons le graphe des mots connectés en utilisant
l'algorithme Chinese Whispers de manière similaire à [5]
[10] [14], chaque cluster représentant un sens d’un mot .ًLe
tableau 2 montre une instance des résultats de l'induction
pour le mot « «ًذكر, le mot est indui t en deux groupes (c'est –
à-dire deux sens) en utilisant le modèle OSAC_CBOW. Le
premier groupe { حكي،ًأورد،ًوأورد،ًذم،ًاقوال } représente le sens
« mentionner/ اورد », tandis que le second groupe {اتقاكم،ً
اكرمكم،ًوانثى } représente le sens « genre/جنس ».

TABLE 2
Clustering des voisins du mot « ًذكر » en deux groupes
représentant deux sens différents (genre et mention)
La construction du graphe des mots connectés repose sur
l'idée de relier deux voisins d'un mot, si l'un d'entre eux est
l'un des 200 plus proches voisins de l'autre mot.
L’algorithme 1 décrit le processus d’induction du sens des
mots, où l’entrée 𝑊𝑜𝑟𝑑 2𝑉𝑒𝑐_𝑚𝑜𝑑 è𝑙𝑒 est l'un des dix
embeddings modèles entrainés , et 𝐴𝑛𝑛𝑜𝑦 _𝑖𝑛𝑑𝑒𝑥𝑒𝑟 _𝑑𝑒_𝑤2𝑣
indexe le embedding modèle obt enu avec l'Annoy Indexer.
Notre algorithme est une variante de l'algorithme WSI
décrit dans [5] où, nous utilisons les fichiers d'Annoy
Index er comme graphe de similarité de mots, ce qui
montre que c'est plus rapide et plus facile.

DJAIDRI ET AL. INDUCTION DE SENS DES MOTS ARABE DANS UN ESPACE VECT ORIEL DE MOTS
4

Nous calculons le poids W en utilisant quatre équations :
𝑊=𝑠𝑖𝑚(𝑛,𝑛𝑛) (2)
𝑊=(𝑠𝑖𝑚(𝑚𝑜𝑡′,𝑛𝑛)+ 𝑠𝑖𝑚(𝑛,𝑛𝑛))/2 (3)
𝑊=(𝑠𝑖𝑚(𝑚𝑜𝑡′,𝑛𝑛)+𝑠𝑖𝑚(𝑚𝑜𝑡′,𝑛)+𝑠𝑖𝑚(𝑛,𝑛𝑛))/3 (4)
𝑊=𝑠𝑖𝑚(𝑚𝑜𝑡′,𝑛𝑛) (5)

Le choix de ce paramètre a une grande influence sur les
résultats du clustering . Le tableau 3 montre notre
évaluation de la granularité des inventaires des sens
donnés en utilisant l es quatre équation s décrite s
précédemment. On note : « S_T_F » pour décrire « sens très
fin », « S_F » pour décrire « sens fin », « S_T_G » pour
décrire « sens très grossier » et « S_G_G » pour décrire
« sens à gros grain ».
Pour le clustering , nous avons utilisé l'algorithme
Chines e Whispers [10] car il ne nécessite aucun paramètre,
nous ne faisons donc aucune hypothèse sur le nombre de
sens des mots.

TABLE 3
La granularité des sens obtenue en appliquant les
quatre équations pour les dix modèles

Eq2. Eq3. Eq4. Eq5.
Osac_CBOW S_T_F S_T_F S_T_F S_G_G
Osac_SG S_T_F S_T_F S_T_F S_G_G
Aracorpus_C S_T_F S_F S_F S_G_G
Aracorpus_S S_T_F S_F S_F S_G_G
Twr_CBOW S_T_F S_T_F S_T_G S_G_G
Twr_SG S_T_F S_T_F S_T_G S_G_G
Wiki_CBOW S_T_F S_T_F S_T_G S_G_G
Wiki_SG S_T_F S_T_F S_T_G S_G_G
WWW_CBOW S_T_F S_F S_T_G S_G_G
WWW_SG S_T_F S_F S_T_G S_G_G

4 EVALUATION
Afin d'évaluer l'approche présentée dans cet article, nous
utiliserons notre propre jugement de ce que nous avons obtenu, car, pour l'arabe, nous ne connaissons aucune
métho de d'évaluation pour l’approche de l’induction de
sens des mots , et nous ne pouvons pas calculer la précision
et le rappel de l’ approche proposée car le fichier Gold –
standard de la langue arabe n'est pas encore réalisé .
Nous avons construit un inventaire de sens pour les
1000 premiers mots de chaque modèle construit des Word
Embeddings , la durée de construction de l'inventaire des
sens pour les dix modèles varie de 25 minutes minimum à
40 minutes maximum par modèle. Ensuite nous avons
choisi au hasard deux mots qui ont plus d’un seul sen s
« العربية » et « العالم ».
Nous avons comparé les résultats pour six modèles
OSAC, AraCorpus et WWW de AraVec pour les modèles
CBOW et Skip -Gram .
Les figures Fig 2 et Fig 3 présente nt les résultats obtenus .
Pour chacun des six modèles, il existe un ou plusieurs
clusters de sens, chaque cluster (cercle) représente quatre
mots arabes dont le sens est proche ainsi leur distance de
similarité avec le mot « العربية » ou « العالم ». Chaque cluster
signifie un ou plusieurs sens probables . Par exemple, pour
le motًً« العربية » : en utilisant le modèle « OSAC C -BOW »
, le mot a deux sens différent « les nations » et « la
langue ».

Fig2. Les clusters de sens du mot « العربية » pour les six
modèles.

DJAIDRI ET AL. INDUCTION DE SENS DES MOTS ARABE DANS UN ESPACE VECT ORIEL DE MOTS
5

Fig3. Les clusters de sens du mot « العالم » pour les six
modèles.

Nous avons remarqué dans les résultats obtenus, qu’il y a
des clusters qui peuvent signifier plusieurs sens possibles ,
comme par exemple, pour le mot « العالم » ; en utilisant le
modèle OSAC Skip -Gram , nous avons obtenu deux cluster
de sens, le premier cluster signifie « le monde
géographique » , or que le deuxième cluster peut signifier
deux sens à la fois « le monde » et « le savant », pour
induire lequel de s sens est employé dans ce cluster , il faut
prendre plus que quatre mots dans le cluster.

5 CONCLUSION
Nous avons présenté dans cet article une nouvelle approche
d’induction des sens des mot arabe en utilisant des modèles
de Word Embeddings qui représ entent les mots dans un
espace vectoriel. Tout d'abord, nous avons construi t des
modèles Embeddings pour la langue arabe en utilisant les
corpus arabes disponibles (OSAC et AraCorpus) , ensuite
nous avons utilis é ces modèle s pour induire des sens pour
n’importe quel mot du vocabulaire en clustérisant le graphe
des mots connectés à l’aide de l’algorithme Chinese Whispers.
La construction du graphe de mots connectés pour un mot
donné est basée sur l'idée de rel ier deux voisins d'un mot W si l'un d'entre eux est l'un des K plus proches voisins pour
l'autre mot. Nous obtenons les k -plus proches voisins en
utilisant l'indexeur de l’outil Annoy qui peut trouver
approximativement les voisins les plus proches plus
rapidement que la fonction de similarité du GenSim .
Nos résultats sont prometteurs, nous pouvons observer
que le choix des corpus et le prétraitement sont deux
étapes importantes, à ce stade, nous ne pouvons pas dire
lequel des modèles CBOW ou Skip -gram est meilleur pour
induire des sens des mots arabes. Cependant, l'utilisation
conjointe des deux modèles peut donner de meilleurs
résultats .
6 REFERENECES
1. Yoshua Bengio, Réjean Ducharme, Pascal Vincent, and
Christian Janvin, “A neural probabilistic language model ”, The
Journal of Machine Learning Research, 2003.
2. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean,
“Efficient estimation of word representations in vector space ”,
CoRR, (2013)
3. Dai Quoc Nguyen, Dat Quoc Nguyen, Ashutosh Modi, Stefan
Thater, Manfred Pinkal “A Mixture Model for Learning Multi –
Sense Word Embeddings ” Proceedings of the 6th Joint
Conference on Lexical and Computational Semantics (*SEM
2017), pages 121 –127, Vancouver, Canada, August 3 -4, 2017.
4. Ignacio Iacobacci, Mohammad Taher Pilehvar, and Roberto
Navigli. “Embeddings for word sense disambiguation: An
evaluation study ”. 2016
5. Pelevina Maria , Arefiev Nikolay , Biemann Chris , Panchenko
Alexander ," Maki ng Sense of Word Embeddings" Proceedings
of the 1st Workshop on Representation Learning for NLP,
August, 2016
6. Motaz K. Saad and Wesam Ashour, "OSAC: Open Source
Arabic Corpus", 6th ArchEng International Symposiums,
EEECS’10 the 6th International Symposium on Electrical and
Electronics Engineering and Computer Science, European
University of Lefke, Cyprus, 2010.
7. Abdelal i, A., Cowie, J., &Soliman, H. “ Building a modern
standard Arabic corpus. ” Paper presented at the workshop on
computational modeling of lexical acquisition, the split
meeting. Croatia, 25 -28 July 2005 .
8. Abu Bakr Soliman, Kareem Eissa, Samhaa R. El -Beltagy, "
AraVec: A set of Arabic Word Embedding Models for use in
Arabic NLP ",3 rd International Conference on Arabic
Computational Linguistics, ACLing 2017, Dubai, United Arab
Emirates,5 -6 November 2017 .
9. R. Rehurek and P. Sojka, “Software framework for topic
modelling with large corpora,” in In Proceedings of the LREC
2010 Workshop o n New Challenges for NLP Frameworks,
2010.
10. Chris Biemann, “Chinese Whispers: An Efficient Graph
Clustering Algorithm and Its Application to Natural Language
Processing Problems”. In Proceedings of the First Workshop on
Graph Based Methods for Natural Langu age Processing, pages
73–80, New York City, USA, 2006.
11. Alexander Panchenko. “Similarity measures for semantic
relation extraction. ” Ph.D. thesis, Universite catholique de
Louvain, Louvain -la-Neuve, Belgium , 2013.
12. Hanneman, Robert A. and Mark Riddle. Intr oduction to social
network methods. Riverside, CA: University of California,

DJAIDRI ET AL. INDUCTION DE SENS DES MOTS ARABE DANS UN ESPACE VECT ORIEL DE MOTS
6
Riverside (published in digital form at
http://faculty.ucr.edu/~hanneman/ ) , 2005.
13. Chris Biemann. "Turk Bootstrap Word Sense Inventory 2.0: A
Large -Scale Resource for Lexical Substitution". In Proceedings
of the 8th International Conference on Language Resources and
Evaluation, pages 4038 –4042, Istanbul, Turkey.2012 .
14. Alexander Panchenkoz, Eugen Ruppertz, Stefano Faralliy,
Simone Paolo , Ponzettoy and Chris Biemannz ''Unsupervise d
Does Not Mean Uninterpretable: The Case for Word Sense
Induction and Disambiguation'‘, EACL,2017 .
15. Kwong O.Y. “Word Senses and Problem Definition. ” In: New
Perspectives on Computational and Cognitive Strategies for
Word Sense Disambiguation. Springer Briefs in Electrical and
Computer Engineering. Springer, New York, 2013.
16. David Pinto, Paolo Rosso, Héctor Jiménez -Salazar, UPV -SI:
word sense induction using self -term expansion, Proceedings of
the 4th International Workshop on Semantic Eval uations,
p.430 -433, June 23 -24, Prague, Czech Republic , 2007 .
17. Daniel Jurafsky, James H. Martin,"Speech and Language
Processing.", chapter 17, Draft of November 7, 2016.
18. Marek Kozlowski, Henryk Rybinski,"Word Sense Induction
with Closed Frequent Termsets", Computational Intell igence,
Volume 33, Number 3, 2017 .
19. Anne Cocos, Marianna Apidianaki,and Chris Callison -Burch,
"Word Sense Filtering Improves Embedding -Based Lexical
Substitution", Proceedings of the 1st Workshop on Sense,
Concept and Entity Representations and their applic ations,
pages 110 –119, Valencia, Spain, April 4 2017 .
20. S Bartunov, D Kondrashkin, A Osokin, D Vetrov,"Breaking
sticks and ambiguities with adaptive skip -gram", Artificial
Intelligence and Statistics, 130 -138, 2016.
21. Alexander Panchenko,"Best of Both Worlds: Making Word
Sense Embeddings Interpretable", 10th edition of the Language
Resources and Evaluation Conference, Portorož, Slovenia,
2016
22. Ibrahim Abu El -Khair," Abu El -Khair Corpus: A Modern
Standard Arabic Corpus", International Journal of Recent
Trends in Engineering & Research (IJRTER) Volume 02, Issue
11; November – 2016.
23. https://markroxor.github.io/gensim/static/notebooks/anno
ytutorial.html

Similar Posts