[Liste-proml] Offre de thèse: Apprentissage de représentations binaires de similarités sémantiques

Amaury Habrard amaury.habrard at univ-st-etienne.fr
Sam 2 Avr 16:12:30 CEST 2016


Bonjour,

Veuillez trouver ci-dessous une offre de thèse au laboratoire Hubert 
Curien, UMR CNRS 5516, de l'université de Saint-Etienne.


Offre de thèse / PhD offer:
(English version below)


French version :
====================


Titre : Apprentissage de représentations binaires de similarités 
sémantiques sous contraintes

Directeurs de thèse : Christophe Gravier, Amaury Habrard

Unité de recherche d’accueil : Laboratoire Hubert Curien, UMR CNRS 5516

Mots Clefs : Deep Learning, Machine Learning, Natural Language 
Processing, Semantic Similarity, Word Embedding

Profil du candidat : Le/La candidat-e doit être titulaire d'un diplôme 
type Master de recherche ou équivalent en informatique avec de bonnes 
compétences en programmation. Des compétences en traitement de la 
langue, en apprentissage automatique, en statistiques ou en 
mathématiques seraient un plus.

Envoi des candidatures (Notes de master + CV + lettre de motivation + 
lettre(s) de recommandation(s)) avant le 25 avril 2016 à 
hcurien-phd-deepnlp at univ-st-etienne.fr

----------------------------------------------------------------------------------------

Description du sujet

Dans le domaine informatique, beaucoup d'applications utilisent des 
notions de similarité pour construire des algorithmes permettant 
d'améliorer des techniques de détection ou de classification. Par 
exemple, en traitement automatique de la langue, il est admis que les 
approches capables de reconnaître des entités nommées ont besoin de 
fonctions de similarité capables de comparer des termes dans le contexte 
d'un document donné. Ces notions de similarité ont besoin d'exprimer 
plusieurs types de relations sémantiques : synonymie, hyponymie, 
méronymie, ...

Dans ce contexte, deux verrous forts se posent alors. Tout d'abord, en 
considérant le nombre de données à traiter et aux différents types de 
relation existantes - il existe par exemple plus 160000 relations 
sémantiques dans l'ontologie liée à la base de données Wordnet - il est 
indispensable de disposer d'approches efficaces permettant de passer à 
l'échelle lorsque l'on a besoin de comparer plusieurs objets entre eux. 
D'autres part, il est nécessaire de réaliser la définition de la 
similarité sémantique automatiquement en l'apprenant directement à 
partir de données. Ce deuxième point exige de déterminer comment 
apprendre, dans quel contexte, avec combien de données.

Nous proposons d'étudier l'apprentissage de représentations binaires 
permettant d’aboutir à un calcul très rapide de similarité sémantique 
entre objets. La démarche scientifique suivie sera la suivante : on 
s'intéressera d'abord à fournir un cadre permettant d'apprendre des 
représentations binaires partageant un même espace pour des mots issus 
de connaissances distribuées et taxonomiques. Ensuite on étudiera 
l'impact de ces représentations pour le passage à l'échelle. Pour ces 
objectifs, on étudiera en particulier des approches d'apprentissage de 
métriques et d'apprentissage de représentation par réseaux de neurones 
convolutifs.

----------------------------------------------------------------------------------------




English version :
====================

Title : Learning binary representations of semantic similarities under 
constraints

Supervisors : Christophe Gravier, Amaury Habrard

Laboratory : Laboratoire Hubert Curien, UMR CNRS 5516

Keywords : Deep Learning, Machine Learning, Natural Language Processing, 
Semantic Similarity, Word Embedding

Expected profile : You have a Master degree in Computer Science and you 
have good programming skills. Some skills in natural language 
processing, machine learning, statistics or mathematics would be a plus.

How to apply : Send CS Master marks + CV + motivation letter + 
recommendation letter(s) before April, 25th 2016 by email at 
hcurien-phd-deepnlp at univ-st-etienne.fr

----------------------------------------------------------------------------------------

Description du sujet

Similarity measures are of the utmost practical interest for 
classification algorithms.
For instance, in Natural Language Processing (NLP), most tasks not only 
rely on syntactic similarities but also required to capture language 
regularities in order to compare words in a document. Language 
regularities between words encode the semantic relationship that two 
words have share -- this includes synonymy, hyponymy, meronymy, etc.

In this context, there are two main problems to cope with. The first one 
is related to the volume of data and the number of existing language 
regularities for learning language representation -- they are 160,000 
semantic relations instances in Wordnet for instance. It is therefore 
highly desirable to find scaling solutions for pairwise word comparison. 
Moreover, the state-of-the-art techniques address automatic semantic 
similarity through machine learning. The second challenge is therefore 
to provide better insights on how to learn, under which constraints, in 
which context, and with which amount of data.

In this project we propose to study learning binary language 
representation for providing a lightning-fast semantic similarity 
computation. The expected scientific methodology at the time of writing 
is as follows: we will first look for a joint binary space (a joint 
Hypercube) for word occurrences in a corpora (traditional word embedding 
technique) and their associated occurrences within a taxonomy. We will 
afterwards study the impact of such binary representation for 
scalability. The primary approaches of interest for addressing these 
tasks will be metric learning and deep learning, especially 
convolutional neural networks.


----------------------------------------------------------------------------------------



Communication en relation / Related papers :
=============================================

Liste courte de travaux des encadrants en relations / Short list of 
related works by supervisors :

Bellet, Aurélien, Amaury Habrard, and Marc Sebban. "A survey on metric 
learning for feature vectors and structured data." arXiv preprint 
arXiv:1306.6709 (2013).

Bellet, Aurélien, Amaury Habrard, and Marc Sebban. "Metric Learning." 
Synthesis Lectures on Artificial Intelligence and Machine Learning 9.1 
(2015): 1-151.

Subercaze, Julien, Christophe Gravier, and Frederique Laforest. "On 
metric embedding for boosting semantic similarity computations." 
Association of Computational Linguistics. 2015.

Bamba, Patrick, et al. "The twitaholic next door.: scalable friend 
recommender system using a concept-sensitive hash function." Proceedings 
of the 21st ACM international conference on Information and knowledge 
management. ACM, 2012.

----------------------------------------------------------------------------------------

Bibliographie / Bibliography :

Bordes, Antoine, et al. "Learning structured embeddings of knowledge 
bases." Conference on Artificial Intelligence. No. EPFL-CONF-192344. 2011.

Wu, Fei, et al. "Structured Embedding via Pairwise Relations and 
Long-Range Interactions in Knowledge Base." Twenty-Ninth AAAI Conference 
on Artificial Intelligence. 2015.

Iacobacci, Ignacio, Mohammad Taher Pilehvar, and Roberto Navigli. 
"SensEmbed: learning sense embeddings for word and relational 
similarity." Proceedings of ACL. 2015.

Hu, Zhiting, et al. "Entity Hierarchy Embedding." Proceedings of the 
53rd Annual Meeting of the Association for Computational Linguistics and 
the 7th International Joint Conference on Natural Language Processing 
(ACL-IJCNLP). Vol. 1. 2015.

Collobert, Ronan, et al. "Natural language processing (almost) from 
scratch." The Journal of Machine Learning Research 12 (2011): 2493-2537.

Wang, Zhen, et al. "Knowledge Graph and Text Jointly Embedding." EMNLP. 
2014.

Erin Liong, Venice, et al. "Deep hashing for compact binary codes 
learning." Proceedings of the IEEE Conference on Computer Vision and 
Pattern Recognition. 2015.

Rothe, Sascha, and Hinrich Schütze. "AutoExtend: Extending word 
embeddings to embeddings for synsets and lexemes." arXiv preprint 
arXiv:1507.01127 (2015).


More information about the Liste-proml mailing list