logo Trimane
CDI

Factorisation des classes sémantiquement équivalentes dans un Data Lake

Trimane • Puteaux (92)

Postuler

À propos

Fondée en 2005, TRIMANE est un cabinet de conseil et une société de service spécialisée en Data Intelligence (BI et Big Data), notre mission est de créer de la valeur à partir des données disponibles dans les entreprises, en s'appuyant sur des approches algorithmiques innovantes, des méthodologies spécifiques et de nombreuses technologies. En tant que spécialiste Data, nous sommes reconnus pour le très haut niveau d'expertise de nos consultants et de notre retour d'expérience en la matière. Nous accompagnons nos clients du secteur public ou privé sur des prestations de Conseil, MOA et MOE, autour du traitement et l'analyse des data, quel que soit l'environnement technique (BI, Big Data, Cloud, Machine Learning, Deep Learning, NLP, etc.) ou sur les aspects méthodologiques (Gestion de projet, Agile, DataOps, stratégie Data Gouvernance, organisation Data Driven…). Société à taille humaine, nous recrutons, avant tout, des personnes passionnées désirant intégrer une vraie communauté et construire ensemble une relation durable et de confiance. Rejoindre Trimane c'est : -> Un triple suivi de carrière avec vos référents technique, RH et commercial, -> Un accès en illimité à nos plateformes de formations, des certifications, des formations en interne autour en BI, Big Data, Machine Learning, Blockchain, développement web et logiciels software, -> Des ateliers de veilles technologiques sur des sujets innovants, -> Un CSE avec des afterworks, des escapes games, et autres activités d'équipe, -> Participer à l'aventure The Blockchain Group, un groupe d'entrepreneurs, composé de différentes entités proposant des offres de services complémentaires (digital, blockchain, Data...) et des projets communs.

Le poste

Un data Lake regroupe des ensembles de données brutes issues de différentes applications gérées de manière indépendante. Or ces données s'avèrent difficiles à exploiter dans des applications décisionnelles. Une solution à ce problème consiste à extraire les données décisionnelles du Data Lake puis à les réorganiser dans un Data Warehouse. Nous avons choisi un système NoSQL orienté document (OrientDB) pour gérer le Data Warehouse. Le Data Warehouse contient donc des classes d'objets extraites de plusieurs ensembles de données indépendants et il est fréquent que des objets « équivalents », c'est-à-dire de même sémantique mais de structures différentes, apparaissent. Ainsi, on dit que deux classes d'objets sont équivalentes si elles contiennent des données relatives aux mêmes entités (même sujet du monde réel). Dans le Data Warehouse, il est donc utile de regrouper les classes équivalentes en les représentant par une classe unique spécifiant la sémantique commune. Pour réaliser cette factorisation de nature sémantique, nous pouvons nous appuyer sur une ontologie établissant les correspondances entre les termes des classes équivalentes. Cette ontologie est établie à partir des spécifications fournies par des administrateurs de données apportant leur expertise métier. Le stagiaire Master devra proposer puis mettre en œuvre une solution permettant de factoriser les classes « équivalentes » dans une classe commune dans le Data Warehouse. Une démarche de recherche basée sur les travaux les plus récents est nécessaire pour aborder ce projet.

Profil recherché

Connaissances requises : - Bases de données relationnelles. - Business Intelligence. - Modélisation. - Programmation : Java et Python. - La connaissance du Machine Learning et des librairies de référence en apprentissage (exemple : Scikit-learn et Tensorflow) seraient un plus. - Des connaissances en Big Data, les bases NoSQL (MongoDB, OrientDB, etc.), web sémantique et l'intelligence artificielle seraient appréciées. Connaissances requises : BAC+5 en informatique (préparant un diplôme de master ou un diplôme d'ingénieur) - Motivé(e), autonome, curieux(se) dans la recherche appliquée. - Selon le profil de l'étudiant et sa motivation, ce stage peut déboucher sur la préparation d'un doctorat dans le cadre d'une bourse CIFRE.

En résumé

Société

Trimane

Contrat

CDI • Temps Plein

Expérience

Débutant

Diplôme

Aucun requis

Rémunération

Localisation

Puteaux (92)

Référence

1260788

Partager

Twitter facebook linkedin
Factorisation des classes sémantiquement équivalentes dans un Data Lake

Ce poste vous intéresse ?
Postulez

💬 Pour personnaliser votre message au recruteur cliquez ici !


En cliquant sur postuler, j'accepte que les informations saisies soient exploitées dans le cadre de la gestion des candidatures. Conformément à la loi "informatique et libertés", vous pouvez exercer votre droit d'accès aux données vous concernant et les faire rectifier en nous contactant: jobposting.pro/contact
En savoir plus sur notre politique de protection des données.