Stage Machine Learning (Machine Learning Internship) - Réf: T

Nantes, France
Engineering / R&D – Data Quality
Internship
WHO WE ARE:

Talend is a leader in cloud data integration and data integrity.
 
We are a global company with offices in Redwood City, Paris, London, Bonn, Beijing, Tokyo, Singapore, Sydney, and Bangalore.  Our customers are pioneers/innovative leaders in their market when it comes to data and cloud projects. We are proud to count Domino’s, the world’s largest pizza company, Euronext, the #1 stock exchange in Europe, and HP Inc., a leading IT company, as Talend customers.
 
We enable companies to transform their business by delivering trusted data at the speed of business. Talend offers a suite of apps for data integration and integrity that brings data, people and technology together by generating end-to-end data pipelines.
 
Customers can collect data; transform it to power analytics; govern it from end-to-end; and share it across internal and external stakeholders. They can work across systems and across environments: in the cloud and on-premises.
 

Apprentissage de dépendances fonctionnelles à partir d’un grand corpus de données

Mots clés : Qualité de données, dépendances fonctionnelles, machine learning

Encadrant: Tarek Benkhelif tbenkhelif@talend.com

Profil candidat(e):
           BAC +5 en fin de cycle école d’ingénieur ou Master 2 en université, spécialisé(e) en informatique et/ou mathématiques appliquées.
           Une expérience pratique en apprentissage automatique (de préférence avec Python) est requise. La maîtrise de l’anglais est exigée.
           Expériences souhaitées : Calcul distribué, base de données graphes, librairies Pandas et Scikit-learn.
           Début du stage souhaité : Février-Avril 2020.
           Durée : 5-6 mois.

Contexte:
Les tableaux HTML sur les pages Web (“web tables”) ont été utilisées avec succès comme source de données pour plusieurs applications. Elles peuvent être extraites de pages Web à grande échelle, ce qui donne lieu à des millions de corpus de tableaux Web.
De nombreux travaux (Cafarella et al. 2018), (Lehmberg 2019), (Zhang and Balog 2019) ont prouvé qu’il était possible d’obtenir des connaissances par l’intégration de tableaux Web avec une base de connaissances, ce qui permet l’interprétation sémantique de leur contenu ainsi que leur profilage thématique. On identifie communément 3 grandes tâches pour exploiter de telles données : (1) L’extraction de tables est le processus d’extraction, de classification et de stockage de données tabulaires dans un format cohérent, aboutissant finalement à un corpus de tables. (2) L’interprétation des tableaux englobe les méthodes qui visent à rendre les données tabulaires exploitables par les machines. (3) L’augmentation de bases de connaissances, consiste à générer de nouvelles instances de relations à l’aide de données tabulaires et à mettre à jour les bases de connaissances avec l’information extraite.
Ces tâches constituent un défi, car le volume et la variété des données sont beaucoup plus importants que dans les scénarios traditionnels d’intégration de données, dans lesquels seul un petit nombre de sources de données est intégré. Par exemples, Le système WebTables (Cafarella et al. 2008) extrait 14,1 milliards de tableaux HTML et trouve 154 millions de tableaux de haute qualité (1,1%). Lehmberg et ses collaborateurs (Lehmberg et al. 2016) ont extrait 233 millions de tables des matières de Common Crawl 2015 (2,25% de tous les tableaux). Le snapshot actuel de Wikipédia contient plus de 3,23 millions de tableaux tirés de  articles (Fetahu, Anand, and Koutraki 2019).

Objectif:
On peut considérer deux catégories de types de colonnes dans les tables de données : atomique et sémantique. Les types atomiques tels que booléen, entier et chaîne de caractères fournissent des informations de base de type bas niveau sur une colonne. D’autre part, les types sémantiques tels que lieu, date de naissance et nom transmettent des informations plus fines et plus riches sur les valeurs des colonnes.
La détection des types sémantiques peut être un outil puissant et, dans de nombreux cas, elle peut être essentielle pour améliorer l’efficacité des systèmes de préparation et d’analyse des données.
Les dépendances fonctionnelles (DF) sont des contraintes entre deux attributs, elles sont essentielles dans les tâches de préparation des données, telles que le profilage et le nettoyage des données.
L’objectif du stage sera d’exploiter les tableaux Web dans le but de construire une base de connaissances qui prend la forme d’un graphe, où chaque nœud représente un type sémantique et chaque arc représente l’existence d’une DF entre deux types sémantiques. L’approche proposée comportera 4 phases : L’extraction de tables relationnelles, la découverte de type sémantiques, la découverte de dépendances fonctionnelles et enfin, la construction du graphe de dépendances.
Le graphe produit à l’issue de ce travail sera utilisé dans les outils Talend tels que Talend Data Preparation ou Talend Pipeline Designer afin d’identifier des anomalies, puis de suggérer des corrections à l’utilisateur.

Bibliographie:
Cafarella, Michael, Alon Halevy, Hongrae Lee, Jayant Madhavan, Cong Yu, Daisy Zhe Wang, and Eugene Wu. 2018. “Ten Years of Webtables.” Proceedings of the VLDB Endowment 11 (12). VLDB Endowment: 2140–9.
Cafarella, Michael J, Alon Halevy, Daisy Zhe Wang, Eugene Wu, and Yang Zhang. 2008. “Webtables: Exploring the Power of Tables on the Web.” Proceedings of the VLDB Endowment 1 (1). VLDB Endowment: 538–49.
Fetahu, Besnik, Avishek Anand, and Maria Koutraki. 2019. “TableNet: An Approach for Determining Fine-Grained Relations for Wikipedia Tables.” arXiv Preprint arXiv:1902.01740.
Lehmberg, Oliver. 2019. “Web Table Integration and Profiling for Knowledge Base Augmentation.” PhD thesis.
Lehmberg, Oliver, Dominique Ritze, Robert Meusel, and Christian Bizer. 2016. “A Large Public Corpus of Web Tables Containing Time and Context Metadata.” In Proceedings of the 25th International Conference Companion on World Wide Web, 75–76. International World Wide Web Conferences Steering Committee.
Zhang, Shuo, and Krisztian Balog. 2019. “Web Table Extraction, Retrieval and Augmentation.” In Proceedings of the 42nd International Acm Sigir Conference on Research and Development in Information Retrieval, 1409–10. ACM.
AND NOW, A LITTLE ABOUT US:

Talend has received some pretty impressive accolades along the way:
- "2018 Best Public Cloud Computing Companies To Work For" by Glassdoor
- Named a Leader for Data Integration Tools in the Gartner Magic Quadrant
- Named a Leader in Big Data Fabric for the Forrester Wave
- Ranked in the DBTA “100 Companies that Matter Most in Data”
- Listed in the CRN Big Data 100 Companies

We are passionate about helping companies become more data driven; and, if we can be honest, we are all geeks at heart who pride ourselves on the vibrant company culture that we have built.


As a global employer, at Talend, we believe our success depends on diversity, inclusion and mutual respect among our team membersWe seek to recruit, develop and retain the most talented people from a diverse candidate pool. We are committed to making all employment decisions on the basis of business need, merit, capability and equality of opportunity. All qualified applicants will receive consideration for employment without regard to race, color, religion, sex, sexual orientation, gender identity, or national origin.