Utiliser Sqoop pour charger des données dans HDFS

C'est pas un scoop, mais sachez tout de même que Sqoop est un projet de la fondation Apache. Je sais c'est une blague facile... sqoop et hdfsPassons et intéressons-nous plutôt à cet outil permettant une cohabitation des bases de données (Oracle, mysql…) avec la plateforme Hadoop (Le nom Sqoop est un mot valise constitué de sql et de hadoop) Ainsi, Sqoop (interface en ligne de commande) permet d’exporter des données depuis la base de données et de procéder aux traitements en exploitant le cluster Hadoop. En gros, Sqoop prend des données à la source et les écrit dans une destination. On ne peux pas faire plus simple ! sqoop comment ça marche   A noter également que Sqoop embarque les connecteurs JDBC pour permettre la connexion à la base distante. Je ne vais pas vous présenter toutes les options ou subtilités  de l'outil, mais simplement vous présenter un cas simple d'utilisation. Si vous souhaitez approfondir l'utilisation de Sqoop , la documentation est bien faite et les exemples nombreux sur internet.

 Un exemple simple

sqoop import --connect jdbc:mysql://<hote_base_mysql>:3306/<nom_de_la_base> --password "xxx" --username "xxx" --table diagnostic --target-dir /user/mapr/test              

Nicolas Housset

Passionné d'informatique, je suis Consultant et expert technique SAS VIYA, également co-fondateur de la société Flexcelite. Spécialisé dans les technologies SAS (Viya, 9.4) et les infrastructures associées (Linux, Hadoop, Azure), ce blog est mon espace pour partager mes mémos techniques et retours d'expérience.