En route vers la révolution Big Data
Avec la croissance des utilisateurs d'Internet, toujours plus mobiles, mais aussi l'usage des réseaux sociaux et les flux M to M, des quantités massives de données structurées et surtout non structurées sont produites en permanence : c’est le phénomène du Big Data.
Les principaux enjeux sont les suivants :
- Les volumes de données croissent de façon exponentielle, rendant le stockage et le traitement coûteux et complexes. En 2008, la quantité de données accessibles sur Internet s’élevait à 480 milliard de Go. En 2010, il y en avait 800 milliards, plus que la totalité de ce que l'humanité avait écrit, imprimé, gravé, filmé ou enregistré de sa naissance jusqu'en 2003 ; et d’ici 2020, il y en aurait jusqu’à 50 fois plus. [1]
- Les entrepôts de données classiques ne sont pas capables d’analyser ces volumes de données dans des délais compatibles avec les exigences des métiers, et encore moins en temps réel. Sur Facebook, plus de 30 milliards de contenus (liens, articles, photos, notes) sont échangés chaque mois.
- Les interfaces de visualisation des données et des analyses doivent s’adapter à la variété et à la volumétrie nouvelles des données produites. Par exemple, l’analyse des données issues des sites de covoiturage peut permettre d’anticiper le trafic routier chaque jour ; mais c’est à la condition préalable de savoir traiter et analyser des volumes de données importants sous des formats variés, puis de les restituer sous une forme utilisable.
Dans ce contexte, il est donc indispensable de qualifier précisément les besoins des utilisateurs (directions marketing, direction financières par exemple) et de mettre en perspective les coûts et délais de stockage et d’analyse avec les revenus que l’on peut en attendre. Avec des solutions traditionnelles, il y a souvent peu de retour sur investissement identifiable. Il convient alors d’adopter des solutions innovantes de traitement du Big Data, qui s’appuient à la fois sur les technologies issues du cloud computing et les solutions de parallélisation des traitements.
Cependant, le pré-requis technique pour déployer et utiliser ces solutions innovantes de traitement et de stockage est assez élevé, car les experts du dimensionnement, du déploiement et de l’exploitation de ces données ne sont pas légion. Du coup, l’utilisation de ces Solutions as a Service prend tout son sens. Il existe déjà, majoritairement aux Etats-Unis, des fournisseurs de solutions de Big Data (basées souvent sur le framework Hadoop) facturées à l’usage. Ces fournisseurs sont soit des opérateurs d’infrastructures de cloud (Amazon Web Services, Microsoft Azure), soit des pure players fournisseurs de services Hadoop.
Etudes de cas : Netflix et une banque américaine majeure.
Pour illustrer le propos, voici deux exemples de mise en oeuvre de technologies de Big Data :

Netflix, distributeur de VoD a résolu son problème de traitement des fichiers logs grâce aux solutions de Big Data. Le volume de ces fichiers ayant rapidement augmenté ces dernières années, il fallait plus de 24 heures pour traiter, analyser et visualiser la valeur d'un jour de fichier log. Aujourd'hui, avec la mise en œuvre d'une approche exploitant la technologie Hadoop une heure suffit pour faire le traitement nécessaire.
Une banque américaine au portefeuille de plus de 100 millions de clients devait traiter un volume de données équivalent à 2.5 Pétaoctets/mois (transactions par cartes, prêts immobiliers ou à la consommation). Ces volumes augmentant de plusieurs Téraoctets/ans, la banque s'est retrouvée face à un grave problème de traitement de ses données. Une technologie de Big Data va alors permettre d'identifier les risques induits par ce volume conséquent de données, anticiper les fraudes et gérer proactivement le capital.
[1] Source : http://jypronier.wordpress.com/category/bi/
Nabil Hammami

