Les ‘data lakes’ : la clé pour ne pas inonder vos clients d’informations inutiles

23 septembre 2019

Les entreprises ont désormais à leur portée toute une manne de données hétéroclites non structurées : commentaires sur les réseaux sociaux, parcours de navigation sur site web, documents divers, fichiers vidéo ou audio et, de plus en plus, données issues d’objets connectés. Pour transformer ces flux en informations intelligibles et exploitables, elles ont besoin d’un endroit qui coordonne et agrège ces volumes de données croissants. C’est toute la valeur ajoutée des ‘data lakes’.

Commençons par définir ce qu’est un ‘data lake’, terme étroitement lié à la montée en puissance des Big Data. Il s’agit d’un réservoir de données, généralement d’une certaine envergure, qui contrairement aux bases de données classiques, centralise des données hétéroclites dans leur format natif, sans restriction de taille ou de structure. Aucun schéma spécifique de données n’est défini avant qu’un outil d’analyse avancée (de type Hadoop par exemple) ne puisse interroger ces données et en extraire uniquement les informations jugées pertinentes. D’où la notion de lac de données où cohabitent diverses espèces de poissons et où chacun, selon le type de canne à pêche et d’hameçon utilisés, pourra affiner sa prise.

Pourquoi recourir à cette technologie ? Une base de données traditionnelle ne suffit-elle pas ?  En se limitant à une base de données transactionnelle classique, reprenant par exemple l’historique des ventes, les entreprises restreignent considérablement leur champ de vision sur leurs clients et sur leurs performances internes. Les ‘data lakes’, en agrégeant sources de données structurées (provenant de vos bases de données existantes) et non structurées et en les rendant ‘consommables’ par des outils analytiques puissants de plus en plus accessibles, étendent précisément ce champ de vision. Ils permettent ainsi d’améliorer la connaissance client et/ou d’optimiser l’efficacité opérationnelle. En obtenant une vue à 360° du client, intégrant par exemple les commentaires qu’il a laissé sur votre site, sur votre compte Facebook ou lors d’un contact avec votre service support, vous pourrez lui donner des conseils pertinents, personnaliser votre site web selon ses besoins ou lui faire une offre commerciale sur mesure.


Plus flexible qu’un datawarehouse

James Dixon, le directeur technologique de l’entreprise Pentaho, à qui on attribue la paternité du terme ‘data lake’, utilisait l’image du lac de données, rassemblant les données dans leur état naturel sans traitement préalable, en opposition à l’approche classique du ‘datawarehouse’ qui serait en fait davantage une bouteille d’eau, contenant des données nettoyées et structurées pour répondre à des besoins de reporting spécifiques sur telle ou telle tendance.

L’avantage du ‘data lake’ est précisément d’être agnostique par rapport à une finalité analytique précise. Comme les données brutes ne sont transformées qu’au moment même de l’analyse, le ‘data lake’ offre aux utilisateurs business davantage de flexibilité pour réaliser des analyses ad hoc, en remontant parfois loin dans le temps et surtout, en intégrant à leurs sources d’analyse des données externes (lire encadré). Dans le monde économique actuel où les changements s’accélèrent, des données qui semblaient inutiles hier peuvent très bien se relever précieuses demain. Le ‘data lake’ permet d’aller les repêcher à tout moment.

Pour qu’un ‘data lake’ réalise ses promesses, il est toutefois important de filtrer l’eau qui l’alimente, tout comme de bien le dimensionner pour répondre à des besoins business précis. Comme le souligne le bureau d’analystes Gartner, trop d’entreprises ont commis l’erreur de vouloir créer un ‘data lake’ à l’échelle de toute l’entreprise. Une pêche de qualité devenait impossible dans un tel fourre-tout.

Pour qu’un ‘data lake’ réalise ses promesses, il est important de bien filtrer l’eau qui l’alimente, tout comme de bien le dimensionner pour répondre à des besoins business précis.

Créer de la valeur avec des données internes et externes

Le  ‘data lake’ agrège des données brutes dans des formats divers afin de les préparer pour des systèmes d’analyse descriptive ou de diagnostic – comment fonctionnent mes systèmes ou produits ? – ou d’analyse prédictive voire prescriptive -  détecter des problèmes imminents ou identifier des mesures pour corriger des problèmes futurs.

Les sources de données brutes ne doivent pas se limiter à l’entreprise (un historique de maintenance de telle ou telle machine ou des mises à jour à tel ou tel produit) mais peuvent inclure des données externes comme des listings de prix de concurrents, des conditions météorologiques, des états de stocks de fournisseurs ou partenaires, etc. 

contenu associé