En 2017, les systèmes qui prennent en charge de grandes quantités de données, structurées et non structurées, vont continuer à se développer. Les plateformes permettront normalement aux personnes s’occupant des données d’assurer la gouvernance et la sécurité du Big Data, en donnant également aux utilisateurs finaux les moyens d’analyser ces données. Une fois arrivées à maturité, elles s’intégreront sans difficulté aux systèmes et aux normes informatiques des entreprises. Voici nos prédictions dans ce domaine pour l’année à venir.
Il est évidemment possible de mettre en oeuvre du machine learning et de réaliser des analyses de sentiments sur Hadoop, mais la première question posée généralement par les utilisateurs est : Quelle est la performance du SQL interactif ? SQL, après tout, reste le moyen dont dispose l’utilisateur métier pour utiliser les données dans Hadoop à des fins d’analyses exploratoires plus rapides ou de tableaux de bords de pilotage ré-utilisables. En 2017, les possibilités pour accélérer Hadoop vont se multiplier. Ce changement a déjà commencé, comme en témoigne l’adoption de bases de données hautes performances comme Exasol ou MemSQL, de technologie de stockage comme Kudu, ou encore d’autres produits permettant l’activation d’exécution de requêtes plus rapides.
Ces dernières années, nous avons vu plusieurs technologies se développer avec l’arrivée du Big Data pour couvrir le besoin de faire des analyses sur Hadoop. Mais pour les entreprises avec des environnements complexes et hétérogènes, les réponses à leurs questions sont réparties dans de multiples sources allant du simple fichier aux entrepôts de données dans le Cloud, de données structurées stockées dans Hadoop ou dans d’autres systèmes. En 2017, les clients demanderont à analyser toutes leurs données. Les plateformes agnostiques au niveau des données comme au niveau des sources de données se développeront, tandis que celles conçues spécifiquement pour Hadoop ne pourront pas être déployées pour tous les cas d’utilisation et tomberont dans l’oubli. La fin de Platf oraconstitue un premier signe de cette tendance.
Un lac de données est similaire à un réservoir artificiel. Il est nécessaire de construire un barrage à l’extrémité du lac (créer un cluster), puis le laisser se remplir d’eau (de données). Ensuite, seulement, on pourra utiliser les données à diverses fins, comme l’analyse prédictive, le Machine Learning, la cybersécurité, etc. Jusqu’à présent, le remplissage du lac constituait une fin en soi. Ce ne sera plus le cas en 2017. Pour obtenir plus rapidement des réponses, les entreprises voudront utiliser leur lac d’une manière plus agile et reproductible. En 2017, cela évoluera au fur et à mesure de l’adoption d’Hadoop dans les entreprises.
Hadoop est devenu une technologie multi usage pour faire de l’analyse ad hoc. Elle est même utilisée pour du reporting opérationnel journalier (d’habitude géré via des entrepôts de données). En 2017, les entreprises tiendront compte de cette diversité de besoins en favorisant l’architecture adaptée à chaque cas d’usage. Elles étudieront une multitude de facteurs, tels que les profils utilisateurs, les questions, les volumes, la fréquence d’accès et plus, avant de s’engager sur une stratégie de données. Et ces stratégies elles-mêmes combineront les meilleurs outils de préparation de données en self-service, le Core Hadoop, et les plateformes d’analyse utilisées directement par les utilisateurs finaux, pour que ceux-ci puissent les reconfigurer en fonction de l’évolution de leurs besoins.
Gartner définit le Big Data en utilisant les 3 V : gros Volume, grande Vélocité, grande Variété des données. Bien que ces trois V évoluent, c’est la Variété qui s’impose comme le principal moteur des investissements dans le Big Data. Cette tendance va s’accentuer, puisque les entreprises cherchent à y intégrer davantage de sources et se concentrent sur le long terme. Des fichiers JSON sans schéma prédéfini aux types imbriqués dans d’autres bases de données (relationnelles et NoSQL) en passant par les données non plates (Avro, Parquet, XML), les formats de données se multiplient et les connecteurs natifs deviennent indispensables. En 2017, les plateformes d’analyse seront évaluées en fonction de leur capacité à fournir une connexion directe vers ces sources disparates.
Dans un sondage mené auprès de Data Architect, de responsables informatiques et d’analystes, près de 70% des répondants ont privilégié Apache Spark par rapport à MapReduce, qui est orienté batch et ne se prête ni aux applications interactives ni au traitement de flux en temps réel. Ces grandes capacités de traitement sur des environnements Big Data ont fait évolué ces plateformes vers des utilisations de calculs intensifs pour du Machine Learning, de l’IA, et des algorithmes de graphe. Microsoft Azure ML tout particulièrement a décollé grâce à sa facilité de mise en oeuvre et son intégration avec les plateformes Microsoft existantes. L’ouverture du ML au plus grand nombre conduira à la création de plus de modèles et d’applications qui généreront des peta-octets de données. Tous les regards seront alors tournés vers les éditeurs de logiciels en mode self-service pour voir comment ils vont pouvoir rendre ces données accessibles aux utilisateurs.
Il semble, qu’en 2017, tous les objets seront équipés de capteurs qui renverront des informations vers le « vaisseau mère ». Les données provenant de l’IoT sont souvent hétérogènes et stockées dans de multiples systèmes relationnels ou non, de cluster Hadoop à des bases de données NoSQL. Alors que les innovations en matière de stockage et de services intégrés ont accéléré le processus de capture de l’information, accéder et comprendre la donnée elle-même reste le dernier défi. La conséquence est que la demande augmente de plus en plus pour les outils analytiques qui se connectent nativement et combinent des grandes variétés de sources de données hébergées dans le Cloud.
La montée en puissance des plateformes analytiques self-service a amélioré l’accessibilité de Hadoop aux utilisateurs métier. Mais ceux-ci veulent encore réduire le temps et la complexité de la préparation des données pour l’analyse. Les outils de préparation de données selfservice agiles permettent non seulement aux données Hadoop d’être préparées à la source mais aussi de les rendre accessibles sous forme d’instantanés pour une exploration plus rapide et plus facile. Nous avons vu une multitude d’innovations dans cet écosystème, faite par des sociétés spécialisées dans la préparation de données pour des environnements Big Data réalisée par l’utilisateur final, comme Alteryx, Trifacta et Paxata. Ces outils réduisent les barrières à l’entrée pour ceux qui n’ont pas encore adopté Hadoop et continueront à gagner du terrain en 2017.
Nous constatons une tendance grandissante au fait que Hadoop devient une partie centrale du paysage IT de l’entreprise. Et en 2017, nous verrons encore plus d’investissements dans les composants de sécurité et de gouvernance qui entourent les systèmes de l’entreprise. Apache Sentry fournit un système d’autorisations très fines d’accès à la donnée, basé sur les rôles et les métadonnées stockées dans un cluster Hadoop. Apache Atlas permet aux organisations d’appliquer une classification uniforme des données sur l’ensemble de leur écosystème. Apache Ranger fournit une administration centralisée de gestion de la sécurité pour Hadoop. Ces capacités passent maintenant au premier plan des technologies Big Data émergentes, éliminant ainsi une autre barrière à l’adoption en Entreprise.
Pendant longtemps, les sociétés ont jeté leurs données parce qu’elles en avaient trop à traiter. Avec Hadoop, elles peuvent traiter beaucoup plus de données, mais la donnée n’est généralement pas organisée de façon à être trouvée rapidement. Les catalogues de métadonnées peuvent aider les utilisateurs à découvrir et comprendre les données pertinentes grâce aux outils d’analyse self-service. Cela aide à la fois les consommateurs de données et les administrateurs de données à réduire le temps qu’il faut pour faire confiance, trouver et requêter avec précision les données. En 2017, nous verrons une plus grande sensibilisation et une plus grande demande pour la découverte en mode self-service, qui deviendra une extension naturelle à l’analyse self-service.