Qu’est-ce que le Big Data ?
Le concept de Big Data est né dans les années 1990, alors que les entreprises commençaient à être envahies d’actifs numériques de plus en plus volumineux, et il s’est précisé au début des années 2000. C’est Doug Laney, un analyste de Meta Group (entreprise achetée par Gartner en 2005), qui a trouvé fameuse définition des trois V désormais omniprésente : les mégadonnées sont caractérisées par leur volume, leur vélocité et leur variété.
Le volume
La production de données s’emballe partout. De plus en plus de technologies produisent de l’information sous forme numérique et les systèmes de stockages sont de moins en moins coûteux, toujours plus rapides et de capacité plus grande. Ce qui fait que les entreprises qui voient l’information comme une potentielle source de valeur hésitent à jeter ces enregistrements et les accumulent.
En 1998, IBM lançait le disque dur Deskstar 25GP d’une capacité de 25 gigaoctets, le plus gros disque pour PC de l’époque, qui coûtait alors dans les 200 $ US (510 $ de 2018). Aujourd’hui, le disque de 1 téraoctet (1 000 gigaoctets) se détaille autour de 50 $. La même capacité de stockage en 1998 aurait nécessité 40 disques durs Deskstar et un investissement de 20 400 $. En l’espace de 20 ans, le prix du gigaoctet est donc passé de 20,5 à 0,05 $.
Pour des raisons de coûts, les entreprises des années 1990 se montraient parcimonieuses quant au choix des données à stocker. Aujourd’hui, et encore moins demain, les coûts de stockages ne sont plus un obstacle et les entreprises ne se privent plus de conserver des gros volumes de données, sans toujours d’ailleurs savoir si ces données seront d’une quelconque utilité. De plus, avec la révolution numérique, les entreprises comme les individus (avec les objets connectés, le web, les apps mobiles, etc.) produisent de plus en plus de données. La croissance du volume est exponentielle.
La vélocité
Les flux de données produites sont de plus en plus larges et rapides, et les moyens de calcul modernes permettent de les traiter en temps réel la plupart du temps. Grâce à l’Internet, aux réseaux locaux sans fil, aux réseaux de téléphonie mobile et aux réseaux dédiés à l’IoT, c’est un torrent continu de données qui circule entre les capteurs et les systèmes chargés de stocker et d’analyser. Grâce aux processeurs sans cesse plus puissants, ces données peuvent être analysées rapidement afin d’en extraire des informations pertinentes.
Par exemple, vous pouviez avoir auparavant un système chargé de monitorer une machine de production, dont les données produites étaient stockées en local et envoyées périodiquement au système de traitement sur support physique. Aujourd’hui, le moindre capteur peut avoir un lien direct et instantané avec le monde entier. L’information est créée, stockée et traitée en un instant.
La variété
Les producteurs de données étant de plus en plus variés et ubiquistes, les données qu’ils fournissent sont également d’une très grande variété de formats et de structurations. Textes, images, fichiers audio, vidéos, données structurées et non structurées, etc., dans des formats divers et pas nécessairement normalisés s’accumulent dans l’océan du Big Data.
L’usage des mégadonnées
Les mégadonnées ne servent à pas grand-chose sans outils d’analyse et de découverte appropriés. Ces outils doivent faire avec les 3 V qui sont des contraintes. Ils doivent pouvoir traiter de gros volumes, le faire rapidement et être en mesure d’analyser une grande variété de données. L’objectif ultime est de permettre aux entreprises de créer de la valeur, d’optimiser les processus, et d’obtenir un avantage compétitif déterminant en transformant les mégadonnées accumulées en informations stratégiques. Ce peut être par exemple la détection de tendances qui resteraient en temps normal un certain moment occultées, détection avancée qui permet d’agir plus rapidement et de façon plus éclairée. Ou encore, ce peut être alimenté des modèles prédictifs qui peuvent anticiper la réaction du marché à une nouvelle offre et s’assurer de son succès.
Aujourd’hui, les outils d’analyse font des progrès rapides grâce à l’intelligence artificielle, et notamment l’apprentissage profond, qui permet de faire face à la variabilité des données. Quand le corpus est hétérogène, c’est l’IA qui est capable d’extraire du sens de fichiers audio et vidéo, de reconnaître des images, de traduire des textes, de structurer des données brutes, de tisser des liens sémantiques entre des données disjointes, de détecter des motifs et des corrélations subtiles, de résoudre des inconsistances, etc.
Notez que le principal obstacle rencontré dans les projets Big Data est la qualité des données. Si vous fournissez de mauvaises données (erronées, parcellaires, structurées de façon incohérente), le meilleur système d’intelligence artificielle ne pourra pas en faire grand-chose et au pire, produira des analyses fautives.