![]() La société de l'information est progressivement passé d'un univers orienté sur le traitement à un monde centré sur la donnée. En 1944, le bibliothécaire de la Wesleyan University, Fremont Rider, commence à percevoir un nouveau problème : la production massive de données (information explosion). Bien que portant sur une information non numérisée, les questions qu’il soulève portent déjà sur le sourcing, l’acquisition et la gestion des livres, mais aussi les coopérations entre les bibliothèques. Estimant que les volumes doubleraient tous les seize ans, il constate que la bibliothèque de Yale comporterait 200 millions d’ouvrages un siècle plus tard, ce qui nécessiterait plus de six mille employés pour les référencer correctement. Il recommande alors de remplacer les volumineuses œuvres imprimées en décomposition par des photographies – analogiques – miniaturisées. On n’est pas encore sur le numérique, mais la dématérialisation est en marche et la possibilité de duplication à la demande également. Ses travaux font déjà écho à un sujet qui taraudera l’univers informatique, mais dont les prémisses ne commencent que trois ans plus tard avec l’invention du transistor et se développeront surtout avec la création des premiers circuits intégrés en 1958. L’amélioration de la puissance de calcul va permettre des traitements plus rapides et plus élaborés. Les secteurs administratifs sont les premiers à s’informatiser, car l’informatique est une technologie de calcul et de processus.
Trente ans plus tard, l’émergence d’internet ouvre un monde interconnecté où toutes les informations sont liées entre elles. Pour s’y repérer, il faut traiter des milliards d’informations, de plus en plus de textes et d’images. Pour classer les pages d’internet, on utilise des métadonnées intégrées dans chaque page pour classer le web par des mots-clés. L’internaute qui choisit un mot est mis en relation avec une page qui a référencé ledit mot. En effet, pour être traitée par un algorithme informatique, une donnée devait alors être mise dans un format normalisé, c’est-à-dire définie selon une structure prédéfinie et précise pour être bien indexée, rangée dans une bibliothèque de stockage. Une variable peut être un nom, un numéro, une date, une devise ou un prix, par exemple. Cette approche statistique du monde est bien adaptée pour compter, trier et faire des analyses conditionnelles d’une réalité réduite à un prisme très spécifique. En revanche, la donnée a perdu de son sens intrinsèque en dehors de sa tabulation de référence. Ainsi la donnée structurée d’une photographie d’un chat correspond-elle au classement de chaque pixel en fonction de sa couleur dans une table de données, mais le chat a disparu au profit de chiffres. Cette approche altère grandement la réalité en la simplifiant et en la réduisant arbitrairement. Cela explique le sentiment de rejet qui a frappé la majorité des citoyens lorsque la statistique a voulu appréhender le monde. Ce qui fait dire à Olivier Rey à propos de l’antipathie pour la statistique : « D’un côté, on lui demande de rendre compte des faits de façon objective et impartiale, de l’autre, on lui fait grief de son insensibilité, de s’en tenir à ce qui se mesure et, ce faisant, de laisser échapper l’essentiel ». Ce manque de chaleur de l’informatique, qui devient micro-informatique dans les années 80, se traduit par l’apparition de l’adolescent geek ou du computer nerd des années 80. Comme l’a montré l’enseignante-chercheuse Isabelle Collet, spécialiste en sciences de l’éducation, les représentations dans les films et les livres défendent cet adolescent peu rebuté par une activité déshumanisée et qui trouve chez ses congénères une nouvelle sociabilité, d’ailleurs excluante pour les filles. Elle relève qu’alors qu’entre 1972 et 1985, le pourcentage des femmes en informatique est supérieur au pourcentage moyen des femmes ingénieures, toutes écoles confondues, au milieu des années 80, les filles vont s’exclure des études informatiques pour ne représenter plus que 10 % des étudiants, et de façon stable pendant trente ans. L’informatique est alors perçue comme un refuge d’une réalité virtuelle alimentée d’ailleurs par l’univers des jeux vidéo. Dans les entreprises, y compris de services, c’est une direction technique fonctionnelle un peu à part (ce qui s’oppose à ce qu’on observe dans les entreprises du tertiaire d’aujourd’hui qui ont tendance à la rapprocher de l’équipe produit au cœur de l’organisation). Le monde de la data relève d’un univers un peu obscur. En 1998, Larry Page et Sergei Brin vont changer l’univers du web en utilisant la théorie des graphes pour mettre en place l’algorithme PageRank de leur tout nouveau moteur de recherche Google. Cela constitue la première étape déployée à grande échelle de ce qui engendrera dix ans plus tard Hadoop, un environnement complet apte à traiter un très grand nombre de données, du traitement jusqu’à leur stockage. Le défi du bibliothécaire Fremont Rider a été relevé : il n’est plus alors nécessaire de structurer les informations d’une page Web pour indexer une page de texte. En 2012, Google est capable de reconnaitre un chat dans une page YouTube. Face à la complexité d’une image, il a fallu aller plus loin, car il est impossible de définir les règles permettant de reconnaitre précisément un chat, d’autant que les cas particuliers sont très nombreux (dans toutes les positions, s’il lui manque une patte, par opposition avec un léopard, etc.). On commence alors à utiliser des algorithmes implicites, c’est-à-dire des algorithmes qui vont apprendre à définir eux-mêmes des règles par apprentissage : en fournissant un très grand nombre de données que l’on va qualifier (pour ce qu’on appelle le machine learning supervisé), l’algorithme apprend via un réseau neuronal, en définissant plusieurs niveaux d’abstraction. Il va alors définir des règles implicites qu’il n’est pas possible d’expliciter clairement. Tout au plus, peut-on expliquer le résultat obtenu. La donnée structurée d’une photographie correspond à la couleur de chaque pixel alors qu’en approche non structurée, elle conserve son intégrité, ce qui permet d’analyser ce qu’elle représente. Grâce à des algorithmes implicites, nous pouvons traiter des textes, mails, images, vidéos et sons. Mais aussi tout ce qui pourra être capté des données de comportement et autres données générées par l’internet des objets. Inutile de simplifier la donnée, car elle est stockée comme elle est. La mise en commun des données non structurées démultiplie les possibilités d’analyse, mais elle permet surtout de conserver une certaine intégrité du monde. La photographie du Chat reste une image de chat dont il est possible d’analyser la race, ce qu’il fait et à quoi il ressemble. La data commence à pouvoir retranscrire le monde. Le citoyen reconnait alors dans l’information le monde qu’il connait. Cette approche ouvre aujourd’hui la voie à la création d’autres images de chats qui n’existent pas via l’IA générative dont on a pu mesurer l’acceptabilité par la vitesse d’appropriation. Ainsi y a-t-il eu une évolution d’une informatique du traitement vers celle de la donnée, d’abord structurée, puis de plus en plus capable de conserver la complétude du monde qu’elle digitalise. Le monde du digital s’avère de moins en moins un monde abstrait, réservé aux hyper-spécialistes. Il commence au contraire à s’organiser avec un écosystème de compétences variées qui comprend certes des développeurs et des architectes informatiques, mais aussi des data scientists, des designers, des experts du référencement, des chefs de projet éditorial. Et cet univers professionnel plus diversifié se réouvre alors davantage aux femmes : en 2021, on décompte 23 % d’étudiantes parmi les établissements Bac+5 membres de Talents du Numérique, soit un doublement en vingt ans. Depuis, le big data est devenu intelligence artificielle, de l’impersonnel à un terme anthropomorphiste. Les mots traduisent les faits. L’informatique, tel un animal sauvage, a été domestiquée par le citoyen.
0 Commentaires
Laisser une réponse. |
AuthorDocteur en sciences de l'information et de la comunication, Laurent Darmon est le Directeur de l'Innovation de l'une des dix premières banques du monde Archives
Juin 2025
Categories
Tous
|