Dans un premier temps, OpenAI, bien aidé par Microsoft, a posé quelques milliards de dollars pour attirer les meilleurs ingénieurs, s’équiper de processeurs informatiques de pointe, puis mettre au point ChatGPT. Le monde entier a été émerveillé par la capacité de cet agent de conversation à s’exprimer, à l’écrit, comme un humain. Une douzaine de mois se sont écoulés. Aujourd’hui, la compagnie fondée par Sam Altman s’assoit à la table des médias, le chéquier à la main. Bienvenue à l’an II de l’intelligence artificielle générative. “Une phase où la Big Tech négocie avec des fournisseurs de contenus pour acheter le droit de connecter leur IA à leurs sources de données”, résume Ghislain de Pierrefeu, consultant spécialisé dans cette technologie au cabinet Wavestone.Malgré un premier pacte signé dès l’été avec l’agence de presse américaine AP, le véritable tournant a eu lieu à la mi-décembre, quand OpenAI a officialisé un accord à hauteur de plusieurs dizaines de millions de dollars avec le groupe Axel Springer, détenteur de Bild, Business Insider ou encore Politico. De nombreux autres contrats d’exploitation de données sont en discussion, a également averti la société à Bloomberg. Ses concurrents tels qu’Apple ou Google, lancés dans le même train à grande vitesse de l’IA, seraient aussi en pourparlers avec des éditeurs pour mettre la main sur leurs textes. Parfois, les affaires tournent mal. Le New York Times a coupé court aux tractations et a finalement décidé de traîner OpenAI en justice. Le journal, figure mondiale du secteur, estime dans sa plainte révélée juste après Noël que des milliers d’articles lui appartenant ont déjà été utilisés illégalement, lors de la première phase de développement de l’IA générative. OpenAI a répliqué, assurant avoir fait usage légitime du “fair use”, des exceptions au droit d’auteur, présent dans la loi américaine. La bataille judiciaire pourrait durer des années. La nouvelle a toutefois confirmé ce que beaucoup de médias ne faisaient que suspecter, faute de preuves : la Big Tech, drapée dans le secret des affaires, a en réalité déjà utilisé gratuitement la presse pour rendre ses chatbots meilleurs. OpenAI est maintenant valorisé près de 100 milliards de dollars et table sur des revenus de 5 milliards en 2024, grâce au succès de ses formules d’abonnement pour particuliers et entreprises. Mais qu’on ne s’y trompe pas : les chèques ne servent pas à réparer un préjudice supposé. Tout porte à croire que les grandes compagnies IA ont vraiment besoin des données des médias.Manque de fiabilitéD’abord, parce que l’IA a un problème avec l’actualité. Une partie de l’accord entre OpenAI et Axel Springer porte sur ce point. Un modèle de langue (LLM) comme GPT, à la base de ChatGPT, ne peut être re-entraîné chaque jour ou même chaque mois : le processus est impossible, ou serait horriblement coûteux et fastidieux. Les connaissances sont ainsi limitées dans le temps. La version gratuite de ChatGPT demeure coincée en 2021. Les IA généralistes, adressées à un large public pour de la conversation, misent donc sur la “génération augmentée de récupération” ou RAG, pour combler ce manque. Soit la formulation d’une réponse avec redirection vers des sites dans lesquels l’information est plus complète et plus fraîche. C’est ce que fait Bing de Microsoft, nourri par ChatGPT. L’avenir des moteurs de recherche – si lucratifs eux aussi – se trouve peut-être ici.L’autre bénéfice est plus structurel encore. Alors que la quantité a longtemps été considérée comme un facteur clef de développement, les progrès techniques de l’IA ont désormais lieu autour de la qualité. La tendance est aux modèles frugaux, “mini”. “Dorénavant, on les entraîne avec moins de paramètres mais plus longtemps, et ils sont tout aussi puissants”, éclaire Benoît Sagot, chercheur spécialisé en traitement automatique des langues (Tal), à l’Institut national de recherche en sciences et technologies du numérique (Inria). L’une des astuces consiste à apprendre et réapprendre à la machine des corpus de texte triés sur le volet, pour leur précision et leur crédibilité. “C’est déjà le cas avec Wikipedia, dont le contenu est librement utilisable”, relève Benoît Sagot. “Le fonctionnement du machine learning, à la base des modèles, est probabiliste. Si on place plus de contenus articulés, avec des faits vérifiés, le chatbot, quand il génèrera des réponses à des questions d’utilisateurs, sera capable de porter plus d’attention à ces données”, détaille Giada Pistilli, éthicienne pour la compagnie d’IA HuggingFace.”Les IA généralistes cherchent à tout prix un remède à leur grand point faible : leur fiabilité”, rappelle Ghislain de Pierrefeu. Cela à un rapport direct avec les données actuellement utilisées par la machine. “Garbage in, garbage out…”, dit un dicton populaire dans le milieu. Un grand modèle de langue qui n’apprend à discuter qu’à partir de “déchets” ne formulera que des réponses à jeter. Un Microsoft le sait bien. En 2016, son chatbot Tay, qui apprenait en direct sur la base de publications Twitter, a vite multiplié les remarques racistes et sexistes, amenant à son arrêt pur et simple. Malgré des progrès notables depuis, notamment dans la qualité des sources, les erreurs font toujours partie de la vie de l’IA. Plus pernicieux encore : un ChatGPT est souvent pointé du doigt pour ses “hallucinations”, sa capacité à inventer des faits qui semblent réels. “Une amie philosophe l’a utilisé pour dresser sa biographie. A l’intérieur, il a créé de toutes pièces un papier de recherche qui portait sur les sujets qu’elle traitait, mais qu’elle n’avait jamais écrit”, témoigne Giada Pistilli.Rien n’indique que ce problème est sur le point de se résoudre. Et même que des corpus de textes issus des médias l’y aideraient concrètement. “Mais la plupart des jeux de données accessibles librement sur le marché, comme Oscar ou le Common Crawl, ne sont pas terribles, glisse François Fleuret, directeur du groupe de recherche sur le machine learning de l’Université de Genève. Or, la qualité des données fait tout.” Sans oublier que, depuis 2022, de plus en plus de données collectées sur le Web – celles qui sont les plus utilisées par les IA pour leurs entraînements – sont “contaminées” par des contenus générés par des IA elles-mêmes ! Un cercle vicieux. C’est ici qu’entrent en jeu les données journalistiques disponibles en grande quantité, à la fois riches et variées, sans cesse renouvelées. Avant tout : humaines. Un atout différenciant, alors que la concurrence s’aiguise dans l’intelligence artificielle. “Quand on a un bon corpus de données, on peut le garder longtemps et le réutiliser plusieurs fois”, souffle François Fleuret.”De la matière première pour les IA”Ainsi, l’histoire semble se répéter pour la presse, qui doit de nouveau batailler avec la Tech afin d’être rémunérée pour l’utilisation de ses contenus. Jusqu’ici, les discussions avaient quasi-exclusivement lieu avec Google, d’où proviennent aujourd’hui une majorité des lecteurs des sites d’informations. Mais on ne peut pas dire qu’elles aient été fructueuses. Une étude de chercheurs de l’Université Columbia et de Houston, récemment citée par le Financial Times, a estimé que si Google donnait aux éditeurs américains 50 % de la valeur créée par leur contenu d’information, ces derniers recevraient entre 10 et 12 milliards de dollars par an. Or, le mieux doté, le New York Times, reçoit seulement 100 millions de dollars… sur trois ans. Autant dire, des miettes. En France, un accord a été signé entre Google et les principaux représentants de la presse française. Non seulement très tardivement, en 2022, et sur des ordres de grandeur similaire. La faute à une certaine naïveté ou, a minima, un manque de vision du secteur. “A la fin des années 90 et au début des années 2000, la presse a fait l’erreur de miser sur la gratuité du contenu qui était mis en ligne sur Internet. Elle ne jurait alors que par la publicité sur le papier, rappelle Alexis Lévrier, historien spécialiste de la presse. Elle a bien failli ne jamais s’en remettre…”La plainte du New York Times le montre : les médias avancent aujourd’hui le couteau entre les dents face à la Tech. “L’industrie doit se considérer comme un fournisseur de matière première pour les IA. Ce sont nos clients, même si eux nient en être. C’est juste un nouveau type d’acteurs, qui va consommer de l’actualité non pas pour de la republication, comme le faisait Google ou Meta, mais pour de l’intelligence”, tonne Emmanuel Parody, journaliste, secrétaire du Geste, qui fédère 140 éditeurs français en ligne (dont L’Express), ainsi que de l’organisme dédié aux Droits voisins de la presse (DVP). Ce dernier déplore les premiers accords unilatéraux entre les grandes compagnies d’IA et les médias, rappelant la stratégie longtemps adoptée par Google : “diviser pour mieux régner”. “C’est impossible de travailler sans accord solide avec tous les éditeurs, généralistes et spécialisés. Signer avec un seul n’a pas de sens, pour nous comme pour eux. Ces IA prennent le risque de n’avoir un seul point de vue, une seule manière de raisonner, et sur des sujets très spécifiques, de manquer de crédibilité”, observe-t-il.Pour l’heure, aucun accord individuel ou collectif n’a été annoncé entre les grands opérateurs d’IA et la presse française. Et pas l’ombre d’une négociation avec les principaux représentants du secteur. Pas même de la part d’une société comme Mistral, un acteur de l’IA au prisme “européen” revendiqué. Cette dernière n’y est, pour l’heure, pas encouragée. La France tente actuellement d’infléchir l’IA Act, cette réglementation de l’Union européenne qui prévoit de nouvelles obligations de transparence des IA vis-à-vis de leurs sources d’apprentissage. La stratégie du gouvernement est assumée : éviter à Mistral d’avoir plus de comptes à rendre qu’Open AI, pour ne pas lester la licorne tricolore d’un fardeau dont sa rivale s’est affranchie. Une sorte de “quoi qu’il en coûte” de l’IA. Avant peut-être, d’entamer des négociations. “Un pari risqué”, selon Ghislain de Pierrefeu. A quel prix se feront-elles alors ?Vers une mort certaine ?Hormis les dizaines de millions de dollars promis à Axel Springer, peu de détails ont filtré sur la nature des “deals” entre la presse et les compagnies d’IA. Pas plus que les périmètres d’utilisation des données. Pour se protéger de toute forme de “pillage”, la presse française a pour l’instant majoritairement fait le choix du “opt-out”, un dispositif légal visant à stopper la fouille de données de petits robots appelés “crawlers”, à l’origine de la constitution de base de données comprenant des articles en ligne. Une manière de gagner du temps, sans aller jusqu’à un procès que seul un éditeur aussi puissant que le New York Times semble pouvoir se permettre actuellement.Pour Perrine Pelletier, associée du cabinet Datavalaw, qui accompagne notamment le Geste, plusieurs actions sont possibles pour maximiser les chances de la presse de tirer profit de ses riches données. “Les contenus des médias sont protégés par le droit d’auteur, le droit voisin de la presse et le droit à la constitution de bases de données. Il me semble que se fonder sur l’ensemble de ces droits plutôt que sur un seul, dans le cadre d’une négociation pour une utilisation de ces contenus protégés par une IA, peut être plus pertinent”, indique-t-elle. L’avocate évoque par ailleurs la “labellisation des contenus” de la presse, afin de maximiser les chances de faire valoir ses droits par rapport à d’autres contenus moins qualitatifs. “La définition d’un éditeur est en train d’être challengée par l’intelligence artificielle, souligne Emmanuel Parody. Si on souhaite fournir de l’information non-biaisée, il faut qu’on soit très clair dans la manière dont on utilise nous-même cette technologie.”Reste, enfin, à mesurer l’impact réel qu’aura l’IA sur les audiences des médias, afin d’en estimer les implications financières. Pour le moment, les premiers chiffres donnent plutôt le vertige. “Ayant testé la future version (intégrant les réponses générées via AI) du moteur de recherche de Google (Google SGE), le média américain The Atlantic, 166 ans d’existence, estime que cette nouvelle version leur fera perdre 70 % du trafic en provenance du moteur”, note le Geste dans un document de travail. Un chiffre, qui, sans aucune compensation, serait synonyme d’une mort certaine pour la presse.
Source link : https://www.lexpress.fr/economie/high-tech/openai-google-apple-pourquoi-les-grands-noms-de-lia-ont-besoin-des-medias-D3IT2ZE57JFEFAYKJCQOT62FOQ/
Author : Maxime Recoquillé
Publish date : 2024-01-20 15:30:00
Copyright for syndicated content belongs to the linked Source.