Générer un article, une image, une vidéo, les IA sont désormais d’une facilité incroyable pour produire du contenu (pas celui-ci rassurez-vous), le copier-coller étant déjà l’outil préféré des journalistes, on se retrouve avec une profusion de contenu généré avec une grande efficacité. A tel point que désormais une menace apparaît sur le “carburant” de cette génération de contenu : la data. Que se passe-t-il si les robots s’alimente avec du contenu qu’ils ont eux-mêmes produit ? L’efficacité des IA générative conduit à leur auto-empoisonnement.
De l’importance de la data
Toutes les entreprises le savent (enfin celles qui ne nient pas la réalité du business); la data est le nouveau pétrole à exploiter pour optimiser sa vision et ses stratégies : listing des prospect, avis client, données d’activités, etc…
Je ferais probablement un article futur sur comment bien exploiter ses données et les outils pour le faire mais pour illustrer l’importance de la donnée pour les intelligences artificielles :
Et oui, plus la masse est importante, plus on a de cas distinct ou au contraire proche et le résultat moyen ou supposé plus optimal est mieux affinée. C’est un peu la logique des ETF en bourse : on regroupe un nombre importants de sociétés (variété des data) dans une valeur qui suivra leur évolution moyenne via un % de chacune des entreprises retenues; ce qui permet d’éviter les anomalies de parcours très couteuse car noyées dans une masse d’autres sociétés qui elles s’en sont bien sorties car ayant leurs activités dans un autre domaine plus porteur. Si j’ai moins de variété de cas, les tendances seront plus marquées et potentiellement moins bonne (merci de liker le post si vous aimez mes parallèles hasardeux).
Trop de contenu produit par l’IA
Comment sont alimentés les moteurs d’intelligence artificielle ? Par une “aspiration” des contenus présent sur les sites web. La source de données (“le carburant”) est donc ce qui est publié en ligne.
Si je demande à Grok2 quelques statistiques sur le sujet:
Medium: Selon certaines analyses, environ 40% des articles publiés sur Medium seraient générés par des algorithmes d’IA.
Sites d’information: Une étude mentionne que près de 7% des articles publiés quotidiennement sur les sites web d’information sont partiellement ou entièrement générés par IA. Ce pourcentage peut varier considérablement d’un pays à l’autre, avec certains pays comme le Ghana ayant jusqu’à 33% de leurs articles générés par IA.
Tendance générale: L’utilisation de l’IA pour générer du contenu continue de croître. Par exemple, en 2022, il y avait déjà une présence notable de contenu IA sur diverses plateformes, et cette tendance semble se poursuivre et même s’intensifier.
LinkedIn: Des posts sur X mentionnent que 54% des publications longues en anglais sur LinkedIn seraient générées par l’IA, indiquant une forte adoption des outils d’IA sur cette plateforme.
On voit ici que la variété d’article déjà généré par l’IA est impressionnante, on peut s’en inquiéter pour d’autres raisons, cela signifie que la source est donc auto-alimentée par l’IA elle même… et c’est la que le problème apparait.
Si le contenu de cet article vous plaît, soutenez le !
Une IA a besoin de contenu (data) qualitatif
En bref les IA qui s’alimente de contenu généré par IA “s’empoisonne” et petit à petit dérive vers des résultats de mauvaise qualité: ce phénomène est très bien expliqué dans cet article :
Ce n’est qu’en ajoutant seulement des données réelles « fraiches » qu’ils arrivent à ce que les modèles ne tombent pas dans un « Model Autophagy Disorder » (MAD), en français, trouble de l’autophagie de modèle.
Les moteurs d’IA étant de plus en plus utilisés pour générer des images afin d’illustrer des articles
Ci-dessous d’autres illustrations de la “pollution” provoqué par les IA génératives produisant une grande quantité de donnée:
La prédation vers les data de qualité va s’amplifier
La valeur d’une base de données brute se mesure avec le résultat de l’extraction de l’information qu’elle contient. Pour peut alors modéliser les objets et concevoir les processus de calcul et entrainer les modèles.
La donnée brute coûte de l’argent à produire mais les moyens investis (des milliards de dollars chez toutes les grandes sociétés) pour entrainer et concevoir des intelligence artificielle efficace est à ce prix car il s’agit d’être en bonne position pour la prochaine révolution industrielle qui sera à base d’IA et de robot (dites-moi si ce sujet vous intéresse en commentaire).
La captation de la donnée va devenir un enjeu de plus en plus fort (quitte à “voler” le contenu), pour exploiter la valeur qu’elle contient, ne serait-ce que pour diversifier “son stock”.
Il est donc important pour les entreprises et les individus de prévoir et de mettre en place les mesures adéquates pour gérer cette menace et s’assurer de ne pas être pillé purement et simplement.
Cela a déjà commencé, que prévoyez-vous ?
Cet article t’intéresse ? abonne toi pour recevoir les suivants.