November 29, 2024

L’efficacité des IA générative conduit à leur Auto-empoisonnement

publié : November 29, 2024

Générer un article, une image, une vidéo, les IA sont désormais d’une facilité incroyable pour produire du contenu (pas celui-ci rassurez-vous), le copier-coller étant déjà l’outil préféré des journalistes, on se retrouve avec une profusion de contenu généré avec une grande efficacité. A tel point que désormais une menace apparaît sur le “carburant” de cette génération de contenu : la data. Que se passe-t-il si les robots s’alimente avec du contenu qu’ils ont eux-mêmes produit ? L’efficacité des IA générative conduit à leur auto-empoisonnement.

De l’importance de la data

Toutes les entreprises le savent (enfin celles qui ne nient pas la réalité du business); la data est le nouveau pétrole à exploiter pour optimiser sa vision et ses stratégies : listing des prospect, avis client, données d’activités, etc…

Je ferais probablement un article futur sur comment bien exploiter ses données et les outils pour le faire mais pour illustrer l’importance de la donnée pour les intelligences artificielles :

Une mauvaise intelligence artificielle éduquée avec beaucoup de data dépasse une bonne IA avec peu de data : la data compte + que le code pic.twitter.com/ZiZNTRhGzL
— Docteur Laurent Alexandre (@dr_l_alexandre) December 13, 2016

Et oui, plus la masse est importante, plus on a de cas distinct ou au contraire proche et le résultat moyen ou supposé plus optimal est mieux affinée. C’est un peu la logique des ETF en bourse : on regroupe un nombre importants de sociétés (variété des data) dans une valeur qui suivra leur évolution moyenne via un % de chacune des entreprises retenues; ce qui permet d’éviter les anomalies de parcours très couteuse car noyées dans une masse d’autres sociétés qui elles s’en sont bien sorties car ayant leurs activités dans un autre domaine plus porteur. Si j’ai moins de variété de cas, les tendances seront plus marquées et potentiellement moins bonne (merci de liker le post si vous aimez mes parallèles hasardeux).

Trop de contenu produit par l’IA

Comment sont alimentés les moteurs d’intelligence artificielle ? Par une “aspiration” des contenus présent sur les sites web. La source de données (“le carburant”) est donc ce qui est publié en ligne.

Si je demande à Grok2 quelques statistiques sur le sujet:

Medium: Selon certaines analyses, environ 40% des articles publiés sur Medium seraient générés par des algorithmes d’IA.

Sites d’information: Une étude mentionne que près de 7% des articles publiés quotidiennement sur les sites web d’information sont partiellement ou entièrement générés par IA. Ce pourcentage peut varier considérablement d’un pays à l’autre, avec certains pays comme le Ghana ayant jusqu’à 33% de leurs articles générés par IA.

Tendance générale: L’utilisation de l’IA pour générer du contenu continue de croître. Par exemple, en 2022, il y avait déjà une présence notable de contenu IA sur diverses plateformes, et cette tendance semble se poursuivre et même s’intensifier.

LinkedIn: Des posts sur X mentionnent que 54% des publications longues en anglais sur LinkedIn seraient générées par l’IA, indiquant une forte adoption des outils d’IA sur cette plateforme.

On voit ici que la variété d’article déjà généré par l’IA est impressionnante, on peut s’en inquiéter pour d’autres raisons, cela signifie que la source est donc auto-alimentée par l’IA elle même… et c’est la que le problème apparait.

Si le contenu de cet article vous plaît, soutenez le !

Une IA a besoin de contenu (data) qualitatif

En bref les IA qui s’alimente de contenu généré par IA “s’empoisonne” et petit à petit dérive vers des résultats de mauvaise qualité: ce phénomène est très bien expliqué dans cet article :

Ce n’est qu’en ajoutant seulement des données réelles « fraiches » qu’ils arrivent à ce que les modèles ne tombent pas dans un « Model Autophagy Disorder » (MAD), en français, trouble de l’autophagie de modèle.

Les moteurs d’IA étant de plus en plus utilisés pour générer des images afin d’illustrer des articles

Ci-dessous d’autres illustrations de la “pollution” provoqué par les IA génératives produisant une grande quantité de donnée:

A new paper in Nature found that you cannot, in fact, train AIs on AI-generated data and expect them to continue improving.

What happens is actually that the model collapses and ends up producing nonsense. pic.twitter.com/gHWP2GMafr
— Crémieux (@cremieuxrecueil) July 25, 2024

A new paper suggests too much training on AI-produced content causes AI models to break.

This is an ongoing discussion, with lots of research and discussion about when/if synthetic training data works. So a helpful paper, but likely not the final word. https://t.co/8mTPVpArL0
— Ethan Mollick (@emollick) July 25, 2024

Les textes générés par IA sont déjà en train de « polluer » Internet

La prédation vers les data de qualité va s’amplifier

La valeur d’une base de données brute se mesure avec le résultat de l’extraction de l’information qu’elle contient. Pour peut alors modéliser les objets et concevoir les processus de calcul et entrainer les modèles.

La donnée brute coûte de l’argent à produire mais les moyens investis (des milliards de dollars chez toutes les grandes sociétés) pour entrainer et concevoir des intelligence artificielle efficace est à ce prix car il s’agit d’être en bonne position pour la prochaine révolution industrielle qui sera à base d’IA et de robot (dites-moi si ce sujet vous intéresse en commentaire).

La captation de la donnée va devenir un enjeu de plus en plus fort (quitte à “voler” le contenu), pour exploiter la valeur qu’elle contient, ne serait-ce que pour diversifier “son stock”.

Il est donc important pour les entreprises et les individus de prévoir et de mettre en place les mesures adéquates pour gérer cette menace et s’assurer de ne pas être pillé purement et simplement.

Cela a déjà commencé, que prévoyez-vous ?

Cet article t’intéresse ? abonne toi pour recevoir les suivants.

A propos de l'auteur

Olivier est ingénieur en systèmes d'information d'entreprises (Industrialisation, technologies informatique et méthodes associées).
Il est spécialisé dans le pilotage de projets IT stratégiques et l'accompagnement de clients souhaitant optimiser leur processus, mieux piloter leurs portefeuilles de projets (Portfolio Management - PPM) ou construire et mener une transformation digitale ou agile.

Article précédent

ARTICLES PUBLIÉS

L’efficacité des IA générative conduit à leur Auto-empoisonnement

Test ChatGPT-4 : Les consultants IT remplacés par l’IA ?

Négocier pour augmenter son salaire

Le bon moment de devenir indépendant (freelance IT) ?

Insert About the Author