Points clé à retenir de cette interview :
- La confiance dans l’IA ne se limite pas à la qualité et à la légalité des données d’entraînement : elle suppose surtout des capacités robustes d’évaluation, de test et de monitoring des systèmes et de leurs usages.
- La disponibilité et la qualité des données deviennent un enjeu critique, avec des tensions liées à la propriété intellectuelle, aux données personnelles et à la concentration des acteurs capables d’acheter/licencier des corpus massifs.
- Les données synthétiques et l’entraînement multimodal (texte, image, audio, vidéo) peuvent atténuer la pénurie de données, mais un usage excessif de synthétique en pré-entraînement peut dégrader les modèles (risque de « model collapse »).
- Pour fiabiliser les résultats non déterministes de l’IA générative, l’observabilité à grande échelle et la traçabilité des sources (notamment via le RAG) sont déterminantes pour mesurer les erreurs, limiter les biais et renforcer la transparence.
- La régulation et les structures de gouvernance (AI Act, Conseil de l’Europe, AI Safety Institutes, approches chinoise et américaine) visent à réaffirmer la primauté de l’humain, encadrer les risques (discrimination, droits fondamentaux, pluralisme de l’information) et établir des responsabilités.
Sylvie Rozenfeld : Un premier aspect de la question autour de la confiance concerne les données d’entraînement. La qualité de l’IA dépend des données qu’elle utilise. Plus les données sont de qualité, plus l’IA est fiable et efficace. Or, la quantité de textes écrits par des humains est limitée et se renouvelle moins rapidement que la consommation qu’en fait les systèmes d’IA. Certains parlent de deux ou trois ans de données disponibles, d’autres d’une carence de ce stock entre 2026 et 2032.
Peut-on aller vers une IA de confiance et comment y parvenir ?
Murielle Popa-Fabre : La majorité des études portent sur l’épuisement de l’écrit présent sur le web pour entraîner des algorithmes à grande échelle comme les modèles de langage. Cette utilisation évolue plus rapidement que le renouvellement de la production humaine. Plusieurs éléments permettent néanmoins de remettre en perspective ces pronostics. D’abord, les techniques de webcrawling sont plus complexes aujourd’hui, elles impliquent une étape plus complète de nettoyage des données ce qui rend largement accessibles des données de meilleures qualités.
On commence aussi à expérimenter des solutions pour produire des données générées automatiquement à partir d’exemples de contenus humains pour atteindre les quotas nécessaires sans pour autant former entièrement des corpus avec des données synthétiques. L’entraînement se divise en deux grandes étapes : ce qu’on appelle le pré-entraînement là où est forgé le réseau de neurones par l’apprentissage sur le corpus d’entraînement, et le post-entraînement où l’on affine et optimise le modèle. C’est dans cette seconde phase qu’on a le plus besoin de données de qualité car on doit instruire l’algorithme à effectuer certaines tâches avec des jeux de paires instruction-réponse. Les données synthétiques sont très utiles ici car on remplace les annotations humaines, ce qui minimise les coûts. Plusieurs études montrent qu’un pré-entrainement à base de données synthétiques porte à une dégradation des sorties que l’on appelle model collapse.
Mais il faut ajouter que l’IA générative est devenue multimodale, utiliser aussi des données non textuelles comme des images, de l’audio ou des vidéos aident à apprendre des informations sur le monde (des distributions de probabilités) par d’autres modalités que l’écrit. Cela enrichit le modèle d’informations qui souvent ne figure pas dans un texte, et minimise aussi l’importance du texte. Des études récentes d’une start up EpochAI montrent que le recours à l’entrainement multimodal permettrait de tripler les données d’entraînement disponibles.
Mais au-delà des questions de données, l’élément crucial pour une IA de confiance c’est de se donner les moyens d’en évaluer, tester et monitorer les sorties et les usages. Et surtout dans le cas de solutions d’IA générative qui, par rapport au logiciel traditionnel, fournissent des réponses non-déterministes : à une même entrée correspondent plusieurs sorties à la fois correctes et incorrectes.
Est-ce que la propriété intellectuelle et plus particulièrement le fait que des ayants droit interdisent l’utilisation de leurs données, ne réduit pas la masse de données disponibles ?
Murielle Popa-Fabre : Il y a en effet de grandes tensions autour de la disponibilité des données, mais je n’opposerais pas de manière générale la protection de la propriété intellectuelle ou protection des données personnelles et innovation. J’observerais la façon dont la dernière année a abouti à des campagnes très importantes d’acquisition de données auprès de grands éditeurs que nous avons pu suivre par les journaux. La façon dont les affaires de données et d’IA générative sont arrivées dès 2023 dans les tribunaux américains fait que nombre de grands acteurs comme OpenAI ou Amazon ont lancé des campagnes d’achat ou de licences de donnée (Springer, Reddit, etc.) pour sortir de cette impasse.
La tension sur les données a aussi été observable cet été lorsque nous avons assisté tour à tour à des modifications de conditions d’utilisation des plateformes de réseaux sociaux pour permettre par défaut d’entraîner l’IA sur les données des utilisateurs, des actions qui ont été bloquées par les lois européennes pour les utilisateurs européens. Nous venons d’ailleurs d’assister sur LinkedIn à une déferlante de messages d’influenceurs américains depuis une semaine qui préviennent les utilisateurs non européens qu’une option par défaut est effective (default opt-in) pour garantir à la plateforme et ses affiliées les droits l’utilisation des données personnelles et des contenus publiés pour entraîner des modèles d’IA générative. Les utilisateurs américains sont bien conscients que les citoyens européens sont protégés.
J’ajouterais sans vouloir prédire le futur que la qualité des données est encore plus cruciale car la technologie et son adoption évoluent vers des modèles de plus en plus petits et spécialisés qui permettent des coûts en production plus contrôlés pour les entreprises.
Va-t-on assister à une marchandisation accrue de la donnée via des accords et donc un accès réservé aux plus riches et à une concentration accrue des sociétés d’IA, voire la formation d’oligopole, ou de monopole ?
Murielle Popa-Fabre : Cela fait partie des problèmes de fond de l’intelligence artificielle : les données et la capacité de calcul sont aussi cruciaux que la concentration de talents. La qualité de l’algorithme dépend de la qualité des données auxquelles un développeur a accès. Et aujourd’hui, les algorithmes ne sont pas des modèles de langage purs et simples mais des systèmes composites qui nécessitent un certain nombre d’étapes pour être optimisés, et simulés donc une « bonne conversation », ce que les anglo-saxons appellent l’alignement. Pour ça, on a besoin des données d’interactions des utilisateurs d’IA générative afin d’établir par exemple ce qui va retenir l’utilisateur. Les grandes plateformes disposent déjà de ce type de données et peuvent aujourd’hui réinjecter cette information dans l’optimisation des réponses de l’algorithme, par exemple sur la base de l’historique de conservation d’un utilisateur. La concentration de pouvoirs se ressent donc sur ces deux extrémités de la chaine de valeur des données pour entraîner l’IA générative : le pré-entraînement et l’optimisation finale des produits.
Va-t-on connaître la même situation que les moteurs de recherche, avec un acteur hyper dominant ?
Murielle Popa-Fabre : Cela dépendra de beaucoup de facteurs : si les Européens arrivent à tirer leur épingle du jeu dans la compétition pour faire arriver des produits souverains sur le marché – ce qu’ils gagnent c’est surtout l’ergonomie des produits -, si les modèles de taille réduite arrivent à percer définitivement, si l’investissement européen en infrastructure de calcul et cloud suit, si la réglementation nationale et globale et les régulateurs avec les autorités de la concurrence arrivent à gérer cette concentration de pouvoirs… Et in fine cela dépendra aussi de la prise de conscience des utilisateurs et de la société, et de la manière dont les Américains se situent par rapport à la Chine. La géopolitique joue un rôle central sur cette question.
Les systèmes d’IA générative comme ChatGPT sont également confrontés au problème des données personnelles figurant dans les données utilisées pour l’entraînement, comment le résoudre ? Sait-on identifier les données personnelles ?
Murielle Popa-Fabre : Tout à fait, on sait identifier les données personnelles à la fois en amont dans les données d’entraînement et à la sortie, mais avec un certain coût. On peut aussi tester les modèles de langage pour ce qu’ils mémorisent et sont donc susceptible de « régurgiter » par une technique connue depuis 2019 qu’on appelle attaque d’extraction. Mais il existe de plus en plus d’outils que l’on appelle d’observabilité qui implémentent un monitoring des sorties et qui permettent d’établir des filtres (bien que couteux) en temps réel. La possibilité de les identifier ou de les filtrer à la sortie dépendra des capacités et compétences techniques de test dont vont se doter les autorités compétentes européennes ou internationales, et des structures de gouvernance qu’adoptera Bruxelles.
Il y a néanmoins une bonne nouvelle : OpenAI et son concurrent Antropic (Claude) viennent d’accepter de soumettre aux tests du AI Safety Institute américain les algorithmes qu’ils commercialisent. Cette institution a émergé à la suite de l’ordonnance de Joe Biden dans le but de tester la sécurité de l’IA générative. Les Britanniques sont les premiers à avoir lancé un tel institut, à l’issue du sommet organisé en novembre dernier par leur Premier ministre, pour pouvoir rassembler les compétences nécessaires pour évaluer ces systèmes. Mais en mai dernier, un rapport de la Chambre des Communes avait révélé que personne n’avait soumis ses algorithmes à cette instance. Si les Britanniques n’ont pas pu convaincre les différents acteurs de l’IA générative de déposer leurs modèles pour les faire tester, les Américains viennent d’y parvenir. Vont-ils être testés en priorité sur des critères de vie privée et de propriété intellectuelle, ça reste à voir. Et puis il faut dire que ces types de tests ne sont pas encore standardisés.
Sylvie Rozenfeld : Sur quoi porteraient ces tests ?
Murielle Popa-Fabre : Avant tout sur la fiabilité des résultats, puis sur le caractère discriminant des sorties ou encore sur l’impact sur les droits fondamentaux des usages et des contenus générés, mais aussi sur le sujet très médiatisé des risques d’autonomie de l’IA, suite aux déclarations de certains chercheurs affirmant que l’IA allait devenir autonome. Je reste sceptique au sujet de ce fantasme outre-Atlantique, et je pense que les discours alarmistes noient le poisson et empêchent de voir les vrais problèmes qui se posent aujourd’hui, comme par exemple la question de la pluralité de la connaissance ou celle de l’information. Si pour une recherche d’information on se met à présenter une seule option de réponse, comment le pluralisme qui alimente la démocratie pourrait-il ne pas être impacté ? Surtout lorsqu’on sait empiriquement grâce à plusieurs études qu’interagir avec un agent conversationnel transforme les opinions des utilisateurs.
Sylvie Rozenfeld : Une des raisons de la pénurie vient aussi du fait que la plupart des contenus de qualité sont protégés par un droit de propriété intellectuelle.
Connaît-on l’importance des données protégées par un droit qui ont servi d’entrainement sans autorisation ?
Murielle Popa-Fabre : Il y a de moins en moins de transparence sur les données d’entraînement. Le secret des affaires est souvent invoqué à cet égard car l’on connaît de mieux en mieux la corrélation entre la qualité des données d’entraînement et celle des modèles. Les corpus d’entraînement textuels classiques comme Book3 (The pile ou bien C3) contiennent une large majorité de livres protégés par le droit d’auteur, ce qui a alimenté un grand nombre de poursuites devant les tribunaux aux États-Unis.
Il existe plusieurs façons de déceler si une œuvre a été utilisée pour l’entraînement d’un algorithme avec des tests assez simples. Des solutions existent aussi pour que ces citations récurrentes dans un modèle de langage soient filtrées à la sortie. Cela préserve en partie les ayants droit de l’extraction de données mémorisées par un modèle de langage mais ça ne résout pas la question de la rémunération. Une étude parue en septembre rapporte qu’en 2023 40% des contenus générés par l’IA détectés sur le web (ce qui ne représente qu’une petite portion des contenus générés automatiquement présents, la majorité ne sont pas détectables) ne respectent pas la propriété intellectuelle.
Murielle Popa-Fabre : Le secret de la performance de la première version de ChatGPT (novembre 2023) sont les travailleurs du click du Kenya (entreprise Sasma) qui ont péniblement annoté les sorties toxiques, violentes et discriminantes de GPT-3 pour en permettre l’optimisation et en faire un outil et un produit pouvant être commercialisé. L’entraînement pur et dur sans phases successives d’affinages et d’optimisations n’est pas suffisant pour forger un produit final.
Après, il faut se poser la question de savoir comment rétribuer ces droits de propriété intellectuelle. Une métaphore peut aider à comprendre la complexité du problème : un modèle de langage n’est pas une salade de fruit comme le web où l’on reconnaît les fruits comme on reconnaîtrait les sources d’information, mais c’est comme un smoothie informationnel, on sent qu’il y a de la banane ou de la fraise, mais l’on ne peut pas identifier que telle réponse ou telle phrase a été générée grâce à un texte protégé.
On ne peut donc pas définir la contribution de Harry Potter aux statistiques langagières qui sont à la base des calculs effectués pour répondre à une question donnée, à moins qu’il y ait des verbatims de Harry Potter dans les réponses que fournie la machine. Par exemple, on a pu extraire de versions antérieures à ChatGPT des citations de Tweet de Donald Trump, car elles rebondissaient dans la sphère médiatique et se retrouvaient souvent citées sur le net.
Quid du recours au RAG (Retrieval Augmented Generation, ou « génération augmentée par extraction de données »), qui permet d’optimiser les résultats des IA génératives en se basant sur des données propres à une entreprise ?
Murielle Popa-Fabre : Le RAG est une façon d’ajouter de l’information issue d’une base de données circonscrite à un modèle de langage. Au sein de ces systèmes composites, les modèles sont utilisés plus que pour leur capacité à reformuler et fournir des réponses en langage naturel, avec de jolies phrases. Cette base de données peut contenir des données privées, des données d’entreprises, ou encore des actualités dans les RAG informationnels qui voient maintenant le jour. Il s’agit aujourd’hui de la solution la plus utilisée car on peut être sûr des sources et surtout on peut en tracer la provenance. Ce qui rentre dans la base de données est connu et traçable dans les réponses. Pouvoir savoir quelle information a été utilisée pour donner la réponse ouvre la porte à de nouvelles solutions pour la rémunération des ayants droit.
Sylvie Rozenfeld : Et qu’en est-il de la confiance sur les résultats ?
Murielle Popa-Fabre : Je travaille sur les spécifications et l’évaluation de ce type de systèmes composites en situation réelle dans des entreprises et institutions, et je pense qu’il est important de ne pas céder à l’impression de pouvoir évaluer individuellement en tant que simple utilisateur ces systèmes. Seule l’observation de leur fonctionnement à grande échelle permet de connaître le pourcentage d’erreur des réponses. En d’autres termes, on ne peut pas tester un algorithme d’IA générative au seul niveau de l’utilisateur individuel car contrairement au logiciel traditionnel, ce n’est pas un système déterministe. À une même question posée, on peut obtenir à la fois plusieurs réponses correctes et incorrectes de manière imprédictible. Le résultat n’étant pas stable, il faut se poser la question de l’impact à grande échelle et se doter d’outils permettant l’observabilité – un terme déformé consacré dans le domaine de l’IA générative – et le traçage des réponses comme cela a été fait par une startup AIForensic à grande échelle pendant les élections européennes.
Vous avez évoqué une étude parue en mai comme faisant date sur la manière dont on peut comprendre comment l’IA produit un résultat. De quoi s’agit-il ?
Murielle Popa-Fabre : Il s’agit d’une étude de la société Antropic, qui a développé l’algorithme Claude. Cette étude montre, comment dans un modèle de langage du commerce, on commence à apercevoir la façon dont l’information est compressée dans le LLM, et les distributions de probabilités qui y sont apprises. D’un point de vue plus technique, on détecte et classifie les motifs d’activation neuronale dans les couches centrales du LLM. Cette étude fait sortir cette architecture de réseaux de neurones du paradigme de la boîte noire !
Ainsi, si l’on peut observer le type d’agglomérations d’informations à l’intérieur d’un réseau de neurones, on est susceptible de pouvoir le modifier. Et cela offre non seulement de la transparence mais permet aussi de développer pour ce type de modèles d’IA générative des techniques de gouvernance plus sophistiquées. Jusqu’à présent, on essayait de transformer les sorties de ces algorithmes avec cette phase que j’ai appelée « post-training » et filtrage. Par exemple, en leur apprenant à répondre à des questions, à parler de manière politiquement correcte avec des méthodologies différentes ou en leur interdisant de dire certaines choses, le tout dans le but de contrôler les générations de l’algorithme.
Si on continue de comprendre ce qui se passe, ce qui est agglutiné, la manière dont l’information s’organise et est compressée, à travers tous ces milliards de textes, de photos, etc., on peut aller vers une gouvernance plus avancée. On savait déjà que c’était possible en principe et cette étude le concrétise avec un modèle de taille moyenne 70 milliards de paramètres. Jusqu’à présent, on avait des études qui montraient des preuves de principes, là on a des réalisations qui nous permettent d’observer de plus près les biais ou simplement les types de représentations informationnelles à l’œuvre.
L’open source est-il un facteur de confiance ?
Murielle Popa-Fabre : La question est simple et la réponse complexe car les degrés de transparence au sein de la communauté open source ne sont pas homogènes. Aujourd’hui, on distingue 3 ou 4 niveaux d’ouverture pour les modèles de langage qui peuvent aller jusqu’à la communication des scripts ou des données d’entraînement. Les licences informent sur les droits liés à la publication et réutilisation commerciale mais pas nécessairement sur les degrés de transparence qui peuvent intéresser les études d’impact ou les autorités de régulation. La question de l’open source reste fondamentale sur le plan économique, car cela crée un socle à partir duquel de nouvelles solutions d’applications peuvent être créées. Elle est évidemment corrélée à la possibilité de tester l’algorithme. Mais les questions de secret des affaires et de souveraineté technologique resurgissent.
La bonne nouvelle est que la transparence peut être aussi obtenue en préservant le secret des affaires par différents outils de gouvernance, comme cela se passe actuellement aux États-Unis avec l’inspection par le AI Safety Institue américain des algorithmes d’OpenAI et Antropic ou en en Chine. Par exemple, la Chine s’est dotée depuis sa première loi sur les algorithmes de recommandations d’une banque nationale où sont déposés tous les algorithmes et de leur corpus d’entraînement, le dépôt y est obligatoire avant la mise sur le marché. Les prochains mois diront quelles structures de gouvernance européenne sont retenues pour un corpus de lois qui réglemente de plus en plus des usages faisant appel à des objets computationnels très complexes en situation réelle.
Il faut néanmoins souligner que dans ces deux configurations il reste à atteindre une dimension de transparence vis-à-vis de la société civile, qui est habituellement incluse dans le principe de transparence invoqué par différentes recommandations internationales d’IA responsable.
Sylvie Rozenfeld : Vous travaillez pour le Conseil de l’Europe sur les questions d’IA et de droits humains. Le Conseil de l’Europe a produit la première norme internationale, validée par les ministres des 56 États membres et signée le 5 septembre dernier. Parallèlement, l’UE vient de publier l’IA Act, la Chine, de son côté, a très tôt réglementé l’IA et aux Etats-Unis le secteur prône la souplesse, tandis que la Californie a adopté une loi contraignante. Une soixantaine de pays dispose déjà d’un texte. L’IA est mondiale, et les approches juridiques sont très différentes.
Que pensez-vous de ces différentes approches juridiques, notamment de celle de la Chine, vous qui êtes sinophone ? La règlementation peut-elle être vertueuse ?
Murielle Popa-Fabre : La multiplicité des initiatives réglementaires qui émergent à l’échelle du globe sur l’IA révèle la volonté profonde qu’ont les sociétés de mettre l’être humain au-dessus de la machine. L’approche du Conseil de l’Europe est très complémentaire de celle de l’Union Européenne car elle se focalise sur les droits fondamentaux et les principes qui les sous-tendent. Elle a une portée économique différente de l’IA Act, mais n’est pas dépourvue d’une dimension géopolitique qu’il sera intéressant d’observer au fur et à mesure que les signataires augmentent. La convention offre par exemple la possibilité à des pays africains d’adhérer à cette vision des droits fondamentaux alors que la Chine propose aussi des principes de gouvernance de l’IA par le biais de l’initiative des Routes de la soie. Les premières signatures montrent qu’il est possible de faire converger à une échelle plus large les pays autour de certains principes fondamentaux du Conseil de l’Europe.
Les positionnements sur l’échiquier mondial sont très différents, les États-Unis ont décidé avec une ordonnance présidentielle – l’executive order de Joe Biden – d’agir vite et de manière très détaillée par une centaine d’actions ciblées, alors que la réglementation européenne constitue un cadre transversal des usages et des risques liées à l’IA. Dans la phase d’algorithmisation de la société, où le quantitatif gagne du terrain sur le qualitatif, je trouve que partir du principe que l’être humain doit gouverner l’IA montre la façon dont on souhaite globalement construire le futur des sociétés. L’algorithme ne gère que des quantités, la gouvernance de l’IA ça veut dire aussi réinjecter du qualitatif et de la liberté, cela représente la volonté de situer la liberté à une échelle non-quantitative. Ce qui m’intéresse dans la question des droits fondamentaux, c’est comment les interpréter dans un monde de plus en plus quantitatif ?
Par ailleurs, derrière la question de la liberté se pose celle de la responsabilité. La première intervention politique de l’administration Biden a été de convoquer très tôt les grands patrons de la tech en leur demandant d’être responsables par rapport à l’IA générative. Aux Etats-Unis prime avant tout cette problématique de la responsabilité dans le terme « Responsible AI ». En Europe ou en France, on utilise davantage le terme d’« IA éthique ». Cela peut refléter le fait qu’en common law comme vous le disiez, on se place plus facilement au niveau de l’individu que des grands principes.
Pouvez-vous nous éclairer sur l’approche chinoise de la réglementation de l’IA ?
Murielle Popa-Fabre : La réglementation chinoise s’est préoccupée de l’IA avant l’irruption de l’IA générative, son approche a été pragmatique et centrée sur la technologie en adoptant des lois sur différents types algorithmes au fur et à mesure : une loi sur les algorithmes de recommandations, une autre sur les algorithmes de « synthèse profonde » et une dernière sur les modèles de langage. Elles réglementent ce que peut ou ne peut pas faire un algorithme dans la société, pouvant aller de la fixation de prix à la répartition de charge de travail des livreurs ou encore le clonage vocal, avec des textes (et des normes) très précis mais pas transversaux comme l’IA Act. Ce sont des façons très différentes d’aborder le problème. Depuis l’été dernier la Chine réfléchit néanmoins à un texte transversal comme l’AI Act, et deux propositions ont déjà émergé.
Sylvie Rozenfeld : Le Comité d’experts sur les implications de l’intelligence artificielle générative pour la liberté d’expression du Conseil de l’Europe (MSI-AI) a tenu sa première réunion en mai dernier. Vous êtes désignée corapporteure du projet de lignes directrices pratiques pour maximiser les avantages et atténuer les risques provenant de l’IA générative et ayant un impact sur la liberté d’expression. Quels sont selon vous les risques et quelles pistes pour lutter contre ?
Murielle Popa-Fabre : On travaille beaucoup sur l’état de l’art des bénéfices et des risques liés à la liberté d’expression en particulier et à l’objet technologique et à sa présence au sein d’outils et produits. Et la publication de nos travaux est attendue pour la fin 2025. Un exemple déjà mis en avant par différentes institutions est la possibilité de faire de la traduction simultanée en Europe par des applications basées sur de l’AI générative. C’est une très grande opportunité, parmi les bénéfices il y celui de pouvoir rapidement construire des débats multilingues au niveau européen, sans devoir passer par l’anglais. Des entreprises qui travaillent dans le domaine sont en train de quantifier et analyser cet usage avec des chercheurs de SciencePo. L’expression individuelle peut donc être favorisée par ce type de multilinguisme alors qu’il est aussi porteur de certains risques.
Il existe notamment des biais linguistiques. Beaucoup l’ont remarqué : en utilisant ChatGPT, les tournures de phrases ne sont pas forcément incorrectes mais elles peuvent sonner comme pas très françaises. La façon d’argumenter ou par exemple les marques d’adresses apparaissent biaisées car la majorité des données d’entraînement est anglo-saxonne. Les utilisateurs se retrouvent à avoir dans les mains des outils qui suggèrent des contenus peu conformes aux normes linguistiques de leur langue maternelle et cela est un premier biais problématique, sans compter que la langue traduit une vision du monde. Il y a là une question aussi de souveraineté linguistique. De fait, l’utilisation de ces outils standardise à grande échelle l’expression des utilisateurs comme le démontrent plusieurs études sur la génération automatique de textes et d’images. L’analyse de l’impact de l’IA se situe toujours sur deux plans différents mais complémentaires : à l’échelle de l’individu mais aussi à celle du collectif, ou de la société tout entière.
De façon générale, il est toujours important de sortir du paradigme de la boîte noire de l’IA générative et comprendre la stratification technologique qui est derrière les produits, pour observer à quel endroit de la chaîne de valeur peuvent se situer les biais, comme ont pu déjà le faire les autorités de la concurrence au Royaume-Uni ou en France dans leurs analyses. C’est une méthodologie qui a prouvé son efficacité.
Un autre aspect qui a déjà été mis en avant par un certain nombre d’études porte sur la « surconfiance » pour un résultat produit par une machine, par exemple beaucoup conçoivent de façon erronée que l’IA aurait « lu » des milliards de livres qu’un humain ne pourrait lire en toute une vie, alors qu’il s’agit d’un système qui calcule des phrases probables. Se pose bien évidemment aussi la question du clonage vocal et de la personnification qu’elle soit stylistique ou vidéo.
Le résultat de ces travaux au Conseil de l’Europe reflètera sûrement un champ d’étude très vastes et la diversité des membres qui participent au comité. Ils viennent tous d’horizons très divers (droit, sciences sociales, académique, ONG, etc.) et sont aussi engagés que compétents.
Exergues
La possibilité d’identifier ou de filtrer les données personnelles à la sortie dépendra des capacités et compétences techniques de test dont vont se doter les autorités compétentes européennes ou internationales, et des structures de gouvernance qu’adoptera Bruxelles.
Il existe plusieurs façons de déceler si une œuvre a été utilisée pour l’entraînement d’un algorithme avec des tests assez simples. (…) Après, il faut se poser la question de savoir comment rétribuer ces droits de propriété intellectuelle.
Seule l’observation de leur fonctionnement à grande échelle permet de connaître le pourcentage d’erreur des réponses.
Si on continue de comprendre (…) la manière dont l’information s’organise et est compressée, à travers tous ces milliards de textes, de photos, etc., on peut aller vers une gouvernance plus avancée.
La multiplicité des initiatives réglementaires qui émergent à l’échelle du globe sur l’IA révèle la volonté profonde qu’ont les sociétés de mettre l’être humain au-dessus de la machine.
Clause de non-responsabilité
Les opinions, présentations, chiffres et estimations présentés sur le site Web, y compris dans le blog, sont uniquement destinés à des fins d’information et ne doivent pas être considérés comme des conseils juridiques. Pour obtenir un avis juridique, vous devez contacter un professionnel du droit dans votre juridiction.
L’utilisation du contenu de ce site Web, y compris du blog, à des fins commerciales, y compris la revente, est interdite, sauf autorisation préalable de Evidency. La demande d’autorisation doit préciser le but et l’étendue de la reproduction. À des fins non commerciales, tout le matériel de cette publication peut être cité ou réimprimé librement, mais une reconnaissance est requise, ainsi qu’un lien vers ce site Web.



