Automattic, maison mère de WordPress.com et Tumblr, veut vendre vos données aux IA d’OpenAI & Midjourney

CMS Wordpress

On vous parlait récemment de l’accord conclu entre Reddit et Google, pour fournir à l’IA de Gemini les données issues des contributeurs, appelés Redditors, dans le but d’alimenter la base de connaissance de son intelligence artificielle. On y évoquait également une potentielle nouvelle source de revenue pour de nombreuses entreprises. Une fuite de documents internes, obtenus par 404 Media, révèle que des membres du personnel de Tumblr ont compilé les données des utilisateurs dans le cadre d’un accord avec Midjourney et OpenAI.

Des plateformes prêtes à vendre des données utilisateurs

Ces documents internes suggèrent que Tumblr et WordPress.com s’apprêtent à vendre les données utilisateur à Midjourney et OpenAI. Une source informée des transactions ainsi que des documents internes font état de ces accords à venir.

Les détails exacts des données transmises à chaque entreprise ne sont pas spécifiés dans les documents examinés par 404 Media, mais des communications internes indiquent clairement que des accords entre Automattic, la société mère des plateformes, et OpenAI ainsi que Midjourney sont imminents.

Un processus controversé et loin d’être au point

La documentation interne révèle un processus chaotique au sein de Tumblr. Un message interne de Cyle Gage, responsable produit chez Tumblr, indiquerait qu’une requête visant à préparer des données pour OpenAI et Midjourney a compilé un grand nombre de publications d’utilisateurs qui ne le devaient pas. Il n’est pas clair si ces données ont déjà été transmises aux entreprises, ou si Gage décrivait un processus de nettoyage préalable des données.

Dans son message, Gage explique : « la manière dont les données ont été interrogées pour le transfert initial vers Midjourney / OpenAI signifie que nous avons compilé une liste de tout le contenu public de Tumblr entre 2014 et 2023, mais malheureusement, cela incluait également et ne devait pas inclure : des publications privées sur des blogs publics, des publications sur des blogs supprimés ou suspendus, des questions sans réponse, des réponses privées, des publications marquées ‘explicites’ / NSFW / ‘matures’, du contenu de blogs partenaires premium. »

Le post de Gage précise que des ingénieurs travaillent à établir une liste d’identifiants de publications qui n’auraient pas dû être inclus, et que les publications protégées par mot de passe, les messages privés, ainsi que le contenu signalé comme CSAM et d’autres violations des directives communautaires n’ont pas été inclus.

Voici les actions préventives d’Automattic pour palier à ce problème

Automattic prévoit de lancer un nouveau paramètre, permettant aux utilisateurs de refuser le partage de données avec des tiers, y compris les entreprises d’IA, selon une source anonyme et des documents internes. Une nouvelle section FAQ précise : « Si vous refusez dès le départ, nous bloquerons l’accès de votre contenu aux robots en l’ajoutant à une liste d’interdiction. Si vous changez d’avis plus tard, nous prévoyons également d’informer les partenaires des nouvelles désignations de refus et de demander que leur contenu soit supprimé des sources passées et des futurs entraînements. »

404 Media a interrogé Automattic sur la compilation accidentelle de données et sur le partage éventuel avec OpenAI. Au lieu de répondre directement, Automattic a publié une déclaration intitulée « Protéger le choix de l’Utilisateur, » assurant qu’il bloquait les robots d’IA de ses sites et travaillait directement avec des entreprises d’IA concernées par les préoccupations de la communauté.

Quid des sites web WordPress auto-hébergés ?

Le flou demeure quant à la portée des accords d’Automattic avec les blogs WordPress auto-hébergés utilisant des plugins tels que JetPack. Une question à ce sujet est restée sans réponse. De plus, une question importante sur la garantie de suppression rétroactive des données des utilisateurs qui choisissent de se retirer reste sans réponse.

Sachez qu’il existe déjà un moyen de bloquer les crawlers en provenance des solutions d’IA comme OpenAI :

User-agent: GPTBot
Disallow: /

Cette solution ne vous protègera qu’en cas de récupération de vos contenus et données par le biais de robots, qui parcourent la toile pour récupérer de manière massive ces informations. Cela n’empêchera pas une entreprise comme WordPress.com de transmettre votre contenu à un tiers, sauf si vous lui signifiez explicitement. C’est en ce sens que le paramètre évoqué plus haut, qui devrait être déployé prochainement par Automattic sur les interfaces clients des blogs hébergés sur WordPress.com, permettra aux utilisateurs d’empêcher la transmission et le partage de données.

Ces développements s’inscrivent dans une tendance où de nombreuses plateformes en ligne ont conclu ou sont en cours de conclusion d’accords similaires avec des entreprises d’IA, soulevant des préoccupations de plus en plus importantes quant à la confidentialité des utilisateurs. Les acteurs concernés, OpenAI et Midjourney, n’ont pas répondu aux demandes de commentaires du journaliste de 404 Media.

Source : https://www.404media.co/tumblr-and-wordpress-to-sell-users-data-to-train-ai-tools/

[Nouveau] 4 ebooks sur le digital marketing à télécharger gratuitement

Cet article vous a plu ? Recevez nos prochains articles par mail

Inscrivez-vous à notre newsletter, et vous recevrez un mail tous les jeudis avec les derniers articles d’experts publiés.

D’autres articles sur le même thème :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *