ZettelNotes/fleeting-notes/20240229184600.md at master

8.9 KiB

Raw Permalink Blame History

title

description

date

authors

taxonomies

license

Tumblr and WordPress to Sell Users' Data to Train AI Tools

2024-02-29

20240229184600

Samantha Cole

tags

Inteligencia Artificial

Automattic

Tumblr

WordPress.com

OpenAI

Midjourney

Documentos internos obtenidos por 404 Media muestran que el personal de Tumblr recabó datos de sus usuarios como parte de un acuerdo con Midjourney y OpenAI.

Tumblr y WordPress.com se están preparando para vender los datos de usuario a Midjourney y OpenAI, según con lo manifestado por una fuente interna sobre los tratados y la documentación que hacen referencia a dichos acuerdos.

Los tipos exactos de datos de cada plataforma que van a cada empresa no se detallan en la documentación que hemos revisado, pero las comunicaciones internas revisadas por 404 Media dejan en claro que los acuerdos entre Automattic, la empresa matriz de las plataformas, y OpenAI y Midjourney son inminentes.

La documentación interna detalla un proceso confuso y controvertido dentro del propio Tumblr. Una publicación interna realizada por Cyle Gage, gerente de producto de Tumblr, afirma que una consulta realizada para preparar datos para OpenAI y Midjourney recopiló una gran cantidad de publicaciones de usuarios que no se suponía que debía hacerlo. En la publicación de Gage no queda claro si estos datos ya se enviaron a OpenAI y Midjourney, o si Gage estaba detallando un proceso para borrar los datos antes de enviarlos.

Gage escribió:

"la forma en que se consultaron los datos para el volcado de datos inicial a Midjourney/OpenAI significa que compilamos una lista de todo el contenido de publicaciones públicas de tumblr entre 2014 y 2023, pero desafortunadamente también incluyó, y no debería haber incluido:

publicaciones privadas de blogs públicos
publicaciones de blogs eliminados o suspendidos
unanswered asks (normally these are not public until they’re answered)
preguntas sin respuesta (normalmente no son públicas hasta que se responden)
publicaciones marcadas como "explícitas" / NSFW / "maduras" según nuestros estándares más modernos
contenido de blogs de socios premium (blogs de marcas especiales como el antiguo blog de música de Apple, por ejemplo, que gastó dinero con nosotros en una campaña publicitaria) que pueden tener creaciones que no nos pertenecen y no tenemos los derechos para compartir con terceros"

La publicación de Gage deja en claro que los ingenieros están trabajando para compilar una lista de ID de publicaciones que no deberían haberse incluido, y que no se incluyeron publicaciones protegidas con contraseña, mensajes directos y medios marcados como CSAM y otras violaciones de las normativas de la comunidad.

Automattic planea lanzar una nueva configuración el miércoles que permitirá a los usuarios optar por no compartir datos con terceros, incluidas empresas de inteligencia artificial, según la fuente, que habló bajo condición de anonimato y documentos internos. Una nueva sección de preguntas frecuentes que revisamos se titula "¿Qué sucede cuando opta por no participar?" establece que "Si opta por no participar desde el principio, bloquearemos el acceso de los rastreadores a su contenido agregando su sitio a una lista de no permitidos. Si cambia de opinión más adelante, también planeamos informar a los socios sobre las personas que recientemente optan por no participar y solicitaremos que su contenido sea eliminado de fuentes pasadas y de tratamiento futuro".

404 Media le preguntó a Automattic cómo compiló accidentalmente datos que no debería compartir y si parte de ese contenido se compartió con OpenAI. 404 Media preguntó a Automattic sobre un acuerdo inminente con Midjourney la semana pasada, pero tampoco recibió respuesta en ese momento. En lugar de responder preguntas directas sobre estas ofertas y la recopilación de datos de los usuarios, Automattic envió un comunicado después de la publicación de esta historia., titulado "Protección de la elección del usuario". En él, Automattic promete que ha bloqueado a los rastreadores de IA para que no puedan rastrear sus sitios. La declaración dice: "También estamos trabajando directamente con empresas selectas de IA siempre que sus planes se alineen con lo que le importa a nuestra comunidad: atribución, exclusión voluntaria y control. Nuestras asociaciones respetarán todas las configuraciones de exclusión voluntaria. También planeamos vaya un paso más allá y actualice periódicamente a sus socios sobre las personas que recientemente optan por no participar y soliciten que su contenido se elimine de fuentes anteriores y de capacitaciones futuras".

The statement published by Automattic after this article was published specifically mentions WordPress.com, which are blogs that Automattic hosts as a service. There is separately an open-source WordPress CMS (WordPress.org) that people and businesses use on self-hosted websites. What remains unclear is whether self-hosted WordPress blogs that use popular Automattic plugins like JetPack to connect those blogs with Automattic's infrastructure are subject to the company's AI-scraping deals. Automattic did not immediately respond to a question about whether sites using JetPack are subject to its data sharing agreements.

Another internal document shows that, on February 23, an employee asked in a staff-only thread, “Do we have assurances that if a user opts out of their data being shared with third parties that our existing data partners will be notified of such a change and remove their data?”

Andrew Spittle, Automattic’s head of AI replied: “We will notify existing partners on a regular basis about anyone who's opted out since the last time we provided a list. I want this to be an ongoing process where we regularly advocate for past content to be excluded based on current preferences. We will ask that content be deleted and removed from any future training runs. I believe partners will honor this based on our conversations with them to this point. I don't think they gain much overall by retaining it.” Automattic did not respond to a question from 404 Media about whether it could guarantee that people who opt out will have their data deleted retroactively.

News about a deal between Tumblr and Midjourney has been rumored and speculated about on Tumblr for the last week. Someone claiming to be a former Tumblr employee announced in a Tumblr blog post that the platform was working on a deal with Midjourney, and the rumor made it onto Blind, an app for verified employees of companies to anonymously discuss their jobs. 404 Media has seen the Blind posts, in which what seems like an Automattic employee says, “I'm not sure why some of you are getting worked up or worried about this. It's totally legal, and sharing it publicly is perfectly fine since it's right there in the terms & conditions. So, go ahead and spread the word as much as you can with your friends and tech journalists, it's totally fine.”

Separately, 404 Media viewed a public, now-deleted post by Gage, the product manager, where he said that he was deleting all of his images off of Tumblr, and would be putting them on his personal website. A still-live post says, “i've deleted my photography from tumblr and will be moving it slowly but surely over to cylegage.com, which i'm building into a photography portfolio that i can control end-to-end.” At one point last week, his personal website had a specific note stating that he did not consent to AI scraping of his images. Gage’s original post has been deleted, and his website is now a blank page that just reads “Cyle.” Gage did not respond to a request for comment from 404 Media.

Several online platforms have made similar deals with AI companies recently, including Reddit, which entered into an AI content licensing deal with Google and said in its SEC filing last week that it’s “in the early stages of monetizing [its] user base” by training AI on users’ posts. Last year, Shutterstock signed a six year deal with OpenAI to provide training data.

OpenAI and Midjourney did not respond to requests for comment.

8.9 KiB Raw Permalink Blame History Unescape Escape

8.9 KiB

Raw Permalink Blame History