Google y el sabotaje del «long tail» de la web para los LLM: ¿comportamiento anticompetitivo?

Wait 5 sec.

Llevamos años explicando que gran parte de la riqueza de internet está en su llamado «long tail«, en millones de páginas pequeñas, especializadas, actualizadas por comunidades y autores que no salen en los rankings, pero que sostienen su diversidad informativa. Más del 90% de las consultas y palabras clave pertenecen a esa larga cola, lo que convierte a toda esa periferia en el auténtico tejido conectivo de la red. Hoy, sin embargo, esa materia prima se está cerrando para el entrenamiento y el grounding de los modelos generativos. Google acaba de hacer un cambio sutil pero muy significativo: el mes pasado, Google eliminó silenciosamente el parámetro de búsqueda que permitía mostrar cien resultados en la página de resultados de la búsqueda (Search Engine Results Page, o SERP), lo que significa que ya no puedes ver cien resultados a la vez, el máximo predeterminado ahora es diez. Parte del cierre se supone que es una defensa legítima frente a abusos, pero otra parte, parece más bien un simple cerrojazo de la plataforma. Y con él, Google está impidiendo el acceso de algoritmos de terceros a ese long tail y, en la práctica, sesgando el mercado de LLMs. El primer problema de esto es que los crawlers de los LLM utilizan en la mayoría de los casos los resultados de las búsquedas de Google además de las suyas propias, lo que implica que Google se acaba de cargar el 90% de los resultados en los que esos LLMs se podían basar fácilmente. Estamos ante la generalización del opt-out contra la inteligencia artificial a nivel de infraestructura. Desde el 1 de julio de 2025, Cloudflare, que da servicio a cerca del 20% de la web, bloquea por defecto a los rastreadores de inteligencia artificial salvo permiso explícito, e introduce incluso esquemas de «paga por rastrear». Eso supuestamente protege a los creadores, pero también eleva una barrera sistémica: si no negocias, no entrenas. Los datos de Cloudflare y Fastly muestran además que la mayor parte del rastreo de inteligencia artificial se orienta a entrenamiento, no a derivar tráfico de vuelta a los editores. El resultado es menos acceso, y menos incentivos para abrirse. El segundo problema viene del caos de los bots que ignoran reglas, y que ha empujado a muchísimos sitios a medidas «de brocha gorda». Tras las investigaciones que pillaron a Perplexity camuflando sus user-agents y saltándose los robots.txt y los WAF, la reacción lógica de editores y proveedores ha sido bloquear más y mejor, sin matices. Ese endurecimiento corta indiscriminadamente el acceso de LLMs, pero castiga especialmente a los que no controlan el canal de búsqueda ni poseen acuerdos de licencia masivos. En tercer lugar, el diseño de las propias señales de Google: el mecanismo Google-Extended permite a los editores bloquear el uso de su contenido para Gemini sin penalización directa en ranking, pero Google mantiene otras rutas de uso vinculadas a Search, como los resúmenes tipo AI Overviews, fuera de ese control. Para muchos, la única defensa práctica es cerrar a todo lo que huela a inteligencia artificial. ¿A quién perjudica eso? A los LLMs que no son de Google. ¿A quién no tanto? A quien ya indexa la web entera y puede seguir accediendo mediante su Googlebot para fines «de búsqueda». La separación incompleta entre «índice de búsqueda» y «datos para IA» incentiva un bloqueo indiscriminado que termina afectando sobre todo a los rivales. Además, está la cuestión de los acuerdos exclusivos. Mientras el acceso abierto se complica cada vez más, Google asegura licencias selectivas de alto valor, como el acuerdo de sesenta millones de dólares anuales con Reddit para datos en tiempo real, y conversaciones con grandes medios para licenciar archivos. No hay nada intrínsecamente ilegítimo en licenciar, pero si a la vez los «controles» de la web empujan a cerrar la manguera pública, el efecto combinado es claro: los datos valiosos se privatizan y se concentran en quien ya domina la distribución. Esa asimetría es exactamente la que hace décadas definimos como «apalancamiento» de poder de plataforma, una clara competencia predatoria y una flagrante violación de las leyes antimonopolio. ¿De dónde sale ese «90% perdido»? No es una cifra mágica ni una auditoría oficial, pero sí una referencia robusta: la abrumadora mayoría de términos y consultas pertenece a la larga cola. Si la infraestructura por defecto bloquea rastreadores de inteligencia artificial, si los editores, hartos de abusos, blindan sus robots.txt y sus WAF, y si Google ofrece un opt-out parcial que en la práctica obliga a «cerrar para todos» para evitar que su inteligencia artificial use tu contenido, el resultado razonable es que los LLMs ajenos pierden acceso a la gran mayoría (en torno a ese 90%) de páginas pequeñas y especializadas, que no tienen capacidad de firmar acuerdos de licencia de sus contenidos. Es una reducción funcional del long tail para terceros, mientras el incumbente retiene ventajas por su posición en búsqueda y sus contratos.¿Es esto conducta anticompetitiva? El derecho de la competencia mira tres cosas: la posición de dominio en un mercado, la conducta de exclusión o apalancamiento, y sus efectos. Google es «gatekeeper» de facto del tráfico web: si diseña señales y políticas que, combinadas con su rastreo y con acuerdos selectivos, dejan a rivales de inteligencia artificial sin la materia prima esencial (la long tail), hablamos de una posible restricción de entradas (input foreclosure) muy similar a la que hemos visto en otros monopolios digitales. Que Francia multase a Google por entrenar inteligencia artificial con contenidos de prensa sin permiso, o que el propio buscador no separe nítidamente qué usa para Search y qué para Gemini, no ayuda a disipar la sospecha. Es un terreno perfecto para la supervisión de los reguladores de competencia y para la DMA europea.¿Qué habría que hacer para no matar la diversidad informativa ni la innovación en inteligencia artificial? Primero, una separación técnica y jurídica clara entre la indexación de búsqueda y el uso para inteligencia artificial generativa: si quieres usar contenido para entrenar o grounding, pídelo y negocia, pero no lo mezcles con las señales de posicionamiento que en la práctica, nadie puede rechazar sin cometer un «SEOcidio». Segundo, un compromiso de no discriminación de rastreadores de inteligencia artificial que cumplan estándares, con verificación independiente. Tercero, transparencia obligatoria: quién accede, para qué, y qué devuelve en tráfico o compensación. Y cuarto, un «common carrier» de datos abiertos no privativos con licencias compatibles que proteja, precisamente, esa larga cola. De lo contrario, el long tail se convertirá en un club privado: accesible para quien posea el buscador y los cheques, e invisible para todos los demás. Una clara distorsión del panorama competitivo.No hay que recurrir a teorías de la conspiración para entender lo que está pasando: es suficiente con ver las decisiones de producto y de política tomadas desde quien tiene poder sobre la plataforma. Si dejamos que el acceso a la larga cola de la web se cierre por diseño, el futuro de los LLMs será menos diverso, más dependiente de acuerdos bilaterales y, por supuesto, más favorable para quien ya controla la puerta de entrada. Y eso, en cualquier manual serio de competencia, debería ser cuando menos motivo de investigación.