Los grandes modelos de IA como GPT-4 o Claude han agotado prácticamente todo el contenido de texto disponible en internet después de procesar trillones de palabras durante su entrenamiento. Esta situación ha llevado a las empresas tecnológicas a buscar nuevas fuentes de datos para seguir mejorando sus sistemas, y la han encontrado en algo mucho más cercano: nuestro comportamiento diario en el mundo físico.Según nos cuentan desde TechSpot, donde explican que las estimaciones apuntan a un agotamiento completo de datos en texto para 2026. Los sistemas de IA han comenzado a capturar información a través de cámaras de seguridad, sensores de movimiento, asistentes de voz y toda la red de dispositivos conectados que nos rodea.De leer textos a observar personasEl cambio es radical: en lugar de analizar millones de artículos, libros o páginas web, los sistemas actuales estudian cómo nos comportamos en el día a día. Esto significa que la IA puede aprender de nuestras rutinas matutinas, de cómo organizamos nuestro espacio de trabajo o de la forma en que manejamos diferentes dispositivos.Los datos de comportamiento ofrecen un contexto que los textos nunca pudieron proporcionar, permitiendo que los sistemas comprendan no solo qué pensamos, sino cómo actuamos. Esta evolución afecta directamente a sectores como la domótica, donde los sistemas pueden anticipar nuestras necesidades basándose en patrones previos.La tecnología de entrenamiento acelerado con luz permite procesar estos nuevos volúmenes de datos cinco veces más rápido que los métodos tradicionales. Esto acelera considerablemente el desarrollo de estos sistemas observadores que aprenden de la robótica viendo cómo realizamos tareas cotidianas.El problema surge con la privacidad y el consentimiento. Muchos de estos datos se capturan de forma pasiva: cámaras en centros comerciales, sensores en edificios inteligentes o micrófonos en asistentes domésticos que están siempre escuchando. A diferencia de lo que escribimos voluntariamente en internet, estos datos se generan sin que seamos plenamente conscientes de ello.Los investigadores también advierten de que entrenar IA con contenidos de baja calidad puede deteriorar su funcionamiento, y este riesgo se amplifica con datos de comportamiento mal contextualizados. Si entrenar con contenido basura de internet ya causa problemas, hacerlo con datos sesgados puede generar sistemas que malinterpreten nuestras acciones.La IA ha pasado de estudiante a observadora. Después de leer todo lo que hemos escrito, ahora quiere entender cómo vivimos. Este cambio hacia la observación directa del comportamiento humano abre debates sobre privacidad, consentimiento y los límites de la vigilancia tecnológica en nuestras vidas cotidianas, especialmente cuando estos datos se capturan sin nuestro conocimiento explícito.El artículo La IA ya se ha leído todo Internet: ahora quiere aprender de ti fue publicado originalmente en Andro4all.