OpenAI libera Privacy Filter: un modelo open source de 1.500 millones de parámetros que borra tus datos personales antes de que lleguen a la nube

Wait 5 sec.

OpenAI ha publicado este 22 de abril Privacy Filter, un modelo open source bajo licencia Apache 2.0 diseñado para detectar y ocultar información personal identificable (PII) en texto antes de que salga de tu dispositivo. Disponible en Hugging Face y GitHub, se ejecuta en local en un portátil estándar o directamente en el navegador, y clasifica la información sensible en ocho categorías: nombres privados, direcciones, correos, teléfonos, URLs, fechas, números de cuenta y secretos (contraseñas, API keys). En el benchmark estándar PII-Masking-300k alcanza un 96% de F1 directamente tras ejecutarlo sin ajustes. VentureBeat, Decrypt y Help Net Security cubren el lanzamiento.Técnicamente el modelo tiene detalles interesantes. Es un clasificador bidireccional de tokens derivado de la familia gpt-oss (los modelos open-weight que OpenAI liberó hace unos meses), con 1.500 millones de parámetros totales pero solo 50 millones activos gracias a una arquitectura Mixture-of-Experts. Esa reducción del footprint activo permite throughput alto incluso en CPU. El contexto alcanza los 128.000 tokens, suficiente para procesar documentos legales completos o cadenas largas de correos sin necesidad de fragmentar el texto. Y usa un decodificador Viterbi con esquema BIOES (Begin, Inside, Outside, End, Single) que evalúa la secuencia completa antes de decidir: si detecta «John» como inicio de un nombre, tenderá estadísticamente a marcar «Smith» como continuación en lugar de como entidad separada.Lo que hace útil a Privacy Filter frente a herramientas tradicionales de redacción es el contexto. Los sistemas basados en patrones (regex, detección por formato) fallan en casos ambiguos: ¿»Annie» es un nombre privado o una marca? ¿»123 Main Street» es una dirección residencial o un negocio público? Privacy Filter lee las frases de alrededor y toma decisiones basadas en esa pista semántica. El caso de uso principal es enviar datos sanitizados a ChatGPT u otros LLM externos manteniendo los originales en local.OpenAI es explícita sobre las limitaciones. En su documentación incluye una advertencia destacada: el modelo «no es una herramienta de anonimización, no es una certificación de cumplimiento y no sustituye una revisión de política». Puede fallar con identificadores poco habituales, sobre-redactar en textos cortos donde falta contexto, y su rendimiento varía entre idiomas. En dominios de alto riesgo (legal, médico, financiero) la revisión humana sigue siendo necesaria. Es, según definición de la propia compañía, una herramienta de ayuda a la redacción, no una garantía de seguridad.Los casos de uso prácticos son más amplios que los que suele permitir este tipo de tecnología. Un abogado freelance puede pasar notas de caso por ChatGPT sin exponer al cliente. Un médico puede redactar derivaciones sin comprometer la identidad del paciente. Una pyme puede usar IA para resumir correos de clientes sin entregar sus nombres a terceros. Y cualquier usuario que quiera preguntar a un chatbot cómo reescribir un email al casero puede hacerlo sin entregar su propia dirección. En un contexto donde las extensiones de navegador como Urban VPN Proxy han sido pilladas recolectando conversaciones privadas de chatbots sin consentimiento, tener una herramienta que sanitiza antes del envío cambia las reglas del juego para el usuario consciente.Mi valoración: Privacy Filter es el tipo de lanzamiento que indica madurez del ecosistema de IA. Durante años, la conversación sobre privacidad en chatbots ha sido «no pegues datos sensibles» dicho en forma de advertencia. Pero todos los días millones de personas pegan declaraciones de impuestos, historiales médicos, contratos, claves y secretos en ChatGPT, Claude, Gemini y otros. Un modelo gratis, open source, ligero y ejecutable en local es una capa de defensa realista que el usuario puede adoptar sin cambiar su flujo de trabajo. OpenAI está siendo honesta al no vender esto como «anonimización completa»: el 96% de F1 es bueno pero no perfecto, y en salud o finanzas un 4% de fugas es demasiado. Pero como capa adicional a las prácticas de la empresa, vale muchísimo. Lleva además implicaciones claras para el ecosistema tras la filtración de datos en la API de OpenAI en noviembre de 2025, donde un ataque a la cadena de suministro (Mixpanel) expuso datos de usuarios. Herramientas como Privacy Filter son parte del reconocimiento de OpenAI de que la confianza empresarial requiere no solo promesas, sino herramientas entregables. Y al publicarlo bajo Apache 2.0, OpenAI permite además que competidores, investigadores y auditores lo inspeccionen y mejoren. Contrasta con propuestas como Proton Lumo, que también apuesta por privacidad pero como servicio cerrado con IA europea. Los dos caminos son legítimos: OpenAI suelta la herramienta y confía en que el ecosistema la adopte; Proton construye un producto vertical con privacidad nativa. Para el usuario, cuanto más opciones haya, mejor.Preguntas frecuentes¿Es realmente seguro para datos médicos o legales? No como única línea de defensa. OpenAI advierte explícitamente que no es una herramienta de cumplimiento regulatorio (HIPAA, RGPD) y que en dominios sensibles sigue siendo necesaria revisión humana y evaluación específica del dominio. ¿Dónde lo descargo? En Hugging Face bajo openai/privacy-filter y en GitHub en el repositorio oficial de OpenAI. La licencia Apache 2.0 permite uso comercial, modificación y redistribución. ¿Funciona en español? El rendimiento varía entre idiomas según advierte la documentación. El modelo se entrenó principalmente en inglés; en español el F1 será más bajo, y se recomienda fine-tuning en datos del dominio para producción.La noticia OpenAI libera Privacy Filter: un modelo open source de 1.500 millones de parámetros que borra tus datos personales antes de que lleguen a la nube fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.