Nesta terça-feira (24), o Google revelou o TurboQuant, uma tecnologia de compressão ultraeficiente que promete mudar a forma como as inteligências artificiais lidam com grandes volumes de informação. O sistema permite que os modelos “lembrem” de muito mais dados ao mesmo tempo em que ocupam menos espaço físico na memória do hardware, tudo isso sem perder a precisão nas respostas.Para entender o impacto do TurboQuant, é preciso conhecer o KV Cache, que funciona como uma “memória de curto prazo” para a IA. Nessa memória temporária, o sistema anota as características mais importantes de uma conversa ou documento para não precisar reprocessar tudo do zero a cada nova interação.Atualmente, essa “memória de curto prazo” é o grande vilão do consumo de hardware: quanto mais a IA precisa lembrar, mais memória RAM de alta performance ela exige, o que encarece o serviço e limita a capacidade dos chatbots. O TurboQuant consegue comprimir esses dados em pelo menos 6 vezes, permitindo que a IA lide com contextos imensos de forma muito mais leve e econômica.PolarQuant e QJL: a matemática da eficiênciaO funcionamento do TurboQuant baseia-se em dois pilares técnicos que simplificam o armazenamento de dados:PolarQuant (troca de coordenadas): em vez de usar mapas complexos para localizar cada bit de informação, o algoritmo converte os dados para um sistema polar (baseado em ângulos e raios). Isso simplifica a geometria dos dados e remove o “peso morto” que métodos antigos de compressão carregavam.QJL (o revisor de 1 bit): para garantir que nenhuma informação vital seja perdida ao “espremer” os dados, o Google utiliza o QJL. Ele atua como um revisor matemático que elimina distorções, garantindo que a IA continue precisa mesmo operando com arquivos reduzidos.O “momento DeepSeek” do GoogleSegundo o TechCrunch, a inovação está sendo comparada ao “momento DeepSeek” do Google, uma referência ao modelo chinês que provou ser possível alcançar alta performance com custos de hardware reduzidos. Em testes realizados com modelos como Gemma e Mistral, o TurboQuant não apenas economizou espaço, mas também aumentou a velocidade de processamento em até 8 vezes em aceleradores H100.Embora ainda seja um avanço de laboratório que será detalhado na conferência ICLR 2026, a tecnologia deve ser integrada a sistemas de busca semântica e modelos como o Gemini, tornando as interações com IA muito mais ágeis. É importante notar, porém, que o TurboQuant foca na memória de uso (inferência) e não diminui a necessidade de RAM para o treinamento de novos modelos.O post Google: nova tecnologia TurboQuant permite à IA lembrar muito mais com menos espaço apareceu primeiro em Olhar Digital.