A General Reasoning acaba de divulgar o pior boletim até agora para as inteligências artificiais de ponta. Oito dos principais modelos, incluindo Claude, Grok, Gemini e GPT-5.4, receberam um saldo virtual e foram solicitados a construir uma estratégia de apostas baseada em aprendizado de máquina para uma temporada completa da Premier League Inglesa de 2023-24.Todos eles perderam dinheiro. Vários deles faliram completamente.O benchmark é chamado KellyBench, nomeado em homenagem ao critério de Kelly, uma fórmula de 1956 que indica exatamente quanto apostar quando se tem uma vantagem sobre o mercado. Todos os modelos conseguiam recitar a fórmula de Kelly. Nenhum deles conseguiu realmente usá-la.O Grok 4.20 da xAI falhou em todas as três rodadas, indo à falência total em uma e desistindo no meio da temporada nas outras duas. O Gemini Flash do Google desistiu em duas das três rodadas após fazer uma única aposta de aproximadamente £273.000 em uma vantagem de três pontos percentuais na taxa histórica de vitórias — e perdê-la. O Claude Opus 4.6, o melhor modelo da Anthropic, perdeu 11% em média e, de alguma forma, acabou parecendo o adulto responsável na situação.De fato, o artigo de pesquisa menciona que o antigo modelo Dixon-Coles, do final dos anos 1990, superou a maioria dos modelos de ponta avaliados — terminando à frente de seis dos oito, mesmo com dados limitados.Leia também: Perguntamos para 3 IAs como investir R$ 10 mil, veja quanto elas colocaram em criptomoedas“Dixon-Coles é uma linha de base desatualizada dos anos 2000 que não utiliza todos os dados disponíveis nem considera a não estacionariedade de maneira consistente”, observam os pesquisadores. “É, portanto, ainda mais surpreendente que muitos modelos de ponta, como o Gemini 3.1 Pro, não consigam superá-lo ou igualá-lo no KellyBench.”Isso importa além do futebol. No início deste ano, benchmarks de inteligência artificial mostraram que Claude poderia dominar simulações de negócios através de fixação de preços, acordos de cartel e engano estratégico.Esse processo de tomada de decisão envolveu competição estática, oponentes limitados, pontuação clara e assim por diante. O KellyBench é o oposto: 120 dias de jogos, dados em constante mudança, um mercado que fica mais inteligente a cada semana e times promovidos com nenhum histórico.Os pesquisadores chamam o problema central de uma “lacuna entre conhecimento e ação”. É exatamente o que parece.As decisões de negócios são baseadas principalmente em condições fixas, enquanto as apostas esportivas são um mercado mais fluido e mutável, o que dificulta as coisas para esses modelos. “O KellyBench exige que os agentes mantenham uma intenção coerente em milhares de decisões sequenciais, monitorem as consequências dessas decisões e fechem o ciclo entre observação e ação”, argumentam os pesquisadores.Ainda não chegamos lá, obviamente.Os modelos conseguiam articular a estratégia correta, diagnosticar quando algo estava quebrado e identificar a causa de suas perdas, mas falhavam em verificar se o código realmente implementava o que haviam planejado, em perceber quando a execução divergia da intenção e em agir com base em suas próprias descobertas.O GLM-5 escreveu três documentos separados de autocrítica durante sua execução. Cada um identificou corretamente que sua taxa de empate de 25% codificada e a superestimação da vantagem de jogar em casa estavam destruindo seus retornos. Em certo momento, com seu saldo em torno de £44.200, ele observou que sua taxa de vitória em casa prevista de 40% estava atingindo apenas 30% na realidade. Ele nunca mudou o código. Continuou apostando da mesma forma até o dinheiro acabar.O Kimi K2.5 fez algo indiscutivelmente mais impressionante e mais trágico. Ele escreveu uma função de alocação fracionária Kelly matematicamente correta — a fórmula certa, estruturada adequadamente. Mas nunca a executou. Um bug de formatação fez com que o modelo enviasse um comando bash quebrado aproximadamente 50 vezes seguidas. Seu raciocínio notou o problema. Em seguida, enviou o comando quebrado idêntico novamente. Uma aposta acidental de £114.000 — 98% de seu saldo restante — em uma partida entre Burnley e Luton finalizou o trabalho.O GPT-5.4 foi o mais metódico. Ele gastou 160 chamadas de ferramenta construindo modelos antes de fazer uma única aposta, então calculou que sua perda logarítmica (0,974) era apenas um pouco pior que a do mercado (0,971) e concluiu que não tinha vantagem. Passou o resto da temporada fazendo apostas mínimas para preservar o capital. Raciocínio sólido.O modelo da OpenAI perdeu 13,6% em média. Apenas uma rodada custou aproximadamente US$2.012 para ser executada.Ross Taylor, CEO da General Reasoning e ex-pesquisador de inteligência artificial da Meta, disse ao Financial Times que a maioria dos benchmarks de inteligência artificial opera em “ambientes muito estáticos” que pouco se assemelham ao mundo real. “Há muito entusiasmo em torno da automação da inteligência artificial, mas não houve muitas tentativas de avaliar a IA em ambientes de longo prazo e do mundo real”, afirmou ele.A equipe da General Reasoning não respondeu imediatamente a um pedido de comentários do Decrypt.Para medir a qualidade da estratégia além dos retornos brutos, os pesquisadores construíram uma rubrica de sofisticação de 44 pontos com especialistas de fundos de apostas quantitativas — cobrindo desenvolvimento de recursos, dimensionamento de apostas, tratamento de não estacionariedade e execução. O Claude Opus 4.6 obteve a pontuação mais alta, com 32,6%. Menos de um terço dos pontos disponíveis. No melhor modelo.Pontuações de sofisticação mais altas previram significativamente taxas de falência mais baixas (p = 0,008) e correlacionaram-se com melhores retornos gerais. Os modelos não estão falhando porque o mercado é imbatível. Eles estão falhando porque não estão usando o que têm.Isso se encaixa em um padrão. Pesquisas publicadas no ano passado descobriram que os modelos de inteligência artificial desenvolvem algo semelhante ao vício em jogos de azar quando instruídos a maximizar recompensas — indo à falência em até 48% das vezes em testes simulados de máquinas caça-níqueis. Uma competição separada de negociação de criptomoedas com dinheiro real encontrou os mesmos problemas de confiabilidade durante períodos prolongados.O modelo de melhor desempenho obteve um saldo final médio de £89.035 — uma perda líquida de £10.965 em uma aposta inicial normalizada de £100.000. Gradient boosting, alocação fracionária Kelly, meses de futebol da Premier League, desempenho de ponta… tudo isso para ser liquidado.* Traduzido e editado com autorização do Decrypt.Liquidez sem vender as suas criptos: se você investe pensando no longo prazo, sabe que desmontar posição tem custo. Com o CriptoCrédito do MB, suas criptos viram garantia para um empréstimo liberado de forma rápida. Dinheiro em até 5 minutos, sem burocracia, direto no app! Conheça agora!O post A inteligência artificial pode vencer o mercado de apostas esportivas? 8 modelos tentaram apareceu primeiro em Portal do Bitcoin.