In un raro esperimento di cooperazione, OpenAI e Anthropic hanno pubblicato valutazioni incrociate sui rispettivi modelli: emergono segnali di robustezza nei modelli di ragionamento, criticità su uso improprio e compiacenza nei modelli general-purpose