Modelos mais potentes parecem perceber que estão sendo testados, o que pode levar a alterações de comportamento não representativas de cenários reais, segundo pesquisa da Apollo Research| Núcleo Jornalismo