De Geoffrey Irving, Paul Christiano e Dario Amodei. 22 de outubro 2018. Resumo Para tornar os sistemas de IA amplamente úteis para tarefas desafiadoras do mundo real, precisamos que eles aprendam objetivos e preferências humanas complexas. Uma abordagem para especificar objetivos complexos pede aos humanos que julguem durante o treinamento quais comportamentos do agente são […] O post Segurança da IA via Debate apareceu primeiro em 80.000 Horas: Como fazer a diferença com sua carreira.