Topic: [1811.07871] Scalable agent alignment via reward modeling: a research direction