Topic: [2310.11453] BitNet: Scaling 1-bit Transformers for Large Language Models