The increasing size of large language models has posed challenges for deployment and raised concerns about environmental impact due to high energy consumption. In this work, we introduce BitNet, a scalable and stable 1-bit Transformer architecture designed for large language models. Specifically, we introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to train 1-bit weights from scratch. Experimental results on language modeling show that BitNet achieves competitive pe...| arXiv.org
Sakana.aiの進化的モデルマージを記述した論文"Evolutionary Optimization of Model Merging Recipes" の論文要約メモです。 はじめに Evolutionary Optimization of Model Merging Recipes 概要 手法 結果 LLMタスク VLMタスク おわりに/所感 参考 はじめに 今回まとめる論文はこちら: arxiv.org 2024/03/19 公開 By Sakana AIのチーム コード: GitHub - SakanaAI/evolutionary-model-merge: Official re…| BioErrorLog Tech Blog
論文読みの手法を、Andrew Ngの講義動画から学びます。 はじめに Andrew Ngに学ぶ論文の読み方 論文を読む 理解を確かめる おわりに 参考 はじめに 最近AI関連を調べている中で、論文に目を通す機会も増えてきました。 そんな中、かのAndrew Ng先生がStanford CS230の講義のなかで論文の読み方について講義している動画を見つけました。 Stanford CS230: Deep Learning | Autumn 2018 | Lecture ...| BioErrorLog Tech Blog
Andrej KarpathyのNeural Networks: Zero to Hero動画シリーズがとても良かったので紹介します。 はじめに 前提 Neural Networks: Zero to Hero 1. ニューラルネットワークと誤差逆伝播法への入門: microgradの構築 2. 言語モデリングへの入門: makemoreの構築 3. makemoreの構築その2: MLP 4. makemoreの構築その3: 活性化と勾配、バッチ正規化 5. makemoreの構築その4: 誤差逆伝播の達人へ 6. makemoreの構築...| BioErrorLog Tech Blog
Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-task performance, while being significantly more cost-effective in terms of latency, memory, throu...| arXiv.org