Login
From:
spaces.ac.cn
(Uncensored)
subscribe
初探muP:超参数的跨模型尺度迁移规律 - 科学空间|Scientific Spaces
https://spaces.ac.cn/archives/10770
links
backlinks
Roast topics
Find topics
Find it!
众所周知,完整训练一次大型LLM的成本是昂贵的,这就决定了我们不可能直接在大型LLM上反复测试超参数。一个很自然的想法是希望可以在同结构的小模型上仔细搜索超参数,找到最优组合后直接迁移到大模型上...