Hello| kellerjordan.github.io
A cheap, GPU/TPU-friendly method for eigenvalue clipping useful for e.g. controlling weight norms in deep learning and projection on the positive semi-definite cone.| leloykun.github.io
随着LLM时代的到来,学术界对于优化器的研究热情似乎有所减退。这主要是因为目前主流的AdamW已经能够满足大多数需求,而如果对优化器“大动干戈”,那么需要巨大的验证成本。因此,当前优化器的变化,...| kexue.fm