AI文摘

blog-thum
LLaMA微调显存需求减半,清华提出4比特优化器

大家好,我是DASOU。很多同学没有一个意识,就是说在大模型的训练和微调过程中,优化器的状态是显存主要开销之一。说个具体例子吧,这样更好去理解,比如说LLaMA-7B,该模型含的参数数量大约7B,

read more