AI文摘

blog-thum
阿里开源Lookahead:RAG场景LLM推理吞吐提升2-5倍

一、背景LLM发展很快,能力也很强大,而其巨大的推理成本成为了制约其发展的主要因素,因此出现了很多优化LLM推理相关的工作。对于有损优化,相关工作主要集中在量化、蒸馏、剪枝等,比如常见的LLM

read more