高速GPTQ模型推理引擎
ExLlamaV2是一个针对GPTQ量化大语言模型的高速CUDA推理引擎,提供比通用推理引擎更快的生成速度,特别适合在NVIDIA GPU上运行量化4bit/8bit模型,获得速度和显存占用的平衡。