小目录

ExLlamaV2

高速GPTQ模型推理引擎

ExLlamaV2是一个针对GPTQ量化大语言模型的高速CUDA推理引擎，提供比通用推理引擎更快的生成速度，特别适合在NVIDIA GPU上运行量化4bit/8bit模型，获得速度和显存占用的平衡。