示例展示(算力卡 x86 平台,多芯级联)

6. 示例展示(算力卡 x86 平台,多芯级联)#

6.1. Pulsar2#

Pulsar2 由 爱芯元智 自主研发 的 all-in-one 新一代神经网络编译器, 即 转换、 量化、 编译、 异构 四合一, 实现深度学习神经网络模型 快速、 高效 的部署需求. 针对新一代 AX6、M7、M5 系列芯片(AX615、AX630C、AX637、AX620Q、AX650A、AX650N、M76H、M57H 等)特性进行了深度定制优化, 充分发挥片上异构计算单元(CPU+NPU)算力, 提升神经网络模型的产品部署效率.

工具链下载地址: Pulsar2 相关使用文档:Pulsar2 Doc

Pulsar2提供多芯级联模型编译功能,当前支持Qwen系列LLM编译,以Qwen2.5-7B-Instruct为例 编译命令

pulsar2 llm_build --input_path Qwen2.5-7B-Instruct \
                  --output_path Qwen2.5-7B-Instruct-parallel \
                  --hidden_state_type bf16 \
                  --prefill_len 128 --kv_cache_len 2047 \
                  --last_kv_cache_len 128 --last_kv_cache_len 256 \
                  --last_kv_cache_len 384 --last_kv_cache_len 512 \
                  --last_kv_cache_len 640 --last_kv_cache_len 768 \
                  --last_kv_cache_len 896 --last_kv_cache_len 1024 \
                  --chip AX650 -c 1 --parallel 8 --tensor_parallel_size 4

6.2. LLM#

6.2.1. Qwen2.5-7B-Instruct-TensorParallel#

# 下载仓库
cd /root/
hf download AXERA-TECH/Qwen2.5-7B-Instruct-TensorParallel --local-dir Qwen2.5-7B-Instruct-TensorParallel

cd ./Qwen2.5-7B-Instruct-TensorParallel/
chmod 755 main_a* run_qwen2.5_7B_*
 
# 运行
cd /root/Qwen2.5-7B-Instruct-TensorParallel/
python3 qwen2.5_tokenizer_uid.py --host 127.0.0.1 --port 12345

# 再开一个终端执行
cd /root/Qwen2.5-7B-Instruct-TensorParallel/
./run_qwen2.5_7B_axcl_context_tp.sh

6.2.2. 性能对比#

以Qwen2.5-7B-Instruct为例,统计对比axcl-x86平台下单卡与多芯级联的相关性能

模型

TTFT(245token)

TPS(tokens/s)

DDR占用

flash占用

Qwen2.5-7B-Instruct-w8a16-parallel

2184.62ms

5.93

11.1GB

9.5GB

Qwen2.5-7B-Instruct-w4a16-parallel

2071.71ms

7.82

7.8GB

6.3GB

Qwen2.5-7B-Instruct-w4a16

2747.23ms

3.97

5.7GB

5.7GB