示例展示（算力卡 x86 平台，多芯级联）

目录

6. 示例展示（算力卡 x86 平台，多芯级联）#

6.1. Pulsar2#

Pulsar2 由爱芯元智自主研发的 all-in-one 新一代神经网络编译器, 即转换、量化、编译、异构四合一, 实现深度学习神经网络模型快速、高效的部署需求. 针对新一代 AX6、M7、M5 系列芯片（AX615、AX630C、AX637、AX620Q、AX650A、AX650N、M76H、M57H 等）特性进行了深度定制优化, 充分发挥片上异构计算单元(CPU+NPU)算力, 提升神经网络模型的产品部署效率.

工具链下载地址: Pulsar2 相关使用文档：Pulsar2 Doc

Pulsar2提供多芯级联模型编译功能，当前支持Qwen系列LLM编译，以Qwen2.5-7B-Instruct为例编译命令

pulsar2 llm_build --input_path Qwen2.5-7B-Instruct \
                  --output_path Qwen2.5-7B-Instruct-parallel \
                  --hidden_state_type bf16 \
                  --prefill_len 128 --kv_cache_len 2047 \
                  --last_kv_cache_len 128 --last_kv_cache_len 256 \
                  --last_kv_cache_len 384 --last_kv_cache_len 512 \
                  --last_kv_cache_len 640 --last_kv_cache_len 768 \
                  --last_kv_cache_len 896 --last_kv_cache_len 1024 \
                  --chip AX650 -c 1 --parallel 8 --tensor_parallel_size 4

6.2. LLM#

6.2.1. Qwen2.5-7B-Instruct-TensorParallel#

# 下载仓库
cd /root/
hf download AXERA-TECH/Qwen2.5-7B-Instruct-TensorParallel --local-dir Qwen2.5-7B-Instruct-TensorParallel

cd ./Qwen2.5-7B-Instruct-TensorParallel/
chmod 755 main_a* run_qwen2.5_7B_*
 
# 运行
cd /root/Qwen2.5-7B-Instruct-TensorParallel/
python3 qwen2.5_tokenizer_uid.py --host 127.0.0.1 --port 12345

# 再开一个终端执行
cd /root/Qwen2.5-7B-Instruct-TensorParallel/
./run_qwen2.5_7B_axcl_context_tp.sh

6.2.2. 性能对比#

以Qwen2.5-7B-Instruct为例，统计对比axcl-x86平台下单卡与多芯级联的相关性能

模型	TTFT(245token)	TPS(tokens/s)	DDR占用	flash占用
Qwen2.5-7B-Instruct-w8a16-parallel	2184.62ms	5.93	11.1GB	9.5GB
Qwen2.5-7B-Instruct-w4a16-parallel	2071.71ms	7.82	7.8GB	6.3GB
Qwen2.5-7B-Instruct-w4a16	2747.23ms	3.97	5.7GB	5.7GB