本文最后更新于 2025-04-14，文章内容可能已经过时。

使用vLLM部署

git clone -b qwen2_omni_public https://github.com/fyabc/vllm.git
cd vllm
git checkout 729feed3ec2beefe63fda30a345ef363d08062f8
pip install setuptools_scm torchdiffeq resampy x_transformers qwen-omni-utils accelerate
pip install -r requirements/cuda.txt 
pip install .
pip install git+ssh://git@github.com/BakerBunker/transformers@21dbefaa54e5bf180464696aa70af0bfc7a61d53
#最后一条命令可以先拉取再安装
# git clone git@github.com/BakerBunker/transformers
# cd transformers
# git checkout 21dbefaa54e5bf180464696aa70af0bfc7a61d53
# pip install .

运行vLLM官方推理

cd vLLM
python examples/offline_inference/qwen2_5_omni/end2end.py --model Qwen/Qwen2.5-Omni-7B --prompt audio-in-video-v2 --enforce-eager --thinker-only

使用Docker部署

拉取镜像

docker run --gpus all --ipc=host --network=host -v G:\models:/data/shared/Qwen/models --name qwen2.5-omni -it qwenllm/qwen-omni:2.5-cu121 bash

运行

 python web_demo.py --server-port 17860 -c /data/shared/Qwen/models/Omini

@https://help.aliyun.com/zh/model-studio/@https://help.aliyun.com/zh/model-st

udio/qwen-omni#efcd487687nwp 这篇文
@https://help.aliyun.com/zh/model-studio/qwen-omni#efcd487687nwp 这篇文档是关于Omini的调用示例，根据该文档修改后端代码以支持文本输入、文本+音频输入、图片+文本输入、视频+文本输入档是关于Omini的调用
@https://help.aliyun.com/zh/model-studio/qwen-omni#efcd487687nwp 这篇文档是关于Omini的调用示例，根据该文档修改后端代码以支持文本输入、文本+音频输入、图片+文本输入、视频+文本输入示例，根据该文档修改后端代码以支持文本输入、文本+音频输入、图片+文本输入、视频+文本输入qwen-omni#efcd487687nwp 这篇文档是关于Omini的调用示例，根据该文档修改后端代码以支持文本输入、文本+音频输入、图片+文本输入、视频+文本输入