Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

百度昆仑芯R200下,使用Paddle Inference如何指定模型运行精度(如INT8)? #70117

Open
czp97 opened this issue Dec 10, 2024 · 2 comments
Assignees
Labels
heco Hardware Ecosystem status/new-issue 新建 type/question 用户提问

Comments

@czp97
Copy link

czp97 commented Dec 10, 2024

请提出你的问题 Please ask your question

Paddle Inference 官方教程 使用XPU进行预测

在R200上部署yolov5s模型时,需要测试INT8模型的推理速度与推理精度。
官方教程在paddle.inference.Config.enable_xpu()中设置计算精度,但在下方注释中提到

# gemm 计算精度。可选值为:0(int8)、1(int16)、2(int31)
# 备注:gemm_compute_precision 对量化模型中的量化算子不生效
# 备注:目前仅使用 Paddle-Lite 推理时生效

想请教一下,Paddle Inference是否支持在R200上指定计算精度进行推理,如果支持应该怎么使用?

@czp97 czp97 added status/new-issue 新建 type/question 用户提问 labels Dec 10, 2024
@onecatcn onecatcn added the heco Hardware Ecosystem label Dec 11, 2024
@hong19860320
Copy link
Contributor

请提出你的问题 Please ask your question

Paddle Inference 官方教程 使用XPU进行预测

在R200上部署yolov5s模型时,需要测试INT8模型的推理速度与推理精度。 官方教程在paddle.inference.Config.enable_xpu()中设置计算精度,但在下方注释中提到

# gemm 计算精度。可选值为:0(int8)、1(int16)、2(int31)
# 备注:gemm_compute_precision 对量化模型中的量化算子不生效
# 备注:目前仅使用 Paddle-Lite 推理时生效

想请教一下,Paddle Inference是否支持在R200上指定计算精度进行推理,如果支持应该怎么使用?

这个是动态量化,目前只是透传给 Paddle Lite 生效,Paddle Inference 不支持该参数,可以尝试跑 PTQ 量化后的模型。

@czp97
Copy link
Author

czp97 commented Dec 16, 2024

请提出你的问题 Please ask your question

Paddle Inference 官方教程 使用XPU进行预测
在R200上部署yolov5s模型时,需要测试INT8模型的推理速度与推理精度。 官方教程在paddle.inference.Config.enable_xpu()中设置计算精度,但在下方注释中提到

# gemm 计算精度。可选值为:0(int8)、1(int16)、2(int31)
# 备注:gemm_compute_precision 对量化模型中的量化算子不生效
# 备注:目前仅使用 Paddle-Lite 推理时生效

想请教一下,Paddle Inference是否支持在R200上指定计算精度进行推理,如果支持应该怎么使用?

这个是动态量化,目前只是透传给 Paddle Lite 生效,Paddle Inference 不支持该参数,可以尝试跑 PTQ 量化后的模型。

还想请教一下几个问题:
1、这个透传指Paddle Lite,是指我在同一个运行文件中,导入Paddle Inferece的Config类进行精度设置,然后再导入Paddle Lite运行模型吗?

2、使用PaddleSlim进行ResNet50模型的Post量化,量化后的模型在Paddle Inferece下推理耗时相较于量化前翻倍,且XPU利用率长期处于5%以下,这是什么原因?

3、之前在PaddleSlim的Issue下看到,PaddleSlim量化生成的模型是fake int8的,需要在Paddle Lite下转换成int8模型运行,那么PTQ量化后的模型也是fake int8的吗?还是可以直接在Paddle Inference中运行?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
heco Hardware Ecosystem status/new-issue 新建 type/question 用户提问
Projects
None yet
Development

No branches or pull requests

4 participants