Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

torch->onnx->mge过程中的后半段(onnx->mge)的问题 #65

Open
xinzi2018 opened this issue Feb 28, 2022 · 12 comments
Open

torch->onnx->mge过程中的后半段(onnx->mge)的问题 #65

xinzi2018 opened this issue Feb 28, 2022 · 12 comments

Comments

@xinzi2018
Copy link

xinzi2018 commented Feb 28, 2022

在onnx模型转mge模型时候无法正常运行,卡在下面这个位置点不动了。

from mgeconvert.converters.onnx_to_mge import onnx_to_mge
onnx_to_mge( 'onnx2.onnx', output="mge.mge", )
ONNX Model Producer : pytorch
ONNX Model Producer Version: 1.8
ONNX Model IR Version : 6
ONNX Model OpSet : 11
`

@dc3671
Copy link
Collaborator

dc3671 commented Mar 1, 2022

请问你的"mge.mge"是怎么导出的呢?ctrl-c退出的话有显示卡在哪了吗

麻烦附一下MegEngine版本、Python版本、ONNX版本、系统环境等

@xinzi2018
Copy link
Author

1.ctrl-c无响应;

2.文档上写的两种方式一种是直接命令行“convert onnx_to_mge -i model.onnx -o out.mge”,还有一种是python语句的形式;我两种都试了, 发现都会卡住;

3.python==3.6.5;
onnx==1.7.0;
megengine==1.7.0;
megconvert==0.7.0;
Ubuntu== 20.04.3 ;
torch==1.8.0;
torchvision==0.9.0;

@qq332982511
Copy link
Contributor

显卡型号是啥?

@xinzi2018
Copy link
Author

xinzi2018 commented Mar 1, 2022

1646102125476

@qq332982511
Copy link
Contributor

用nvidia-smi看起来更直接, 查了一下2204应该是3090的卡https://devicehunt.com/view/type/pci/vendor/10DE/device/2204
卡住的原因可能是用了cuda10的megengine , 导致触发了ptx的jit, 这会非常慢且无法
如果megengine要支持30系列卡需要使用cuda11.x的版本.
可以尝试的方案
1、用cu11系列的megengine https://github.com/Qsingle/MegEngine_CU11
2、使用cpu完成计算

@xinzi2018
Copy link
Author

截屏2022-03-01 11 05 18

好的我换下megengine版本试下~

@a419775258
Copy link
Collaborator

也可以 export CUDA_VISIBLE_DEVICES='' 使用 CPU 计算。

@xinzi2018
Copy link
Author

我刚试了下安装了MegEngine-1.4.0+cu111-cp36-cp36m-manylinux2014_x86_64.whl,
相对应的mgeconvert是否有版本要求?因为在mgeconvert==0.7.0的情况下import mgeconvert会报错
截屏2022-03-01 14 17 23

@xinzi2018
Copy link
Author

以为megengine1.4的版本无法搭配0.7.0版本的mgeconvert。

1.所以想要使用
git clone https://github.com/MegEngine/mgeconvert.git@v0.4.2 cd mgeconvert pip3 install . --user --install-option="--targets=caffe"
这种方式下降mgeconvert版本 ,但是一直git报403的错误(如果去掉“@v0.4.2”,git能正常clone)

2.由于https://github.com/Qsingle/MegEngine_CU11链接中只有1.4版本 ,所以我通过pip install直接下载了megengine1.8.1版本,依旧发生import mgeconvert的错误。(此时的mgeconvert==0.7.0)
截屏2022-03-01 17 54 55

@xinzi2018
Copy link
Author

import现在是不报错了,但是会报pool2D的问题。
image

@dc3671
Copy link
Collaborator

dc3671 commented Mar 2, 2022

@xinzi2018 这个报错就是 pooling mode 不支持吧,试试别的 mode?

@TanateT
Copy link

TanateT commented Mar 19, 2022

AssertionError::ONNX shape Infer mismatch with Mge : 1, 3, 320, 640 vs [ 1 3 319 640]Mge

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

6 participants