[pytorch]PyTorch什么时候可以支持RTX系列GPU?

2024-03-20 333 views
5
?特征

现在Pytorch无法直接支持cuda10,因此无法在RTX系列GPU上运行

动机

只是想让 Pytorch 尽快在我的 RTX 2080ti 上运行,谢谢

回答

4

我们将在下一版本中提供带有 CUDA 10 的 PyTorch 二进制文件。现在您可以从源代码构建,正如 @jendrikjoe 提到的

4

非常感谢,我会检查!

2

谢谢并期待!

4

我通过从源代码编译重新安装了pytorch,但出现了新的错误。每当我调用 torch.cuda 时,它都会卡住并永远挂起。

5

@xiongzhp:您可以按照错误报告指南来提供您的环境吗?:)

环境

请复制并粘贴我们的环境收集脚本的输出 (或手动填写下面的清单)。

您可以获取脚本并使用以下命令运行它:

wget https://raw.githubusercontent.com/pytorch/pytorch/master/torch/utils/collect_env.py
# For security purposes, please check the contents of collect_env.py before running it.
python collect_env.py
8

`PyTorch 版本:1.0.0a0+17c6d16 是调试版本:没有用于构建 PyTorch 的 CUDA:10.0.130

操作系统:Ubuntu 16.04.5 LTS GCC版本:(Ubuntu 5.4.0-6ubuntu1~16.04.10)5.4.0 20160609 CMake版本:版本3.12.2

Python 版本:3.6 CUDA 是否可用:是 CUDA 运行时版本:无法收集 GPU 型号和配置:GPU 0:GeForce RTX 2080 Ti GPU 1:GeForce GTX 1080

Nvidia 驱动程序版本:410.66 cuDNN 版本:可能是以下之一:/usr/lib/x86_64-linux-gnu/libcudnn.so.7.3.1 /usr/lib/x86_64-linux-gnu/libcudnn_static_v7.a

相关库的版本: [pip] 无法收集 [conda] magma-cuda90 2.3.0 1 pytorch [conda] magma-cuda92 2.3.0 1 pytorch [conda] pytorch 0.4.1 py36ha74772b_0
[conda] torch 1.0.0a0+17c6d16 [康达]火炬0.5.0a0+9ee5133 ` @jendrikjoe 非常感谢

1

@xiongzhp:尝试通过重复 pip uninstall torch 直到不再找到任何版本来卸载所有 torch 安装。然后再次从源代码构建它,看看是否可以解决问题。python 可能指的是错误的火炬。否则,我会将您推荐给另一个更有知识的人;)

6

@xiongzhp 还请卸载magma-cuda90magma-cuda92打包,因为您正在编译 CUDA10,然后重新编译 pytorch。这可能是挂起的原因。

7

nightly 正在与我的 2080 ti 和 CUDA 9.x 以及 410 驱动程序配合使用。没有本地编译。毫无疑问,它还没有充分利用所有的好处。我确实遇到了上面报告的错误,但在第二次尝试运行操作时,它可以工作,并且性能比我的 Titan XP 更好。

8

@digitalspecialists 你好,你能告诉我该怎么做吗?我也安装了410driver,现在应该安装cuda9.0还是cuda10.0?你能给我一些建议吗?

5

最新版本对master我有用 - 我正在与我的 RTX 卡pytorch一起使用。fairseq如果有人感兴趣,我可以提供我的pytorch轮子:)

7

@Andrew-Zhu -> 我安装了 CUDA 10(debs 可以在这个repo中找到),然后 NVIDIA 驱动程序会自动出现:)

1

@stefan-it 谢谢!我在2080ti上安装了CUDA9.2和pytorch0.4.1,但是它比我的带有CUDA8.0和pytorch0.4.1的1080ti机器运行得慢。为什么?您能分享一下您构建的 pytorch 轮吗?这会有帮助的!

6

@Andrew-Zhu您可以在这里找到Python 3.6的47c0d88的内置轮子(torch-1.0.0a0+47c0d88-cp36-cp36m-linux_x86_64.whl),并且pip3 install numpy pyyaml mkl mkl-include setuptools cmake cffi typing是需要的:)

8

@stefan-太酷了!谢谢

6

@Andrew-Zhu您可以在这里找到Python 3.6的47c0d88 的内置轮子(torch-1.0.0a0+47c0d88-cp36-cp36m-linux_x86_64.whl),并且是需要的:)pip3 install numpy pyyaml mkl mkl-include setuptools cmake cffi typing

我安装了 CUDA10 并构建了你的 pytorch 轮(torch-1.0.0a0+47c0d88-cp36-cp36m-linux_x86_64.whl)。完成后,我尝试导入 torch 但报告错误,如下:

导入 torch Traceback(最近一次调用最后一次):文件“”,第 1 行,在 文件“/home/pc/anaconda3/lib/python3.6/site-packages/torch/ init .py”,第 84 行,位于 from torch._C import * ImportError: libmkl_intel_lp64.so: 无法打开共享对象文件: 没有这样的文件或目录

你能告诉我为什么吗?非常感谢!

5

@amuier,实际上现在我使用conda安装pytorch0.4.1,并安装cuda9.2和cuda10。而且它有效!你可以尝试一下。我不知道为什么它有效,但我真的没有编译任何东西。但问题是我的一些代码运行速度比我的 1080ti 机器慢。

3

@Andrew-Zhu,我之前在2080Ti上安装过cuda9.0,并使用conda安装了pytorch。但每次运行这段代码: torch.nn.DataParallel(model).cuda() ,,,非常慢!运行此代码时会卡住:输出=模型(输入,进度)。我不知道为什么。我正在尝试 cuda10,现在从源代码重新安装 pytorch。

5

@amuier 你安装了这些依赖项吗:pip3 install numpy pyyaml mkl mkl-include setuptools cmake cffi typing?我猜mkl*你的系统上缺少这些:)

6

@stefan-it,我已经安装了该依赖项,但它仍然无法工作,我不知道为什么。我还需要做其他操作吗?谢谢您并期待您的回复。

6

@cpbotha ,非常感谢,我现在正在尝试。

5

我尝试了同样的方式@amuier 得到了错误: ImportError: libmkl_intel_lp64.so: 无法打开共享对象文件: 没有这样的文件或目录 有解决方案吗?

2

我们什么时候可以期待带有 CUDA 10 的 PyTorch 稳定版本?

8

另一个 pytorch 1.0 轮子添加到聚会中:https://drive.google.com/file/d/1ZPByRMoGxZ4o16TgLFDqHhFGb9CoJ3-x/view?usp=sharing

为 python3.6 和 ubuntu 16.04 编译。我还没有遇到这个轮子的 LD_LIBRARY_PATH 问题。用康达测试。如果您遇到类似的错误,ImportError: /lib/x86_64-linux-gnu/libm.so.6: version 'GLIBC_2.27' not found这个轮子可能会解决您的问题。我在上面发布的轮子上遇到了这个问题,我认为这可能是由于 ubuntu 18.04 与 ubuntu 16.04 的差异造成的。

8

支持 cuda10 的下一个版本有预计日期吗?

7

@cpbotha:

* Slow cuda means you are mixing cuda10 and cuda9. Please ensure that you have a 100% pure cuda 10 system.

* libmkl issue: indeed ensure that you install conda mkl package, but also remember to set LD_LIBRARY_PATH for the pytorch 1.0 wheel.

* You can read more about the LD_LIBRARY_PATH issue here: https://vxlabs.com/2018/11/04/pytorch-1-0-preview-nov-4-2018-packages-with-full-cuda-10-support-for-your-ubuntu-18-04-x86_64-systems/

我可能会面临这个问题。你能告诉我如何彻底检查我是否混合安装了cuda吗?

我刚刚使用 RTX 2070 设置了一个新系统,并且我知道我没有手动安装任何 cuda 10,因为它无法与 TensorFlow 一起使用。所以我想我只有 cuda-9: 图像 我的安装程序: 图像

然而,如果我运行nvidia-smi,我会看到 CUDA 10。这是为什么? 图像

5

解决这个问题,因为 PyTorch 现在可以使用 CUDA10 并运行。

3

@soumith 它包含在 1.0 中还是仅包含在夜间构建中?

8

@solomatov 只需查看 PyTorch 网站:https://pytorch.org/有各种 CUDA 和 Python 版本的构建:)

0

@rsangole 我和你有同样的问题。你弄清楚原因了吗?

2

@williamFalcon 现在实际上效果很好。当前版本的驱动程序/CUDA 没有问题。不记得那是什么了。