[pytorch]PyTorch什么时候可以支持RTX系列GPU？

5

嘿@ChaoYue0307，

（通常）可以使用 CUDA10 从源代码构建 PyTorch。至少在我的 GTX 1070 和 P5000 上它工作得很好。我无法为 RTX 系列提供任何指南，但这应该没有什么不同。只需为其安装 CUDA10 和 Cudnn，然后按照https://github.com/pytorch/pytorch#from-source中的指南安装 magma-cuda92 :)

希望这有帮助和欢呼，

詹德里克

jendrikjoe

8

我们将在下一版本中提供带有 CUDA 10 的 PyTorch 二进制文件。现在您可以从源代码构建，正如 @jendrikjoe 提到的

zou3519

7

非常感谢，我会检查！

ChaoYue0307

9

谢谢并期待！

ChaoYue0307

3

我通过从源代码编译重新安装了pytorch，但出现了新的错误。每当我调用 torch.cuda 时，它都会卡住并永远挂起。

xiongzhp

6

@xiongzhp：您可以按照错误报告指南来提供您的环境吗？:)

环境
请复制并粘贴我们的环境收集脚本的输出（或手动填写下面的清单）。

您可以获取脚本并使用以下命令运行它：
wget https://raw.githubusercontent.com/pytorch/pytorch/master/torch/utils/collect_env.py
# For security purposes, please check the contents of collect_env.py before running it.
python collect_env.py

jendrikjoe

8

`PyTorch 版本：1.0.0a0+17c6d16 是调试版本：没有用于构建 PyTorch 的 CUDA：10.0.130

操作系统：Ubuntu 16.04.5 LTS GCC版本：（Ubuntu 5.4.0-6ubuntu1~16.04.10）5.4.0 20160609 CMake版本：版本3.12.2

Python 版本：3.6 CUDA 是否可用：是 CUDA 运行时版本：无法收集 GPU 型号和配置：GPU 0：GeForce RTX 2080 Ti GPU 1：GeForce GTX 1080

Nvidia 驱动程序版本：410.66 cuDNN 版本：可能是以下之一：/usr/lib/x86_64-linux-gnu/libcudnn.so.7.3.1 /usr/lib/x86_64-linux-gnu/libcudnn_static_v7.a

相关库的版本： [pip] 无法收集 [conda] magma-cuda90 2.3.0 1 pytorch [conda] magma-cuda92 2.3.0 1 pytorch [conda] pytorch 0.4.1 py36ha74772b_0
[conda] torch 1.0.0a0+17c6d16 [康达]火炬0.5.0a0+9ee5133 ` @jendrikjoe 非常感谢

xiongzhp

0

@xiongzhp：尝试通过重复 pip uninstall torch 直到不再找到任何版本来卸载所有 torch 安装。然后再次从源代码构建它，看看是否可以解决问题。python 可能指的是错误的火炬。否则，我会将您推荐给另一个更有知识的人；）

jendrikjoe

0

@xiongzhp 还请卸载magma-cuda90并magma-cuda92打包，因为您正在编译 CUDA10，然后重新编译 pytorch。这可能是挂起的原因。

soumith

1

nightly 正在与我的 2080 ti 和 CUDA 9.x 以及 410 驱动程序配合使用。没有本地编译。毫无疑问，它还没有充分利用所有的好处。我确实遇到了上面报告的错误，但在第二次尝试运行操作时，它可以工作，并且性能比我的 Titan XP 更好。

digitalspecialists

2

@digitalspecialists 你好，你能告诉我该怎么做吗？我也安装了410driver，现在应该安装cuda9.0还是cuda10.0？你能给我一些建议吗？

Andrew-Zhu

4

最新版本对master我有用 - 我正在与我的 RTX 卡pytorch一起使用。fairseq如果有人感兴趣，我可以提供我的pytorch轮子:)

stefan-it

2

@Andrew-Zhu -> 我安装了 CUDA 10（debs 可以在这个repo中找到），然后 NVIDIA 驱动程序会自动出现:)

stefan-it

3

@stefan-it 谢谢！我在2080ti上安装了CUDA9.2和pytorch0.4.1，但是它比我的带有CUDA8.0和pytorch0.4.1的1080ti机器运行得慢。为什么？您能分享一下您构建的 pytorch 轮吗？这会有帮助的！

Andrew-Zhu

3

@Andrew-Zhu您可以在这里找到Python 3.6的47c0d88的内置轮子（torch-1.0.0a0+47c0d88-cp36-cp36m-linux_x86_64.whl），并且pip3 install numpy pyyaml mkl mkl-include setuptools cmake cffi typing是需要的:)

stefan-it

2

@stefan-太酷了！谢谢

Andrew-Zhu

8

我使用今天（2018 年 11 月 4 日）的代码为 Python 3.7 构建了一个新的 PyTorch 主轮。这完全基于 CUDA 10。我还链接了新的 CUDA 10 版本的 magma。

此处包含更多说明的博客文章：https://vxlabs.com/2018/11/04/pytorch-1-0-preview-nov-4-2018-packages-with-full-cuda-10-support-for-your -ubuntu-18-04-x86_64-systems/（0％广告，仅内容）

cpbotha

2

@Andrew-Zhu您可以在这里找到Python 3.6的 47c0d88 的内置轮子（torch-1.0.0a0+47c0d88-cp36-cp36m-linux_x86_64.whl），并且是需要的:)pip3 install numpy pyyaml mkl mkl-include setuptools cmake cffi typing

我安装了 CUDA10 并构建了你的 pytorch 轮（torch-1.0.0a0+47c0d88-cp36-cp36m-linux_x86_64.whl）。完成后，我尝试导入 torch 但报告错误，如下：

导入 torch Traceback（最近一次调用最后一次）：文件“”，第 1 行，在文件“/home/pc/anaconda3/lib/python3.6/site-packages/torch/ init .py”，第 84 行，位于 from torch._C import * ImportError: libmkl_intel_lp64.so: 无法打开共享对象文件: 没有这样的文件或目录

你能告诉我为什么吗？非常感谢！

amuier

5

@amuier，实际上现在我使用conda安装pytorch0.4.1，并安装cuda9.2和cuda10。而且它有效！你可以尝试一下。我不知道为什么它有效，但我真的没有编译任何东西。但问题是我的一些代码运行速度比我的 1080ti 机器慢。

Andrew-Zhu

6

@Andrew-Zhu，我之前在2080Ti上安装过cuda9.0，并使用conda安装了pytorch。但每次运行这段代码： torch.nn.DataParallel(model).cuda() ,,,非常慢！运行此代码时会卡住：输出=模型（输入，进度）。我不知道为什么。我正在尝试 cuda10，现在从源代码重新安装 pytorch。

amuier

7

@amuier 你安装了这些依赖项吗：pip3 install numpy pyyaml mkl mkl-include setuptools cmake cffi typing？我猜mkl*你的系统上缺少这些:)

stefan-it

7

@stefan-it，我已经安装了该依赖项，但它仍然无法工作，我不知道为什么。我还需要做其他操作吗？谢谢您并期待您的回复。

amuier

1

cuda 慢意味着您正在混合 cuda10 和 cuda9。请确保您拥有 100% 纯 cuda 10 系统。
libmkl 问题：确实确保安装 conda mkl 包，但还要记住为 pytorch 1.0 轮设置 LD_LIBRARY_PATH。
您可以在此处阅读有关 LD_LIBRARY_PATH 问题的更多信息：https://vxlabs.com/2018/11/04/pytorch-1-0-preview-nov-4-2018-packages-with-full-cuda-10-support-对于您的 ubuntu-18-04-x86_64-systems/

cpbotha

6

@cpbotha ，非常感谢，我现在正在尝试。

amuier

5

我尝试了同样的方式@amuier 得到了错误： ImportError: libmkl_intel_lp64.so: 无法打开共享对象文件: 没有这样的文件或目录有解决方案吗？

hex0102

0

我们什么时候可以期待带有 CUDA 10 的 PyTorch 稳定版本？

rakshithramagiri

4

另一个 pytorch 1.0 轮子添加到聚会中：https://drive.google.com/file/d/1ZPByRMoGxZ4o16TgLFDqHhFGb9CoJ3-x/view?usp=sharing。

为 python3.6 和 ubuntu 16.04 编译。我还没有遇到这个轮子的 LD_LIBRARY_PATH 问题。用康达测试。如果您遇到类似的错误，ImportError: /lib/x86_64-linux-gnu/libm.so.6: version 'GLIBC_2.27' not found这个轮子可能会解决您的问题。我在上面发布的轮子上遇到了这个问题，我认为这可能是由于 ubuntu 18.04 与 ubuntu 16.04 的差异造成的。

rgreenblatt

7

支持 cuda10 的下一个版本有预计日期吗？

jl2922

0

@cpbotha：

* Slow cuda means you are mixing cuda10 and cuda9. Please ensure that you have a 100% pure cuda 10 system.

* libmkl issue: indeed ensure that you install conda mkl package, but also remember to set LD_LIBRARY_PATH for the pytorch 1.0 wheel.

* You can read more about the LD_LIBRARY_PATH issue here: https://vxlabs.com/2018/11/04/pytorch-1-0-preview-nov-4-2018-packages-with-full-cuda-10-support-for-your-ubuntu-18-04-x86_64-systems/

我可能会面临这个问题。你能告诉我如何彻底检查我是否混合安装了cuda吗？

我刚刚使用 RTX 2070 设置了一个新系统，并且我知道我没有手动安装任何 cuda 10，因为它无法与 TensorFlow 一起使用。所以我想我只有 cuda-9：我的安装程序：

然而，如果我运行nvidia-smi，我会看到 CUDA 10。这是为什么？

rsangole

2

解决这个问题，因为 PyTorch 现在可以使用 CUDA10 并运行。

soumith

2

@soumith 它包含在 1.0 中还是仅包含在夜间构建中？

solomatov

4

@solomatov 只需查看 PyTorch 网站：https://pytorch.org/有各种 CUDA 和 Python 版本的构建:)

stefan-it

9

@stefan-it我用过它。我的10.0版本有问题。请参阅此处： https: //github.com/pytorch/pytorch/issues/15709

solomatov

1

@rsangole 我和你有同样的问题。你弄清楚原因了吗？

wtliao

0

您可以使用这些说明在 2080ti 上运行 pytorch。

https://medium.com/@_willfalcon/how-to-install-pytorch-1-0-with-cuda-10-0-169569c5b82d

williamFalcon

0

@williamFalcon 现在实际上效果很好。当前版本的驱动程序/CUDA 没有问题。不记得那是什么了。

solomatov

[pytorch]PyTorch什么时候可以支持RTX系列GPU？

回答