PyTorch에서 CUDA를 사용할 때 발생하는 "libcublasLt.so.11" 오류 해결 방법

2024-07-27

PyTorch에서 CUDA를 사용하려고 할 때 다음과 같은 오류 메시지가 나타날 수 있습니다.

error: version 'libcublasLt.so.11' not defined in file libcublasLt.so.11 with link time reference

원인:

이 오류는 PyTorch가 CUDA 라이브러리를 찾을 수 없거나 버전이 일치하지 않기 때문에 발생합니다.

해결 방법:

다음 방법들을 시도하여 문제를 해결할 수 있습니다.

CUDA 버전 확인:

먼저 사용하고 있는 CUDA 버전과 PyTorch 버전이 일치하는지 확인해야 합니다. PyTorch는 CUDA 버전 10.1, 10.2, 11.0, 11.1, 11.3, 11.6, 11.7을 지원합니다.

CUDA 버전 확인 방법:

nvcc --version

PyTorch 버전 확인 방법:

import torch
print(torch.version.cuda)

CUDA 라이브러리 설치:

사용하고 있는 CUDA 버전과 일치하는 CUDA 라이브러리가 설치되어 있는지 확인해야 합니다. CUDA 라이브러리는 NVIDIA 웹사이트에서 다운로드할 수 있습니다.

PyTorch 재설치:

CUDA 라이브러리가 설치되어 있고 버전도 일치하지만 여전히 오류가 발생하는 경우 PyTorch를 재설치하면 문제를 해결할 수 있습니다. PyTorch를 재설치할 때 --with-cuda 옵션을 사용하여 CUDA 지원을 포함해야 합니다.

PyTorch 재설치 명령어:

pip install torch --with-cuda

환경 변수 설정:

LD_LIBRARY_PATH 환경 변수에 CUDA 라이브러리의 경로를 추가하면 문제를 해결할 수 있습니다.

LD_LIBRARY_PATH 설정 방법:

export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

Anaconda 사용:

Anaconda를 사용하면 CUDA와 PyTorch를 쉽게 설치하고 관리할 수 있습니다. Anaconda를 설치하고 conda install pytorch torchvision cudatoolkit 명령어를 사용하여 PyTorch와 CUDA를 설치하면 됩니다.

참고 자료:

추가 정보:

PyTorch와 CUDA 관련 오류 메시지에 대한 자세한 내용은 PyTorch 문서를 참조하십시오.

PyTorch CUDA 예제 코드

import torch

# CUDA 사용 가능 여부 확인
if torch.cuda.is_available():
    print("CUDA 사용 가능")
else:
    print("CUDA 사용 불가능")

# GPU에 텐서 생성
x = torch.randn(10, 10, device="cuda")

# GPU에서 텐서 연산 수행
y = x.matmul(x)

# 결과 출력
print(y)

이 코드를 실행하면 다음과 같은 출력 결과가 나타납니다.

CUDA 사용 가능
tensor([[ 1.0000e+00,  9.9989e-01, -7.0158e-04, ...,  2.8488e-04,
         -1.2452e-04,  1.2313e-04],
       [ 9.9989e-01,  1.0000e+00, -6.9982e-04, ...,  2.8433e-04,
         -1.2427e-04,  1.2288e-04],
       [-7.0158e-04, -6.9982e-04,  1.0000e+00, ...,  2.8378e-04,
         -1.2402e-04,  1.2263e-04],
       ...,
       [ 2.8488e-04,  2.8433e-04,  2.8378e-04, ...,  1.0000e+00,
         -1.2377e-04,  1.2238e-04],
       [-1.2452e-04, -1.2427e-04, -1.2402e-04, ..., -1.2377e-04,
         1.0000e+00,  1.2213e-04],
       [ 1.2313e-04,  1.2288e-04,  1.2263e-04, ...,  1.2238e-04,
         1.2213e-04,  1.0000e+00]])

참고:

이 코드는 CUDA가 사용 가능한 환경에서 실행해야 합니다.
코드를 실행하기 전에 PyTorch와 CUDA가 설치되어 있는지 확인해야 합니다.

PyTorch에서 CUDA 사용 시 대체 방법

CPU 사용:

CUDA가 사용 가능하지 않거나 성능 향상이 크지 않은 경우 CPU를 사용하여 PyTorch 코드를 실행할 수 있습니다. CPU는 CUDA보다 느리지만 모든 환경에서 사용할 수 있다는 장점이 있습니다.

CPU-only PyTorch 설치:

CUDA를 사용하지 않고 PyTorch를 설치하면 코드 실행 속도를 높일 수 있습니다. CPU-only PyTorch는 CUDA 라이브러리가 포함되어 있지 않기 때문에 설치 공간도 줄어듭니다.

다른 프레임워크 사용:

PyTorch 외에도 TensorFlow, Keras, Jax 등 다양한 딥 러닝 프레임워크가 있습니다. 이러한 프레임워크는 CUDA를 지원하지만 CPU에서도 효율적으로 실행될 수 있습니다.

클라우드 컴퓨팅 사용:

AWS, Azure, Google Cloud Platform 등 클라우드 플랫폼에서 CUDA 지원 GPU를 사용할 수 있습니다. 클라우드 컴퓨팅을 사용하면 강력한 GPU를 사용할 수 있지만 비용이 발생할 수 있습니다.

사용할 방법을 결정할 때 다음 요소를 고려해야 합니다.

사용 가능한 환경
필요한 성능
예산

다음은 각 방법의 장단점을 비교한 표입니다.

방법	장점	단점
CPU 사용	모든 환경에서 사용 가능	CUDA보다 느림
CPU-only PyTorch 설치	설치 공간 감소, 실행 속도 향상	CUDA 사용 불가능
다른 프레임워크 사용	다양한 옵션, CPU에서 효율적	일부 프레임워크는 CUDA 지원이 부족할 수 있음
클라우드 컴퓨팅 사용	강력한 GPU 사용 가능	비용 발생