[제조 AI] 2-1) 로컬 AI 인프라 구축 - 하드웨어부터 개발환경까지

AI 모델 개발과 운영에서 가장 중요한 기반이 되는 것은 바로 인프라입니다.

클라우드 서비스가 편리하다고 하지만, 지속적인 AI 개발을 위해서는 자체 인프라 구축이 필수적입니다.

특히 데이터 보안이 중요한 기업 환경이나 장기적인 비용 절감을 고려한다면 로컬 AI 인프라는 선택이 아닌 필수가 되었습니다. 클라우드 AI 서비스는 초기 진입 장벽은 낮지만, 지속적으로 사용할 경우 월 수백만원의 비용이 발생할 수 있으며, 데이터 전송 비용과 보안 제약도 무시할 수 없는 요소입니다.

이번 글에서는 AI 워크로드의 특성을 이해하고, 하드웨어 선정부터 완전한 개발환경 구축까지의 전 과정을 단계별로 살펴보겠습니다.

체계적으로 구성된 AI 개발 인프라실 - 효율적인 하드웨어 배치와 모니터링 시스템

1. AI 워크로드 특성과 하드웨어 요구사항 분석

AI 워크로드의 종류와 특성

AI 개발 과정에서 발생하는 워크로드는 크게 네 가지로 분류되며, 각 단계별로 요구되는 하드웨어 리소스의 특성이 완전히 다릅니다.

데이터 전처리 단계에서는 대용량 데이터를 읽고 변환하는 작업이 주를 이루며, 이때는 CPU의 다중 코어 성능과 메모리 대역폭이 중요한 역할을 합니다. 특히 이미지나 비디오 데이터의 경우 원본 파일의 크기가 수 기가바이트에서 수십 기가바이트에 이르므로, 빠른 스토리지 I/O 성능이 전체 파이프라인의 병목이 될 수 있습니다.
모델 훈련 단계에서는 GPU의 병렬 연산 능력이 핵심이 되며, 특히 딥러닝 모델의 경우 수천 개의 CUDA 코어가 동시에 작동하여 행렬 연산을 수행해야 합니다. 이 과정에서 GPU 메모리의 크기와 대역폭이 직접적으로 훈련 속도와 배치 크기를 결정하게 됩니다.
모델 추론 단계에서는 훈련과는 다른 특성을 보입니다. 추론 시에는 단일 또는 소량의 데이터에 대해 빠른 응답 속도가 요구되므로 GPU 메모리 접근 지연시간과 네트워크 대역폭이 중요한 요소가 됩니다. 실시간 서비스를 위해서는 밀리초 단위의 지연시간 최소화가 필수적이며, 이를 위해 모델 최적화와 하드웨어 가속이 필요합니다.
모델 서빙 단계에서는 다수의 동시 요청을 처리해야 하므로 네트워크 대역폭과 시스템 안정성이 중요한 요소가 됩니다. 이 단계에서는 GPU보다는 CPU의 멀티스레딩 능력과 메모리 관리 효율성이 더 중요할 수 있습니다.

워크로드 유형 주요 작업 핵심 하드웨어 병목 지점 메모리 요구량은 아래의 표와 같습니다.

워크로드 구분	주요 활동	관련 자원	성능 자원	요구 사양
데이터 전처리	데이터 로딩, 변환, 정제	CPU, 메모리	디스크 I/O	중간 (16-64GB)
모델 훈련	가중치 업데이트, 역전파	GPU, GPU 메모리	GPU 연산력	높음 (32GB+)
모델 추론	예측, 분류, 생성	GPU 메모리, 대역폭	GPU 메모리 접근	중간 (8-24GB)
모델 서빙	동시 요청 처리, API 서비스	CPU, 네트워크	네트워크 대역폭	낮음 (8-32GB)

GPU 아키텍처와 AI 성능 분석

현재 AI 개발에서 가장 널리 사용되는 GPU들의 성능을 체계적으로 분석해보겠습니다.

NVIDIA의 RTX 시리즈는 소비자용 GPU이지만 AI 개발에 충분한 성능을 제공하며, 특히 RTX 4090은 24GB GDDR6X 메모리를 탑재하여 대부분의 연구 목적 모델 훈련이 가능합니다. 물론 비용 부담만 없다면 RTX 5090 (Blackwell 아키텍처 기반, 21,760개의 CUDA 코어, 32GB GDDR7 메모리, 512비트 메모리 버스, 28Gbps 메모리 속도, 1,792GB/s 메모리 대역폭, 575W TGP)시리즈를 추천드립니다.

Tesla 시리즈는 기업용으로 설계되어 더 큰 메모리와 안정성을 제공하지만, 가격이 상당히 높아 투자 대비 효과를 신중히 고려해야 합니다. GPU 선택 시에는 단순히 CUDA 코어 수만 보는 것이 아니라, 메모리 용량, 메모리 대역폭, 텐서 코어의 유무와 세대, 그리고 실제 AI 워크로드에서의 성능을 종합적으로 고려해야 합니다. AI모델 선택에 있어 가장 영향이 큰 부분은 VRAM사이즈 입니다. VRAM사이즈에 따라 AI모델의 로딩 여부가 달라지니까요.

특히 주목할 점은 GPU 메모리가 모델의 크기를 직접적으로 제한한다는 것입니다.

예를 들어 BERT-Large 모델을 훈련하려면 최소 8GB의 GPU 메모리가 필요하고, GPT-2 규모의 모델을 훈련하려면 16GB 이상이 필요합니다. 더 큰 모델의 경우 다중 GPU 구성이나 메모리 최적화 기법을 사용해야 하며, 이는 시스템의 복잡성과 비용을 크게 증가시킵니다. AMD의 Radeon Instinct 시리즈도 경쟁력 있는 선택지가 되고 있으며, 특히 오픈소스 AI 프레임워크와의 호환성이 개선되고 있어 NVIDIA 대비 비용 효율적인 대안이 될 수 있습니다.

GPU 모델 메모리 CUDA 코어 텐서 코어 FP32 성능 가격대 적합한 용도를 비교해 보겠습니다.

GPU모델	메모리	CUDA	구분	처리성능	가격	용도
RTX 4060 Ti	16GB	4,352	3세대	22 TFLOPS	60만원	학습, 소규모 추론
RTX 4070 Ti	12GB	7,680	3세대	40 TFLOPS	100만원	중급 훈련, 추론
RTX 4080	16GB	9,728	3세대	48 TFLOPS	150만원	대규모 훈련
RTX 4090	24GB	16,384	3세대	83 TFLOPS	250만원	*연구, 프로토타입
Tesla A100	80GB	6,912	3세대	19.5 TFLOPS	1,000만원	**기업급 훈련
Tesla H100	80GB	14,592	4세대	67 TFLOPS	3,000만원	최고급 워크로드

메모리와 스토리지 아키텍처 설계

AI 워크로드에서 메모리 아키텍처는 GPU 메모리와 시스템 메모리로 구분되며, 이들 간의 효율적인 데이터 전송이 전체 시스템 성능을 좌우합니다.

GPU 메모리는 모델의 크기와 직접적으로 연관되며, 일반적으로 모델 파라미터의 4배에서 8배 정도의 메모리가 필요합니다. 이는 순전파 계산, 역전파 계산, 옵티마이저 상태 저장 등에 필요한 추가 메모리 때문입니다. 시스템 메모리는 데이터 로딩과 전처리에 사용되며, 대용량 데이터셋을 빠르게 GPU로 전송하기 위해서는 GPU 메모리의 2-4배 정도가 권장됩니다. 메모리 부족 시에는 배치 크기를 줄이거나 그래디언트 누적 기법을 사용할 수 있지만, 이는 훈련 시간의 증가를 의미합니다.

스토리지 시스템의 설계는 AI 워크로드의 특성상 매우 중요합니다. 대용량 데이터셋을 빠르게 읽어야 하므로 NVMe SSD가 필수적이며, 특히 이미지나 비디오 데이터를 다루는 경우에는 초당 수 GB의 데이터를 처리해야 하므로 스토리지 성능이 전체 시스템 성능을 좌우할 수 있습니다. 백업과 아카이브를 위해서는 대용량 HDD도 함께 구성하는 것이 좋으며, 중요한 모델 체크포인트와 실험 결과는 RAID 구성을 통해 안정성을 확보해야 합니다. NVMe SSD의 경우 PCIe 4.0 인터페이스를 지원하는 것이 좋으며, 가능하다면 RAID 0 구성으로 읽기 성능을 극대화할 수 있습니다.

모델 규모 파라미터 수 GPU 메모리 시스템 메모리 훈련 시간 (예상) 스토리지 요구량은 다음과 같습니다.

모델 구분	모델 파라미터	GPU메모리	시스템메모리	훈련시간	스토리지
소규모 (BERT-Base)	3B	12-16GB	32-64GB	수 시간	500GB
중규모 (GPT-2)	20B	40-80GB	64-128GB	1-2일	2TB
대규모 (GPT-3 Small)	70B	60-128GB	256-512GB	수 주	5~10TB
초대규모 (GPT-3)	175B	350GB+	512GB+	수 개월	10TB+

2. 예산별, 용도별 최적 하드웨어 구성

예산 계획과 투자 우선순위

제조업 로컬AI 구축을 위한 도입계획서의 3) 투자계획서 ( 참조글 : 로컬 AI 도입계획 가이드 - 3) 투자계획서 )에서 하드웨어 구성과 관련된 예산부분을 참조하시면 좋겠습니다.

AI 인프라 구축에서 가장 중요한 것은 한정된 예산 내에서 최대 효과를 얻는 것입니다. 일반적으로 전체 예산의 50-60%는 GPU에 투자하는 것이 효율적이며, CPU는 15-20%, 메모리는 10-15%, 스토리지는 10-15% 정도의 비중으로 배분하는 것이 좋습니다.

하지만 이는 절대적인 기준이 아니며, 실제 워크로드의 특성에 따라 조정이 필요합니다. 예를 들어 대용량 데이터 전처리가 주요 작업이라면 CPU와 스토리지에 더 많은 투자를 하는 것이 효율적일 수 있습니다. 초기 구축 시에는 확장성을 고려하여 메인보드의 PCIe 슬롯 수와 메모리 확장 가능성을 충분히 검토해야 합니다. 특히 GPU는 향후 추가 장착이 가능하도록 전력 공급과 쿨링 시스템을 여유있게 구성하는 것이 중요합니다.

예산별 구성에서는 성능과 안정성의 균형점을 찾는 것이 중요합니다. 입문용 구성에서는 단일 GPU로 시작하여 학습과 소규모 프로젝트에 집중하고, 개발용 구성에서는 다중 GPU 환경을 구축하여 본격적인 AI 개발이 가능하도록 합니다. 기업용 구성에서는 안정성과 확장성을 최우선으로 고려하여 ECC 메모리, 이중화 전원 공급, 그리고 기업급 지원 서비스를 포함해야 합니다. 각 구성 단계에서는 향후 업그레이드 경로를 미리 계획하여 투자 효율성을 극대화할 수 있습니다.

입문용, 개발용 및 기업용까지 단계별 하드웨어 구성을 비교하면 아래와 같습니다.

구성요소	입문용 : 500만원	개발용 : 1,200만원	기업용 : 5,000~8,000만원
CPU	Ryzen 7 7700X	Threadripper PRO 5975WX	Dual Xeon Platinum 8380
GPU	RTX 4070 Ti 12GB	RTX 4090 24GB × 2	Tesla A100 80GB × 4
메모리	64GB DDR5-5600	128GB DDR4 ECC	512GB DDR4-3200 ECC
스토리지	1TB NVMe + 2TB HDD	2TB NVMe RAID 0 + 8TB HDD	4TB NVMe RAID 10 + 32TB SAS
네트워크	1GbE 내장	10GbE 카드	InfiniBand + 10GbE
전력	850W 80+ Gold	1600W 80+ Platinum	2000W × 2 Redundant

3. 운영체제 설치부터 AI 프레임워크까지

운영체제 선택과 최적 설정

AI 개발 환경의 기반이 되는 운영체제 선택은 전체 시스템의 안정성과 성능을 좌우하는 매우 중요한 결정입니다.

Ubuntu 22.04 LTS는 가장 널리 사용되는 선택지로, NVIDIA 드라이버와 CUDA 툴킷의 호환성이 뛰어나며, 대부분의 AI 프레임워크가 공식적으로 지원합니다. 특히 커뮤니티 지원이 활발하여 문제 발생 시 해결책을 쉽게 찾을 수 있다는 장점이 있습니다.

CentOS Stream 9나 Red Hat Enterprise Linux도 기업 환경에서 많이 사용되며, 보안과 안정성 측면에서 장점이 있지만 최신 AI 도구들의 지원이 Ubuntu보다 늦을 수 있습니다. Rocky Linux는 CentOS의 대안으로 부상하고 있으며, 기업 환경에서 무료 RHEL 호환 운영체제가 필요한 경우 좋은 선택입니다.

운영체제 설치 시에는 최소 설치를 선택한 후 필요한 패키지만 추가로 설치하는 것이 보안과 성능 면에서 유리합니다. 불필요한 서비스들은 시스템 리소스를 소모하고 보안 취약점을 증가시킬 수 있기 때문입니다. 특히 SSH 서버는 반드시 설치하여 원격 관리가 가능하도록 하고, 방화벽 설정을 통해 불필요한 포트는 차단해야 합니다. 커널 파라미터 튜닝을 통해 AI 워크로드에 최적화된 설정을 적용할 수 있으며, 특히 대용량 메모리를 사용하는 환경에서는 huge pages 설정이 성능 향상에 도움이 됩니다.

운영체제	CUDA	패키지관리	기업지원	권장	장점	단점
Ubuntu 22.04 LTS	완전 지원	apt	커뮤니티	개발, 연구	풍부한 문서, 쉬운 설치	기업 지원 부족
CentOS Stream 9	완전 지원	dnf/yum	커뮤니티	기업 환경	안정성, 보안	최신 패키지 지연
RHEL 9	완전 지원	dnf/yum	상용	미션 크리티컬	기업 지원, 인증	높은 라이선스 비용
Rocky Linux 9	완전 지원	dnf/yum	커뮤니티	CentOS 대체	무료, RHEL 호환	상대적으로 새로운 프로젝트

Ubuntu 22.04 설치 및 기본 설정

# 시스템 업데이트
sudo apt update && sudo apt upgrade -y

# 필수 패키지 설치
sudo apt install -y curl wget git vim build-essential \
    software-properties-common apt-transport-https \
    ca-certificates gnupg lsb-release htop tree \
    unzip p7zip-full python3-pip

# SSH 서버 설정 (원격 접속용)
sudo systemctl enable ssh
sudo systemctl start ssh

# 방화벽 설정
sudo ufw enable
sudo ufw allow ssh
sudo ufw allow 8888  # Jupyter
sudo ufw allow 3000  # Grafana
sudo ufw allow 9090  # Prometheus

# 사용자를 sudo 그룹에 추가
sudo usermod -aG sudo $USER

# 시스템 성능 최적화 설정
echo 'vm.swappiness=10' | sudo tee -a /etc/sysctl.conf
echo 'vm.vfs_cache_pressure=50' | sudo tee -a /etc/sysctl.conf
sudo sysctl -p

# 시스템 정보 확인
neofetch
lscpu
free -h
lsblk
nvidia-smi  # GPU 확인 (드라이버 설치 후)

NVIDIA 드라이버와 CUDA 통합 설치

NVIDIA 드라이버와 CUDA 설치는 AI 개발 환경에서 가장 중요하면서도 복잡한 과정 중 하나입니다.

올바른 드라이버 설치는 GPU의 성능을 최대한 활용하는 데 필수적이며, 잘못된 설치는 시스템 불안정이나 성능 저하를 야기할 수 있습니다. 먼저 기존에 설치된 Nouveau 드라이버를 완전히 비활성화해야 합니다. Nouveau는 오픈소스 NVIDIA 드라이버이지만 AI 워크로드에서는 성능이 크게 떨어지므로 반드시 비활성화해야 합니다. NVIDIA 공식 드라이버 설치 시에는 해당 GPU 모델과 운영체제에 맞는 정확한 버전을 선택해야 하며, 특히 CUDA 버전과의 호환성을 반드시 확인해야 합니다.

CUDA 툴킷 설치는 런파일(runfile) 방식을 권장합니다.

패키지 매니저를 통한 설치보다 버전 관리와 충돌 방지에 유리하기 때문입니다. 설치 과정에서는 드라이버와 CUDA 툴킷을 함께 설치할 수 있지만, 이미 드라이버가 설치되어 있다면 CUDA 툴킷만 별도로 설치하는 것이 안전합니다.

설치 완료 후에는 환경변수 설정이 매우 중요합니다. PATH와 LD_LIBRARY_PATH 설정을 통해 CUDA 컴파일러와 라이브러리에 접근할 수 있도록 해야 합니다. cuDNN 라이브러리는 딥러닝 프레임워크의 성능을 크게 향상시키므로 반드시 설치해야 하며, CUDA 버전과 정확히 일치하는 버전을 선택해야 합니다.

기존 드라이버 제거 및 준비

# 기존 NVIDIA 관련 패키지 완전 제거
sudo apt remove --purge nvidia* libnvidia*
sudo apt autoremove

# Nouveau 드라이버 블랙리스트 추가
echo 'blacklist nouveau' | sudo tee -a /etc/modprobe.d/blacklist-nouveau.conf
echo 'options nouveau modeset=0' | sudo tee -a /etc/modprobe.d/blacklist-nouveau.conf

# initramfs 업데이트 및 재부팅
sudo update-initramfs -u
sudo reboot

# 재부팅 후 Nouveau 비활성화 확인
lsmod | grep nouveau  # 출력이 없어야 함

NVIDIA 드라이버 설치

# NVIDIA 드라이버 저장소 추가
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.0-1_all.deb
sudo dpkg -i cuda-keyring_1.0-1_all.deb
sudo apt update

# 권장 드라이버 버전 확인
ubuntu-drivers devices
# nvidia-driver-535-server, nvidia-driver-535 등이 표시됨

# 드라이버 설치 (자동으로 최신 안정 버전 설치)
sudo apt install -y nvidia-driver-535

# 또는 특정 버전 설치
# sudo apt install -y nvidia-driver-535-server

# 시스템 재부팅
sudo reboot

# 드라이버 설치 확인
nvidia-smi
# GPU 정보와 드라이버 버전이 정상적으로 표시되어야 함

CUDA Toolkit 설치

# CUDA 12.1 런파일 다운로드
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run

# 실행 권한 부여
chmod +x cuda_12.1.0_530.30.02_linux.run

# CUDA 설치 (드라이버는 제외하고 툴킷만 설치)
sudo ./cuda_12.1.0_530.30.02_linux.run --silent --toolkit --no-opengl-libs

# 환경변수 설정
echo 'export PATH=/usr/local/cuda-12.1/bin${PATH:+:${PATH}}' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}' >> ~/.bashrc
echo 'export CUDA_HOME=/usr/local/cuda-12.1' >> ~/.bashrc

# 설정 적용
source ~/.bashrc

# 설치 확인
nvcc --version
nvidia-smi

cuDNN 설치

# NVIDIA 개발자 계정으로 로그인하여 cuDNN 다운로드 필요
# https://developer.nvidia.com/cudnn

# cuDNN 8.9.2 for CUDA 12.1 다운로드 (예시)
# 실제로는 웹사이트에서 다운로드 후 서버로 전송 필요

# cuDNN 압축 해제 및 설치
tar -xzf cudnn-linux-x86_64-8.9.2.26_cuda12-archive.tar.xz

# CUDA 디렉토리로 파일 복사
sudo cp cudnn-linux-x86_64-8.9.2.26_cuda12-archive/include/cudnn*.h /usr/local/cuda-12.1/include/
sudo cp cudnn-linux-x86_64-8.9.2.26_cuda12-archive/lib/libcudnn* /usr/local/cuda-12.1/lib64/

# 권한 설정
sudo chmod a+r /usr/local/cuda-12.1/include/cudnn*.h /usr/local/cuda-12.1/lib64/libcudnn*

# 설치 확인
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

Python 환경과 가상환경 완전 구성

Python 환경 관리는 AI 프로젝트의 성공적인 진행을 위해 매우 중요한 요소입니다.

서로 다른 프로젝트가 서로 다른 라이브러리 버전을 요구할 수 있고, 전역 환경에서 모든 패키지를 관리하면 의존성 충돌이 빈번하게 발생하기 때문입니다. pyenv는 여러 Python 버전을 시스템에 설치하고 관리할 수 있게 해주며, 프로젝트별로 적절한 Python 버전을 선택할 수 있습니다.

최신 AI 프레임워크들은 Python 3.8 이상을 요구하며, 특히 Python 3.11은 성능 개선이 많이 이루어져 권장됩니다. conda는 Python 패키지뿐만 아니라 시스템 라이브러리도 함께 관리할 수 있어 AI 개발에서 가장 널리 사용되는 패키지 관리자입니다. 특히 CUDA, cuDNN 같은 바이너리 의존성을 자동으로 관리해주어 설치와 관리가 매우 편리합니다. 어찌됐든 개발자에게 가장 익숙한 환경에서의 프로젝트별 가상환경을 구축하는 것을 권장합니다.

각 프로젝트별로 독립적인 가상환경을 생성하고 관리하는 것은 AI 개발의 모범 사례입니다. conda 환경은 완전히 격리된 Python 환경을 제공하며, 각 환경마다 다른 버전의 패키지를 설치할 수 있습니다. Jupyter Notebook을 사용할 때는 각 conda 환경을 별도의 커널로 등록하여 노트북에서 원하는 환경을 선택할 수 있도록 해야 합니다. requirements.txt나 environment.yml 파일을 사용하여 환경을 재현 가능하게 만드는 것도 중요하며, 이는 팀 협업이나 배포 시 일관된 환경을 보장합니다. pip와 conda를 혼용할 때는 가능한 conda를 우선 사용하고, conda에서 제공하지 않는 패키지만 pip로 설치하는 것이 좋습니다.

pyenv를 사용한 Python 버전 관리

# pyenv 설치
curl https://pyenv.run | bash

# 환경변수 설정
echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.bashrc
echo 'command -v pyenv >/dev/null || export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.bashrc
echo 'eval "$(pyenv init -)"' >> ~/.bashrc
source ~/.bashrc

# Python 컴파일을 위한 의존성 설치
sudo apt install -y make build-essential libssl-dev zlib1g-dev \
    libbz2-dev libreadline-dev libsqlite3-dev wget curl llvm \
    libncurses5-dev libncursesw5-dev xz-utils tk-dev libffi-dev \
    liblzma-dev python3-openssl git

# 사용 가능한 Python 버전 확인
pyenv install --list | grep " 3\.[89]\|3\.1[01]"

# Python 3.11.5 설치
pyenv install 3.11.5

# 글로벌 Python 버전 설정
pyenv global 3.11.5

# 설치 확인
python --version
which python

Miniconda 설치 및 환경 구성 (conda 환경을 선호하는 경우)

# Miniconda 최신 버전 다운로드
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

# 설치 스크립트 실행
chmod +x Miniconda3-latest-Linux-x86_64.sh
./Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda3

# PATH 설정
echo 'export PATH="$HOME/miniconda3/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc

# conda 초기화
conda init bash
source ~/.bashrc

# conda 설정 최적화
conda config --set auto_activate_base false  # 기본 환경 자동 활성화 비활성화
conda config --add channels conda-forge     # conda-forge 채널 추가
conda config --add channels nvidia          # NVIDIA 채널 추가
conda config --set channel_priority strict  # 엄격한 채널 우선순위

# conda 업데이트
conda update -n base -c defaults conda

AI 개발용 가상환경 생성 (conda 환경 기준)

# PyTorch 환경 생성
conda create -n pytorch python=3.11 -y
conda activate pytorch

# 기본 과학 계산 패키지 설치
conda install -y numpy pandas matplotlib seaborn scikit-learn \
    jupyter jupyterlab ipykernel notebook

# 환경을 Jupyter 커널로 등록
python -m ipykernel install --user --name pytorch --display-name "PyTorch 3.11"

# TensorFlow 환경 생성
conda create -n tensorflow python=3.11 -y
conda activate tensorflow

# 기본 과학 계산 패키지 설치
conda install -y numpy pandas matplotlib seaborn scikit-learn \
    jupyter jupyterlab ipykernel notebook

# 환경을 Jupyter 커널로 등록
python -m ipykernel install --user --name tensorflow --display-name "TensorFlow 3.11"

# 공용 환경 생성 (데이터 분석용)
conda create -n data-science python=3.11 -y
conda activate data-science

# 데이터 분석 패키지 설치
conda install -y numpy pandas matplotlib seaborn plotly \
    scikit-learn scipy statsmodels jupyter jupyterlab \
    ipykernel notebook openpyxl xlrd

# 환경을 Jupyter 커널로 등록
python -m ipykernel install --user --name data-science --display-name "Data Science"

# 환경 목록 확인
conda env list
jupyter kernelspec list

AI 프레임워크 설치와 성능 검증

AI 프레임워크 설치는 전체 개발 환경 구축의 핵심 단계입니다.

PyTorch와 TensorFlow는 현재 가장 널리 사용되는 딥러닝 프레임워크이며, 각각 고유한 장단점을 가지고 있습니다. PyTorch는 동적 그래프를 사용하여 디버깅이 쉽고 연구 목적에 적합하며, TensorFlow는 정적 그래프를 기반으로 하여 최적화와 배포에 유리합니다. 두 프레임워크 모두 CUDA를 지원하여 GPU 가속을 활용할 수 있으며, 올바른 CUDA 버전과 호환되는 빌드를 선택하는 것이 중요합니다. 설치 후에는 반드시 GPU 인식과 성능을 확인해야 하며, 간단한 벤치마크를 통해 예상 성능이 나오는지 검증해야 합니다.

추가 라이브러리 설치도 AI 개발 환경의 완성도를 높이는 데 중요합니다.

Hugging Face Transformers는 사전 훈련된 언어 모델을 쉽게 사용할 수 있게 해주며, OpenCV는 컴퓨터 비전 작업에 필수적입니다. MLflow나 Weights & Biases 같은 실험 추적 도구는 모델 개발 과정을 체계적으로 관리할 수 있게 해줍니다. FastAPI는 모델 서빙을 위한 REST API를 빠르게 구축할 수 있게 해주며, 운영 환경에서의 모델 배포에 매우 유용합니다. 모든 라이브러리가 올바르게 설치되고 GPU를 인식하는지 확인하는 것은 향후 개발 과정에서 발생할 수 있는 문제를 미리 방지하는 데 중요합니다.

PyTorch 설치 및 검증

# PyTorch 환경 활성화
conda activate pytorch

# CUDA 지원 PyTorch 설치 (CUDA 12.1 기준)
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

# 추가 AI/ML 라이브러리 설치
pip install transformers datasets accelerate
pip install opencv-python pillow
pip install wandb mlflow tensorboard
pip install fastapi uvicorn
pip install pytest black flake8 isort
pip install timm albumentations

# GPU 인식 확인
python -c "import torch; print(f'PyTorch version: {torch.__version__}')"
python -c "import torch; print(f'CUDA available: {torch.cuda.is_available()}')"
python -c "import torch; print(f'GPU count: {torch.cuda.device_count()}')"
python -c "import torch; print(f'Current device: {torch.cuda.current_device()}')"
python -c "import torch; print(f'Device name: {torch.cuda.get_device_name(0)}')"

# cuDNN 지원 확인
python -c "import torch; print(f'cuDNN enabled: {torch.backends.cudnn.enabled}')"
python -c "import torch; print(f'cuDNN version: {torch.backends.cudnn.version()}')"

TensorFlow 설치 및 검증

# TensorFlow 환경 활성화
conda activate tensorflow

# TensorFlow 설치
pip install tensorflow==2.13.0

# TensorFlow 관련 라이브러리 설치
pip install tensorflow-datasets keras-tuner
pip install tensorflow-addons tensorflow-probability

# 추가 라이브러리 (PyTorch와 동일)
pip install opencv-python pillow
pip install wandb mlflow tensorboard
pip install fastapi uvicorn
pip install pytest black flake8 isort

# GPU 인식 확인
python -c "import tensorflow as tf; print(f'TensorFlow version: {tf.__version__}')"
python -c "import tensorflow as tf; print(f'GPU available: {tf.config.list_physical_devices(\"GPU\")}')"
python -c "import tensorflow as tf; print(f'Built with CUDA: {tf.test.is_built_with_cuda()}')"

# GPU 메모리 증가 허용 설정 (선택사항)
python -c "
import tensorflow as tf
gpus = tf.config.experimental.list_physical_devices('GPU')
if gpus:
    try:
        for gpu in gpus:
            tf.config.experimental.set_memory_growth(gpu, True)
        print('GPU memory growth enabled')
    except RuntimeError as e:
        print(e)
"

성능 벤치마크 테스트

pytorch 패키지 성능 벤치마크 테스트 예제입니다.

# pytorch_benchmark.py
import torch
import time
import numpy as np

def pytorch_gpu_benchmark():
    """PyTorch GPU 성능 벤치마크"""
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    print(f"Device: {device}")
    print(f"GPU Name: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A'}")
    
    # 행렬 곱셈 벤치마크
    print("\n=== Matrix Multiplication Benchmark ===")
    sizes = [1000, 2000, 5000]
    
    for size in sizes:
        a = torch.randn(size, size, dtype=torch.float32).to(device)
        b = torch.randn(size, size, dtype=torch.float32).to(device)
        
        # 워밍업
        for _ in range(3):
            _ = torch.matmul(a, b)
        
        if torch.cuda.is_available():
            torch.cuda.synchronize()
        
        # 성능 측정
        start_time = time.time()
        iterations = 10
        for _ in range(iterations):
            c = torch.matmul(a, b)
        
        if torch.cuda.is_available():
            torch.cuda.synchronize()
        
        end_time = time.time()
        avg_time = (end_time - start_time) / iterations
        
        # FLOPS 계산 (부동소수점 연산 수)
        flops = 2 * size**3  # 행렬 곱셈의 FLOPS
        gflops = flops / (avg_time * 1e9)
        
        print(f"Size {size}x{size}: {avg_time:.4f}s per iteration, {gflops:.2f} GFLOPS")
    
    # 메모리 사용량 확인
    if torch.cuda.is_available():
        print(f"\nGPU Memory Allocated: {torch.cuda.memory_allocated() / 1024**3:.2f} GB")
        print(f"GPU Memory Cached: {torch.cuda.memory_reserved() / 1024**3:.2f} GB")

# 실행
if __name__ == "__main__":
    pytorch_gpu_benchmark()

tensorflow 패키지 성능 벤치마크 테스트 예제입니다.

# tensorflow_benchmark.py
import tensorflow as tf
import time
import numpy as np

def tensorflow_gpu_benchmark():
    """TensorFlow GPU 성능 벤치마크"""
    print("GPU devices:", tf.config.list_physical_devices('GPU'))
    
    # GPU 메모리 증가 허용
    gpus = tf.config.experimental.list_physical_devices('GPU')
    if gpus:
        try:
            for gpu in gpus:
                tf.config.experimental.set_memory_growth(gpu, True)
        except RuntimeError as e:
            print(e)
    
    print("\n=== Matrix Multiplication Benchmark ===")
    sizes = [1000, 2000, 5000]
    
    for size in sizes:
        with tf.device('/GPU:0' if gpus else '/CPU:0'):
            a = tf.random.normal([size, size], dtype=tf.float32)
            b = tf.random.normal([size, size], dtype=tf.float32)
            
            # 워밍업
            for _ in range(3):
                _ = tf.matmul(a, b)
            
            # 성능 측정
            start_time = time.time()
            iterations = 10
            
            for _ in range(iterations):
                c = tf.matmul(a, b)
            
            end_time = time.time()
            avg_time = (end_time - start_time) / iterations
            
            # FLOPS 계산
            flops = 2 * size**3
            gflops = flops / (avg_time * 1e9)
            
            print(f"Size {size}x{size}: {avg_time:.4f}s per iteration, {gflops:.2f} GFLOPS")
    
    # 간단한 CNN 모델 테스트
    print("\n=== CNN Model Test ===")
    
    model = tf.keras.Sequential([
        tf.keras.layers.Conv2D(32, 3, activation='relu', input_shape=(224, 224, 3)),
        tf.keras.layers.Conv2D(64, 3, activation='relu'),
        tf.keras.layers.GlobalAveragePooling2D(),
        tf.keras.layers.Dense(10, activation='softmax')
    ])
    
    # 더미 데이터로 추론 테스트
    dummy_input = tf.random.normal([1, 224, 224, 3])
    
    start_time = time.time()
    for _ in range(100):
        _ = model(dummy_input)
    end_time = time.time()
    
    print(f"CNN Inference (100 iterations): {(end_time - start_time) / 100:.4f}s per inference")

# 실행
if __name__ == "__main__":
    tensorflow_gpu_benchmark()

4. Docker를 활용한 환경 표준화

컨테이너 기반 AI 환경의 혁신

Docker 컨테이너를 활용한 AI 환경 구축은 현대 AI 개발의 표준이 되었으며, 이는 단순한 가상화 기술을 넘어서 개발 패러다임의 변화를 의미합니다.

컨테이너를 사용하면 개발, 테스트, 운영 환경을 완전히 동일하게 유지할 수 있어 "내 컴퓨터에서는 잘 되는데" 문제를 완전히 해결할 수 있습니다. 이는 AI 개발에서 특히 중요한데, AI 프로젝트는 복잡한 의존성을 가지고 있고 환경 차이로 인한 문제가 빈번하게 발생하기 때문입니다. 여러 프로젝트의 의존성 충돌을 원천적으로 방지할 수 있으며, 새로운 팀원이 합류할 때 환경 설정 시간을 몇 시간에서 몇 분으로 단축할 수 있습니다. GPU 리소스도 컨테이너 단위로 할당하고 관리할 수 있어 리소스 효율성을 크게 향상시킬 수 있으며, 멀티 테넌트 환경에서 안정적인 격리를 제공합니다.

컨테이너 기반 환경의 또 다른 큰 장점은 재현성과 확장성입니다. 동일한 컨테이너 이미지를 로컬 개발 환경, 테스트 서버, 그리고 운영 환경에서 사용할 수 있어 일관성 있는 환경을 보장합니다. 클라우드 환경으로의 배포나 쿠버네티스 클러스터 구성 시에도 동일한 컨테이너 이미지를 사용할 수 있어 마이그레이션이 매우 간편합니다. 또한 CI/CD 파이프라인과의 통합이 용이하여 자동화된 배포와 테스트가 가능합니다. 버전 관리도 이미지 태그를 통해 체계적으로 할 수 있으며, 롤백이 필요한 경우 이전 버전 이미지로 쉽게 되돌릴 수 있습니다. 마이크로서비스 아키텍처를 적용할 때도 각 서비스를 독립적인 컨테이너로 분리하여 개발과 배포를 독립적으로 진행할 수 있습니다.

NVIDIA Container Toolkit 완전 설정

Docker에서 GPU를 사용하기 위해서는 NVIDIA Container Toolkit 설치가 필수이며, 이는 컨테이너 내부에서 GPU에 접근할 수 있게 해주는 핵심 구성 요소입니다. NVIDIA Container Toolkit은 Docker 런타임에 GPU 지원을 추가하여 컨테이너가 호스트의 GPU 드라이버와 CUDA 라이브러리에 접근할 수 있게 합니다. 설치 과정에서는 NVIDIA 공식 저장소를 추가하고 패키지를 설치한 후, Docker 데몬을 재시작해야 합니다. 설치가 완료되면 --gpus 플래그를 사용하여 컨테이너에 GPU 접근 권한을 부여할 수 있으며, 특정 GPU만 할당하거나 GPU 메모리 제한도 설정할 수 있습니다. Docker Compose에서도 deploy.resources.reservations.devices 설정을 통해 GPU 할당을 관리할 수 있어 복잡한 다중 서비스 환경에서도 GPU 리소스를 효율적으로 분배할 수 있습니다.

GPU 리소스 관리는 멀티 테넌트 환경에서 특히 중요합니다. 여러 사용자나 프로젝트가 하나의 서버를 공유할 때 GPU 메모리나 연산 능력을 적절히 분배해야 합니다. NVIDIA Container Toolkit은 GPU 가상화 기능을 제공하여 하나의 GPU를 여러 컨테이너가 공유할 수 있도록 하며, 각 컨테이너에 할당되는 GPU 메모리양을 제한할 수 있습니다. 또한 GPU 사용량 모니터링도 가능하여 리소스 사용 현황을 실시간으로 추적할 수 있습니다. 이러한 기능들은 GPU 리소스의 효율적인 활용과 공정한 분배를 가능하게 하여 하드웨어 투자 대비 효과를 극대화할 수 있습니다.

Docker Engine 완전 설치

# 기존 Docker 관련 패키지 제거 (필요한 경우)
sudo apt remove docker docker-engine docker.io containerd runc

# Docker 공식 GPG 키 추가
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg

# Docker 공식 저장소 추가
echo "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

# 패키지 목록 업데이트
sudo apt update

# Docker Engine, CLI, containerd 설치
sudo apt install -y docker-ce docker-ce-cli containerd.io docker-compose-plugin

# 사용자를 docker 그룹에 추가 (sudo 없이 docker 명령 사용)
sudo usermod -aG docker $USER

# 새 그룹 권한 적용
newgrp docker

# Docker 서비스 자동 시작 설정
sudo systemctl enable docker
sudo systemctl start docker

# Docker 설치 확인
docker --version
docker compose version

# Hello World 컨테이너 실행 테스트
docker run hello-world

NVIDIA Container Toolkit 설치

# NVIDIA Container Toolkit 저장소 설정
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
   && curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
   && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | \
      sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
      sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

# 패키지 목록 업데이트
sudo apt update

# NVIDIA Container Toolkit 설치
sudo apt install -y nvidia-container-toolkit

# Docker 데몬 설정 업데이트
sudo nvidia-ctk runtime configure --runtime=docker

# Docker 서비스 재시작
sudo systemctl restart docker

# GPU 접근 테스트
docker run --rm --gpus all nvidia/cuda:12.1-base-ubuntu20.04 nvidia-smi

# 특정 GPU만 사용하는 테스트
docker run --rm --gpus '"device=0"' nvidia/cuda:12.1-base-ubuntu20.04 nvidia-smi

# GPU 메모리 제한 테스트 (예: 4GB 제한)
docker run --rm --gpus '"device=0,memory=4g"' nvidia/cuda:12.1-base-ubuntu20.04 nvidia-smi

프로덕션급 AI Docker 이미지 제작

효율적이고 안전한 AI 개발을 위한 커스텀 Docker 이미지 제작은 단순한 패키지 설치를 넘어서 보안, 성능, 유지보수성을 모두 고려해야 하는 복합적인 과정입니다.

베이스 이미지 선택부터 신중하게 결정해야 하며, NVIDIA의 공식 이미지인 nvidia/cuda나 pytorch/pytorch, tensorflow/tensorflow를 사용하는 것이 호환성과 안정성 면에서 유리합니다. Dockerfile 작성 시에는 레이어 최적화가 매우 중요한데, 자주 변경되지 않는 시스템 패키지와 라이브러리는 하위 레이어에, 자주 변경되는 애플리케이션 코드는 최상위 레이어에 배치하여 빌드 시간을 최소화해야 합니다. .dockerignore 파일을 활용하여 불필요한 파일들이 빌드 컨텍스트에 포함되지 않도록 하는 것도 중요합니다.

보안 측면에서는 non-root 사용자를 생성하여 컨테이너를 실행하는 것이 필수적입니다. 루트 권한으로 컨테이너를 실행하면 호스트 시스템에 보안 위험을 초래할 수 있기 때문입니다. HEALTHCHECK 명령어를 포함하여 컨테이너의 상태를 모니터링할 수 있도록 하고, 적절한 환경변수 설정을 통해 설정의 유연성을 확보해야 합니다. 멀티스테이지 빌드를 활용하면 빌드에 필요한 도구들은 제외하고 실행에 필요한 파일들만 최종 이미지에 포함시켜 이미지 크기를 대폭 줄일 수 있습니다. 이는 배포 시간 단축과 보안 향상에 모두 도움이 됩니다.

PyTorch 개발환경 프로덕션 Dockerfile

# Dockerfile.pytorch
# 멀티스테이지 빌드를 사용한 최적화된 PyTorch 이미지

# Stage 1: Builder
FROM nvidia/cuda:12.1-devel-ubuntu20.04 AS builder

# 환경변수 설정
ENV DEBIAN_FRONTEND=noninteractive
ENV PYTHONUNBUFFERED=1

# 시스템 패키지 업데이트 및 빌드 도구 설치
RUN apt-get update && apt-get install -y \
    python3 python3-pip python3-dev \
    build-essential cmake git curl wget \
    && rm -rf /var/lib/apt/lists/*

# pip 업그레이드 및 기본 도구 설치
RUN pip3 install --no-cache-dir --upgrade pip setuptools wheel

# PyTorch 및 관련 라이브러리 설치 (빌더 스테이지)
RUN pip3 install --no-cache-dir \
    torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

# Stage 2: Runtime
FROM nvidia/cuda:12.1-runtime-ubuntu20.04

# 메타데이터 설정
LABEL maintainer="AI Team <ai@company.com>"
LABEL version="1.0"
LABEL description="Production PyTorch environment with CUDA support"

# 환경변수 설정
ENV DEBIAN_FRONTEND=noninteractive
ENV PYTHONUNBUFFERED=1
ENV CUDA_HOME=/usr/local/cuda
ENV PATH=${CUDA_HOME}/bin:${PATH}
ENV LD_LIBRARY_PATH=${CUDA_HOME}/lib64:${LD_LIBRARY_PATH}
ENV PYTHONPATH=/workspace:${PYTHONPATH}

# 런타임 패키지만 설치
RUN apt-get update && apt-get install -y \
    python3 python3-pip \
    libgl1-mesa-glx libglib2.0-0 libsm6 libxext6 libxrender-dev libgomp1 \
    curl wget vim git \
    && rm -rf /var/lib/apt/lists/* \
    && apt-get clean

# Python 심볼릭 링크 생성
RUN ln -s /usr/bin/python3 /usr/bin/python

# 빌더 스테이지에서 Python 패키지 복사
COPY --from=builder /usr/local/lib/python3.8/dist-packages /usr/local/lib/python3.8/dist-packages
COPY --from=builder /usr/local/bin /usr/local/bin

# 추가 AI 라이브러리 설치
RUN pip3 install --no-cache-dir \
    transformers==4.34.0 \
    datasets==2.14.0 \
    accelerate==0.23.0 \
    scikit-learn==1.3.0 \
    pandas==2.1.0 \
    numpy==1.24.3 \
    matplotlib==3.7.2 \
    seaborn==0.12.2 \
    opencv-python==4.8.0.76 \
    pillow==10.0.0 \
    jupyter==1.0.0 \
    jupyterlab==4.0.6 \
    ipykernel==6.25.2 \
    fastapi==0.103.1 \
    uvicorn==0.23.2 \
    pydantic==2.3.0 \
    python-multipart==0.0.6

# 개발 도구 설치
RUN pip3 install --no-cache-dir \
    pytest==7.4.2 \
    black==23.7.0 \
    flake8==6.1.0 \
    isort==5.12.0 \
    mypy==1.5.1

# 비 root 사용자 생성
ARG USER_ID=1000
ARG GROUP_ID=1000
RUN groupadd -g ${GROUP_ID} aidev && \
    useradd -u ${USER_ID} -g ${GROUP_ID} -m -s /bin/bash aidev && \
    echo "aidev ALL=(ALL) NOPASSWD:ALL" >> /etc/sudoers

# 작업 디렉토리 설정
WORKDIR /workspace

# 디렉토리 권한 설정
RUN chown -R aidev:aidev /workspace

# 사용자 전환
USER aidev

# Jupyter 설정 디렉토리 생성
RUN mkdir -p /home/aidev/.jupyter

# Jupyter 설정 파일 생성
RUN echo "c.ServerApp.ip = '0.0.0.0'" > /home/aidev/.jupyter/jupyter_lab_config.py && \
    echo "c.ServerApp.allow_root = True" >> /home/aidev/.jupyter/jupyter_lab_config.py && \
    echo "c.ServerApp.open_browser = False" >> /home/aidev/.jupyter/jupyter_lab_config.py && \
    echo "c.ServerApp.token = ''" >> /home/aidev/.jupyter/jupyter_lab_config.py && \
    echo "c.ServerApp.password = ''" >> /home/aidev/.jupyter/jupyter_lab_config.py

# 포트 노출
EXPOSE 8888 8000

# 헬스체크 추가
HEALTHCHECK --interval=30s --timeout=30s --start-period=5s --retries=3 \
    CMD python -c "import torch; torch.cuda.is_available()" || exit 1

# 기본 명령어
CMD ["jupyter", "lab", "--ip=0.0.0.0", "--port=8888", "--no-browser", "--allow-root"]
</ai@company.com>

TensorFlow 개발환경 최적화 Dockerfile

# Dockerfile.tensorflow
FROM tensorflow/tensorflow:2.13.0-gpu AS base

# 메타데이터
LABEL maintainer="AI Team <ai@company.com>"
LABEL version="1.0"
LABEL description="Production TensorFlow environment with GPU support"

# 환경변수 설정
ENV PYTHONUNBUFFERED=1
ENV TF_CPP_MIN_LOG_LEVEL=2
ENV CUDA_CACHE_DISABLE=0

# 시스템 패키지 업데이트
RUN apt-get update && apt-get install -y \
    git wget curl vim \
    build-essential \
    libhdf5-dev \
    && rm -rf /var/lib/apt/lists/*

# 최신 pip와 setuptools 설치
RUN pip install --no-cache-dir --upgrade pip setuptools wheel

# TensorFlow 확장 라이브러리 설치
RUN pip install --no-cache-dir \
    tensorflow-datasets==4.9.2 \
    tensorflow-addons==0.21.0 \
    tensorflow-probability==0.21.0 \
    keras-tuner==1.3.5

# 공통 AI 라이브러리 설치
RUN pip install --no-cache-dir \
    scikit-learn==1.3.0 \
    pandas==2.1.0 \
    numpy==1.24.3 \
    matplotlib==3.7.2 \
    seaborn==0.12.2 \
    opencv-python==4.8.0.76 \
    pillow==10.0.0 \
    jupyter==1.0.0 \
    jupyterlab==4.0.6 \
    ipykernel==6.25.2

# API 및 배포 도구
RUN pip install --no-cache-dir \
    fastapi==0.103.1 \
    uvicorn==0.23.2 \
    pydantic==2.3.0 \
    python-multipart==0.0.6

# 실험 추적 도구
RUN pip install --no-cache-dir \
    wandb==0.15.8 \
    mlflow==2.6.0 \
    tensorboard==2.13.0

# 개발 도구
RUN pip install --no-cache-dir \
    pytest==7.4.2 \
    black==23.7.0 \
    flake8==6.1.0 \
    isort==5.12.0

# 비 root 사용자 생성
ARG USER_ID=1000
ARG GROUP_ID=1000
RUN groupadd -g ${GROUP_ID} aidev && \
    useradd -u ${USER_ID} -g ${GROUP_ID} -m -s /bin/bash aidev

# 작업 디렉토리 설정
WORKDIR /workspace
RUN chown -R aidev:aidev /workspace

# 사용자 전환
USER aidev

# GPU 메모리 증가 허용 설정 스크립트
RUN echo '#!/usr/bin/env python3\n\
import tensorflow as tf\n\
gpus = tf.config.experimental.list_physical_devices("GPU")\n\
if gpus:\n\
    try:\n\
        for gpu in gpus:\n\
            tf.config.experimental.set_memory_growth(gpu, True)\n\
        print("GPU memory growth enabled")\n\
    except RuntimeError as e:\n\
        print(f"GPU setup error: {e}")\n\
else:\n\
    print("No GPU detected")' > /home/aidev/setup_gpu.py && \
    chmod +x /home/aidev/setup_gpu.py

# 포트 노출
EXPOSE 8888 8000 6006

# 헬스체크
HEALTHCHECK --interval=30s --timeout=30s --start-period=5s --retries=3 \
    CMD python -c "import tensorflow as tf; tf.config.list_physical_devices('GPU')" || exit 1

# 시작 스크립트
CMD ["jupyter", "lab", "--ip=0.0.0.0", "--port=8888", "--no-browser", "--allow-root"]

Docker Compose를 활용한 완전한 AI 스택

복잡한 AI 애플리케이션은 단일 컨테이너로 구성되지 않으며, 일반적으로 개발 환경, 데이터베이스, 캐시 시스템, 모니터링 도구, API 서버 등 여러 서비스가 조합되어 하나의 완전한 시스템을 구성합니다.

Docker Compose는 이러한 다중 서비스 환경을 코드로 정의하고 관리할 수 있게 해주는 도구로, YAML 파일 하나로 전체 인프라를 기술할 수 있습니다. 각 서비스는 독립적인 컨테이너로 실행되지만 네트워크를 통해 상호 통신할 수 있으며, 볼륨을 통해 데이터를 공유할 수 있습니다. 서비스 간의 의존성도 정의할 수 있어 올바른 순서로 컨테이너가 시작되도록 할 수 있습니다. 환경변수를 통해 다양한 배포 환경(개발, 테스트, 운영)에 대응할 수 있으며, 오버라이드 파일을 사용하여 환경별 설정을 관리할 수 있습니다.

AI 개발에서 Docker Compose는 특히 유용한데, 데이터 과학자나 머신러닝 엔지니어가 복잡한 인프라 설정 없이 바로 개발에 집중할 수 있게 해줍니다. Jupyter Lab, MLflow, PostgreSQL, Redis 등을 모두 컨테이너로 실행하면서도 마치 단일 시스템처럼 사용할 수 있습니다. GPU 리소스도 서비스별로 할당할 수 있어 여러 실험을 동시에 진행하면서도 리소스 경합을 방지할 수 있습니다. 개발 환경에서는 코드 변경 사항을 즉시 반영할 수 있도록 볼륨 마운트를 설정하고, 운영 환경에서는 이미지에 코드를 포함시켜 불변성을 보장할 수 있습니다. 로그 수집과 모니터링을 위한 사이드카 컨테이너도 함께 구성하여 운영 편의성을 높일 수 있으며, 백업과 복구를 위한 스크립트도 컨테이너화하여 일관된 방식으로 관리할 수 있습니다.

완전한 AI 개발 스택 Docker Compose

완전환 AI 개발 스택 Docker Compose 스크립트 예시 >

# docker-compose.yml
version: '3.8'

services:
  # Jupyter Lab 개발환경
  jupyter:
    build:
      context: .
      dockerfile: Dockerfile.pytorch
      args:
        USER_ID: ${USER_ID:-1000}
        GROUP_ID: ${GROUP_ID:-1000}
    container_name: ai-jupyter
    hostname: jupyter-lab
    ports:
      - "8888:8888"
      - "8889:8889"  # 추가 Jupyter 인스턴스용
    volumes:
      - ./workspace:/workspace
      - ./data:/data
      - ./models:/models
      - jupyter_home:/home/aidev
    environment:
      - JUPYTER_ENABLE_LAB=yes
      - JUPYTER_TOKEN=${JUPYTER_TOKEN:-}
      - CUDA_VISIBLE_DEVICES=0
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              device_ids: ['0']
              capabilities: [gpu]
    networks:
      - ai-network
    restart: unless-stopped
    depends_on:
      - postgres
      - redis

  # TensorFlow 개발환경
  tensorflow:
    build:
      context: .
      dockerfile: Dockerfile.tensorflow
      args:
        USER_ID: ${USER_ID:-1000}
        GROUP_ID: ${GROUP_ID:-1000}
    container_name: ai-tensorflow
    hostname: tensorflow-lab
    ports:
      - "8890:8888"
      - "6006:6006"  # TensorBoard
    volumes:
      - ./workspace:/workspace
      - ./data:/data
      - ./models:/models
      - tensorflow_home:/home/aidev
    environment:
      - JUPYTER_TOKEN=${JUPYTER_TOKEN:-}
      - CUDA_VISIBLE_DEVICES=1
      - TF_CPP_MIN_LOG_LEVEL=2
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              device_ids: ['1']
              capabilities: [gpu]
    networks:
      - ai-network
    restart: unless-stopped
    depends_on:
      - postgres
      - redis

  # PostgreSQL 데이터베이스
  postgres:
    image: postgres:15-alpine
    container_name: ai-postgres
    hostname: postgres-db
    environment:
      POSTGRES_DB: ${POSTGRES_DB:-aidb}
      POSTGRES_USER: ${POSTGRES_USER:-aiuser}
      POSTGRES_PASSWORD: ${POSTGRES_PASSWORD:-aipassword}
      PGDATA: /var/lib/postgresql/data/pgdata
    volumes:
      - postgres_data:/var/lib/postgresql/data
      - ./sql:/docker-entrypoint-initdb.d
      - ./backups:/backups
    ports:
      - "5432:5432"
    networks:
      - ai-network
    restart: unless-stopped
    command: >
      postgres
      -c shared_preload_libraries=pg_stat_statements
      -c pg_stat_statements.track=all
      -c max_connections=200
      -c shared_buffers=256MB
      -c effective_cache_size=1GB

  # Redis 캐시 및 메시지 브로커
  redis:
    image: redis:7-alpine
    container_name: ai-redis
    hostname: redis-cache
    ports:
      - "6379:6379"
    volumes:
      - redis_data:/data
      - ./redis.conf:/usr/local/etc/redis/redis.conf
    command: redis-server /usr/local/etc/redis/redis.conf
    networks:
      - ai-network
    restart: unless-stopped
    sysctls:
      - net.core.somaxconn=65535

  # MLflow 추적 서버
  mlflow:
    image: python:3.11-slim
    container_name: ai-mlflow
    hostname: mlflow-server
    ports:
      - "5000:5000"
    volumes:
      - ./mlruns:/mlflow/mlruns
      - ./mlflow_artifacts:/mlflow/artifacts
    environment:
      - BACKEND_STORE_URI=postgresql://${POSTGRES_USER:-aiuser}:${POSTGRES_PASSWORD:-aipassword}@postgres:5432/${POSTGRES_DB:-aidb}
      - DEFAULT_ARTIFACT_ROOT=/mlflow/artifacts
      - MLFLOW_S3_ENDPOINT_URL=${S3_ENDPOINT_URL:-}
      - AWS_ACCESS_KEY_ID=${AWS_ACCESS_KEY_ID:-}
      - AWS_SECRET_ACCESS_KEY=${AWS_SECRET_ACCESS_KEY:-}
    command: >
      bash -c "
        pip install mlflow[extras]==2.6.0 psycopg2-binary boto3 &&
        mlflow server 
          --backend-store-uri postgresql://${POSTGRES_USER:-aiuser}:${POSTGRES_PASSWORD:-aipassword}@postgres:5432/${POSTGRES_DB:-aidb}
          --default-artifact-root /mlflow/artifacts
          --host 0.0.0.0 
          --port 5000
          --serve-artifacts
      "
    depends_on:
      - postgres
    networks:
      - ai-network
    restart: unless-stopped

  # Weights & Biases 로컬 서버 (선택사항)
  wandb:
    image: wandb/local:latest
    container_name: ai-wandb
    hostname: wandb-server
    ports:
      - "8080:8080"
    volumes:
      - wandb_data:/vol
    environment:
      - LICENSE=${WANDB_LICENSE:-}
      - HOST=0.0.0.0
      - PORT=8080
    networks:
      - ai-network
    restart: unless-stopped

  # Prometheus 모니터링
  prometheus:
    image: prom/prometheus:latest
    container_name: ai-prometheus
    hostname: prometheus-server
    ports:
      - "9090:9090"
    volumes:
      - ./monitoring/prometheus.yml:/etc/prometheus/prometheus.yml
      - ./monitoring/rules:/etc/prometheus/rules
      - prometheus_data:/prometheus
    command:
      - '--config.file=/etc/prometheus/prometheus.yml'
      - '--storage.tsdb.path=/prometheus'
      - '--web.console.libraries=/usr/share/prometheus/console_libraries'
      - '--web.console.templates=/usr/share/prometheus/consoles'
      - '--web.enable-lifecycle'
      - '--storage.tsdb.retention.time=30d'
    networks:
      - ai-network
    restart: unless-stopped

  # Grafana 대시보드
  grafana:
    image: grafana/grafana:latest
    container_name: ai-grafana
    hostname: grafana-dashboard
    ports:
      - "3000:3000"
    volumes:
      - grafana_data:/var/lib/grafana
      - ./monitoring/grafana/dashboards:/var/lib/grafana/dashboards
      - ./monitoring/grafana/provisioning:/etc/grafana/provisioning
    environment:
      - GF_SECURITY_ADMIN_USER=${GRAFANA_USER:-admin}
      - GF_SECURITY_ADMIN_PASSWORD=${GRAFANA_PASSWORD:-admin}
      - GF_USERS_ALLOW_SIGN_UP=false
      - GF_SECURITY_ALLOW_EMBEDDING=true
      - GF_AUTH_ANONYMOUS_ENABLED=true
      - GF_AUTH_ANONYMOUS_ORG_ROLE=Viewer
    networks:
      - ai-network
    restart: unless-stopped
    depends_on:
      - prometheus

  # NVIDIA GPU Exporter
  nvidia-exporter:
    image: mindprince/nvidia_gpu_prometheus_exporter:0.1
    container_name: nvidia-exporter
    hostname: gpu-exporter
    ports:
      - "9445:9445"
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    networks:
      - ai-network
    restart: unless-stopped

  # Node Exporter (시스템 메트릭)
  node-exporter:
    image: prom/node-exporter:latest
    container_name: node-exporter
    hostname: node-metrics
    ports:
      - "9100:9100"
    volumes:
      - /proc:/host/proc:ro
      - /sys:/host/sys:ro
      - /:/rootfs:ro
    command:
      - '--path.procfs=/host/proc'
      - '--path.sysfs=/host/sys'
      - '--collector.filesystem.mount-points-exclude=^/(sys|proc|dev|host|etc)($$|/)'
    networks:
      - ai-network
    restart: unless-stopped

  # Nginx 리버스 프록시 (선택사항)
  nginx:
    image: nginx:alpine
    container_name: ai-nginx
    hostname: reverse-proxy
    ports:
      - "80:80"
      - "443:443"
    volumes:
      - ./nginx/nginx.conf:/etc/nginx/nginx.conf
      - ./nginx/ssl:/etc/nginx/ssl
    networks:
      - ai-network
    restart: unless-stopped
    depends_on:
      - jupyter
      - mlflow
      - grafana

volumes:
  postgres_data:
    driver: local
  redis_data:
    driver: local
  prometheus_data:
    driver: local
  grafana_data:
    driver: local
  wandb_data:
    driver: local
  jupyter_home:
    driver: local
  tensorflow_home:
    driver: local

networks:
  ai-network:
    driver: bridge
    ipam:
      config:
        - subnet: 172.20.0.0/16

환경 설정 파일들

# .env 파일 - 환경변수 설정
# 데이터베이스 설정
POSTGRES_DB=aidb
POSTGRES_USER=aiuser
POSTGRES_PASSWORD=secure_password_here

# Jupyter 설정
JUPYTER_TOKEN=your_secure_token_here

# Grafana 설정
GRAFANA_USER=admin
GRAFANA_PASSWORD=admin_password_here

# 사용자 ID (현재 사용자의 UID/GID 사용)
USER_ID=1000
GROUP_ID=1000

# 선택사항: AWS S3 설정 (MLflow artifacts용)
# AWS_ACCESS_KEY_ID=your_access_key
# AWS_SECRET_ACCESS_KEY=your_secret_key
# S3_ENDPOINT_URL=https://s3.amazonaws.com

# Weights & Biases 라이선스 (선택사항)
# WANDB_LICENSE=your_wandb_license

서비스 관리 스크립트

서비스 관리 스크립트 예시 >

#!/bin/bash
# manage-ai-stack.sh

set -e

# 색상 정의
RED='\033[0;31m'
GREEN='\033[0;32m'
YELLOW='\033[1;33m'
NC='\033[0m' # No Color

# 함수 정의
log() {
    echo -e "${GREEN}[$(date '+%Y-%m-%d %H:%M:%S')]${NC} $1"
}

warn() {
    echo -e "${YELLOW}[$(date '+%Y-%m-%d %H:%M:%S')] WARNING:${NC} $1"
}

error() {
    echo -e "${RED}[$(date '+%Y-%m-%d %H:%M:%S')] ERROR:${NC} $1"
}

# 환경 확인
check_requirements() {
    log "Checking requirements..."
    
    # Docker 확인
    if ! command -v docker &> /dev/null; then
        error "Docker is not installed"
        exit 1
    fi
    
    # Docker Compose 확인
    if ! docker compose version &> /dev/null; then
        error "Docker Compose is not available"
        exit 1
    fi
    
    # NVIDIA Container Toolkit 확인
    if ! docker run --rm --gpus all nvidia/cuda:12.1-base-ubuntu20.04 nvidia-smi &> /dev/null; then
        warn "NVIDIA Container Toolkit may not be properly configured"
    fi
    
    log "Requirements check completed"
}

# 스택 시작
start_stack() {
    log "Starting AI development stack..."
    
    # 환경변수 파일 확인
    if [ ! -f .env ]; then
        warn ".env file not found, creating from template..."
        cp .env.example .env 2>/dev/null || true
    fi
    
    # 필요한 디렉토리 생성
    mkdir -p workspace data models mlruns mlflow_artifacts
    mkdir -p monitoring/grafana/{dashboards,provisioning}
    mkdir -p sql backups
    
    # 스택 시작
    docker compose up -d
    
    # 서비스 상태 확인
    sleep 10
    check_services
    
    log "AI development stack started successfully!"
    show_urls
}

# 스택 중지
stop_stack() {
    log "Stopping AI development stack..."
    docker compose down
    log "Stack stopped"
}

# 스택 재시작
restart_stack() {
    log "Restarting AI development stack..."
    docker compose restart
    sleep 10
    check_services
    log "Stack restarted"
}

# 서비스 상태 확인
check_services() {
    log "Checking service status..."
    
    services=("ai-jupyter" "ai-postgres" "ai-redis" "ai-mlflow" "ai-grafana" "ai-prometheus")
    
    for service in "${services[@]}"; do
        if docker ps --format "table {{.Names}}" | grep -q "^$service$"; then
            echo -e "  ${GREEN}✓${NC} $service is running"
        else
            echo -e "  ${RED}✗${NC} $service is not running"
        fi
    done
}

# 로그 확인
show_logs() {
    local service=${1:-}
    if [ -z "$service" ]; then
        docker compose logs -f
    else
        docker compose logs -f "$service"
    fi
}

# URL 정보 표시
show_urls() {
    echo
    log "Available services:"
    echo "  Jupyter Lab (PyTorch):  http://localhost:8888"
    echo "  Jupyter Lab (TensorFlow): http://localhost:8890"
    echo "  MLflow:                  http://localhost:5000"
    echo "  Grafana:                 http://localhost:3000"
    echo "  Prometheus:              http://localhost:9090"
    echo "  PostgreSQL:              localhost:5432"
    echo "  Redis:                   localhost:6379"
    echo
}

# 백업
backup_data() {
    log "Creating backup..."
    
    local backup_dir="backups/$(date '+%Y%m%d_%H%M%S')"
    mkdir -p "$backup_dir"
    
    # 데이터베이스 백업
    docker compose exec postgres pg_dump -U aiuser aidb > "$backup_dir/postgres_backup.sql"
    
    # 볼륨 백업
    docker run --rm -v ai_postgres_data:/data -v "$(pwd)/$backup_dir":/backup alpine tar czf /backup/postgres_data.tar.gz -C /data .
    docker run --rm -v ai_redis_data:/data -v "$(pwd)/$backup_dir":/backup alpine tar czf /backup/redis_data.tar.gz -C /data .
    
    log "Backup created in $backup_dir"
}

# 도움말
show_help() {
    echo "AI Development Stack Management Script"
    echo
    echo "Usage: $0 [COMMAND]"
    echo
    echo "Commands:"
    echo "  start       Start the AI development stack"
    echo "  stop        Stop the AI development stack"
    echo "  restart     Restart the AI development stack"
    echo "  status      Check service status"
    echo "  logs [SERVICE]  Show logs (all services or specific service)"
    echo "  backup      Create data backup"
    echo "  urls        Show service URLs"
    echo "  help        Show this help message"
    echo
}

# 메인 로직
case "${1:-}" in
    start)
        check_requirements
        start_stack
        ;;
    stop)
        stop_stack
        ;;
    restart)
        restart_stack
        ;;
    status)
        check_services
        ;;
    logs)
        show_logs "$2"
        ;;
    backup)
        backup_data
        ;;
    urls)
        show_urls
        ;;
    help|--help|-h)
        show_help
        ;;
    *)
        error "Unknown command: ${1:-}"
        show_help
        exit 1
        ;;
esac

5. 모니터링 시스템 구축과 성능 최적화

AI 인프라 모니터링의 중요성과 전략

AI 인프라의 안정적인 운영을 위해서는 체계적인 모니터링 시스템이 필수적입니다.

AI 워크로드는 일반적인 웹 애플리케이션과는 다른 특성을 가지고 있어 특별한 모니터링 접근 방식이 필요합니다. GPU 사용률, 메모리 사용량, 모델 훈련 진행률, 배치 처리 성능 등 AI 특화 메트릭을 실시간으로 추적해야 하며, 이상 상황을 조기에 감지하여 시스템 장애나 성능 저하를 방지해야 합니다. Prometheus와 Grafana의 조합은 이러한 요구사항을 충족하는 가장 효과적인 모니터링 솔루션입니다.

Prometheus는 시계열 데이터베이스로서 다양한 메트릭을 수집하고 저장하며, 강력한 쿼리 언어인 PromQL을 제공하여 복잡한 메트릭 분석이 가능합니다. Grafana는 수집된 메트릭을 직관적인 대시보드로 시각화하여 운영자가 시스템 상태를 한눈에 파악할 수 있게 해줍니다.

모니터링 전략 수립 시에는 예방적 모니터링과 반응적 모니터링을 모두 고려해야 합니다. 예방적 모니터링은 시스템 리소스 사용 패턴을 분석하여 향후 발생할 수 있는 문제를 미리 예측하고 대비하는 것입니다. 예를 들어 GPU 메모리 사용량의 증가 추세를 분석하여 메모리 부족 상황을 미리 예측할 수 있습니다. 반응적 모니터링은 이미 발생한 문제나 임계값을 초과한 상황에 대해 즉시 알림을 보내고 대응하는 것입니다. 알림 규칙은 중요도에 따라 단계적으로 설정해야 하며, 너무 많은 알림은 오히려 중요한 문제를 놓칠 수 있으므로 적절한 임계값 설정이 중요합니다. 또한 메트릭 보존 정책을 설정하여 장기간의 성능 트렌드 분석이 가능하도록 해야 하며, 비용과 스토리지 용량을 고려하여 적절한 보존 기간을 설정해야 합니다.

다음은 인프라 모니터링을 위해 필요한 요소별 모니터링 조건과 관련된 참조사항입니다.

분류	모니터링요소	정상범위	경고 임계값	위험 임계값	알림 조건	대응 방안
GPU	사용률	80-95%	>95%	>98%	5분 지속	워크로드 분산
GPU	메모리 사용률	<85%	>90%	>95%	즉시	배치 크기 축소
GPU	온도	<70°C	>75°C	>80°C	2분 지속	쿨링 강화
CPU	사용률	<70%	>80%	>90%	5분 지속	프로세스 최적화
메모리	사용률	<80%	>85%	>95%	즉시	메모리 정리
디스크	사용률	<70%	>80%	>90%	즉시	디스크 정리
네트워크	대역폭 사용률	<60%	>70%	>90%	3분 지속	트래픽 분산

Prometheus와 Grafana 통합 구성

Prometheus와 Grafana의 통합 구성은 AI 인프라 모니터링의 핵심입니다.

Prometheus는 Pull 방식으로 메트릭을 수집하므로 각 서비스에서 메트릭 엔드포인트를 노출해야 합니다. AI 환경에서는 기본적인 시스템 메트릭 외에도 GPU 메트릭, 모델 훈련 메트릭, 비즈니스 메트릭 등을 수집해야 합니다. node_exporter는 시스템 레벨의 메트릭을 제공하고, nvidia_gpu_exporter는 GPU 관련 메트릭을 제공합니다. 커스텀 애플리케이션에서는 Python의 prometheus_client 라이브러리를 사용하여 애플리케이션별 메트릭을 노출할 수 있습니다. 메트릭 수집 주기는 서비스의 특성에 따라 조정해야 하는데, 시스템 메트릭은 15-30초, GPU 메트릭은 10-15초, 애플리케이션 메트릭은 30-60초 간격이 일반적으로 적합합니다.

Grafana 대시보드 설계는 사용자의 역할과 관심사에 따라 계층적으로 구성해야 합니다. 임원진을 위한 고수준 요약 대시보드, 운영팀을 위한 인프라 상태 대시보드, 개발팀을 위한 상세 성능 대시보드로 구분하여 구성할 수 있습니다. 각 대시보드는 드릴다운 방식으로 연결하여 요약 정보에서 시작해서 필요에 따라 상세 정보로 탐색할 수 있도록 해야 합니다. 알림 설정은 Grafana의 Alert Manager와 연동하여 이메일, Slack, PagerDuty 등 다양한 채널로 알림을 보낼 수 있습니다. 알림 규칙은 단순한 임계값 기반뿐만 아니라 트렌드 분석, 이상 탐지 등 고급 기법도 활용할 수 있으며, 머신러닝을 적용한 예측적 알림도 구현할 수 있습니다.

Prometheus 설정 파일

# monitoring/prometheus.yml
global:
  scrape_interval: 15s
  evaluation_interval: 15s
  external_labels:
    cluster: 'ai-development'
    environment: 'production'

# 알림 규칙 파일
rule_files:
  - "rules/*.yml"

# Alert Manager 설정
alerting:
  alertmanagers:
    - static_configs:
        - targets:
          - alertmanager:9093

# 메트릭 수집 대상 설정
scrape_configs:
  # Prometheus 자체 모니터링
  - job_name: 'prometheus'
    static_configs:
      - targets: ['localhost:9090']
    scrape_interval: 30s

  # 시스템 메트릭 (Node Exporter)
  - job_name: 'node-exporter'
    static_configs:
      - targets: ['node-exporter:9100']
    scrape_interval: 15s
    metrics_path: '/metrics'

  # GPU 메트릭 (NVIDIA GPU Exporter)
  - job_name: 'nvidia-gpu'
    static_configs:
      - targets: ['nvidia-exporter:9445']
    scrape_interval: 10s
    metrics_path: '/metrics'

  # Docker 컨테이너 메트릭
  - job_name: 'docker'
    static_configs:
      - targets: ['docker-exporter:9323']
    scrape_interval: 30s

  # Jupyter Lab 메트릭
  - job_name: 'jupyter'
    static_configs:
      - targets: ['jupyter:8888']
    metrics_path: '/metrics'
    scrape_interval: 30s

  # PostgreSQL 메트릭
  - job_name: 'postgres'
    static_configs:
      - targets: ['postgres-exporter:9187']
    scrape_interval: 30s

  # Redis 메트릭
  - job_name: 'redis'
    static_configs:
      - targets: ['redis-exporter:9121']
    scrape_interval: 30s

  # MLflow 메트릭
  - job_name: 'mlflow'
    static_configs:
      - targets: ['mlflow:5000']
    metrics_path: '/metrics'
    scrape_interval: 60s

  # 커스텀 AI 애플리케이션 메트릭
  - job_name: 'ai-api'
    static_configs:
      - targets: ['ai-api:8000']
    metrics_path: '/metrics'
    scrape_interval: 30s
    metric_relabel_configs:
      - source_labels: [__name__]
        regex: 'ai_model_.*'
        target_label: 'service'
        replacement: 'ai-inference'

# 원격 저장소 설정 (선택사항)
# remote_write:
#   - url: "https://prometheus-remote-storage.example.com/api/v1/write"
#     basic_auth:
#       username: "user"
#       password: "password"

# 데이터 보존 설정
storage:
  tsdb:
    retention.time: 30d
    retention.size: 50GB

Grafana 대시보드 프로비저닝

# monitoring/grafana/provisioning/datasources/prometheus.yml
apiVersion: 1

datasources:
  - name: Prometheus
    type: prometheus
    access: proxy
    url: http://prometheus:9090
    isDefault: true
    editable: true
    jsonData:
      timeInterval: "15s"
      queryTimeout: "60s"
      httpMethod: "POST"
    secureJsonData:
      # 필요한 경우 인증 정보 추가
      # basicAuthPassword: "password"

# monitoring/grafana/provisioning/dashboards/ai-infrastructure.yml
apiVersion: 1

providers:
  - name: 'AI Infrastructure'
    orgId: 1
    folder: 'AI Monitoring'
    type: file
    disableDeletion: false
    updateIntervalSeconds: 30
    allowUiUpdates: true
    options:
      path: /var/lib/grafana/dashboards

GPU 성능 모니터링과 최적화 자동화

GPU는 AI 워크로드에서 가장 중요하고 비용이 높은 리소스이므로 세밀한 모니터링과 지능적인 최적화가 필요합니다.

GPU 성능 모니터링은 단순한 사용률 측정을 넘어서 메모리 효율성, 온도 관리, 전력 소비, 워크로드 분산 등 다양한 측면을 포괄해야 합니다. nvidia-smi를 주기적으로 실행하여 기본 GPU 정보를 수집할 수 있지만, 더 상세한 모니터링을 위해서는 NVIDIA Management Library(NVML)를 직접 활용하는 것이 좋습니다. GPU 메모리 누수나 비효율적인 메모리 사용 패턴을 조기에 발견할 수 있으며, 여러 GPU 간의 로드 밸런싱도 실시간으로 모니터링할 수 있습니다. 온도와 전력 소비 모니터링을 통해 하드웨어 보호와 에너지 효율성을 동시에 관리할 수 있으며, 필요에 따라 동적으로 성능과 전력 설정을 조정할 수 있습니다.

성능 최적화는 모니터링 데이터를 기반으로 한 자동화된 접근 방식을 적용해야 합니다. 배치 크기 자동 조정, 혼합 정밀도 훈련, 그래디언트 누적, 동적 로스 스케일링 등의 기법을 상황에 따라 자동으로 적용할 수 있는 시스템을 구축해야 합니다. GPU 클럭 속도와 전력 제한도 워크로드의 특성에 따라 동적으로 조정하여 성능과 전력 효율성의 최적 균형점을 찾을 수 있습니다. 다중 GPU 환경에서는 워크로드를 각 GPU의 현재 상태에 따라 지능적으로 분배하는 스케줄러를 구현할 수 있으며, 이를 통해 전체 시스템의 처리량을 극대화할 수 있습니다. 모든 최적화 작업은 실시간 모니터링 데이터를 기반으로 하며, 최적화 효과도 메트릭으로 측정하여 지속적으로 개선해야 합니다.

고급 GPU 모니터링 시스템

고급 GPU 모니터링 시스템 구현 예시 코드 >

#!/usr/bin/env python3
# monitoring/gpu_monitor_advanced.py

import subprocess
import time
import json
import psutil
import logging
import asyncio
import aiohttp
from datetime import datetime
from typing import Dict, List, Optional
from dataclasses import dataclass, asdict
from prometheus_client import start_http_server, Gauge, Counter, Histogram
import nvidia_ml_py3 as nvml

# 로깅 설정
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('gpu_monitor.log'),
        logging.StreamHandler()
    ]
)

@dataclass
class GPUMetrics:
    """GPU 메트릭 데이터 클래스"""
    index: int
    name: str
    uuid: str
    temperature: float
    utilization: float
    memory_used: int
    memory_total: int
    memory_usage_percent: float
    power_draw: float
    power_limit: float
    clock_graphics: int
    clock_memory: int
    fan_speed: Optional[int]
    processes: List[Dict]
    timestamp: datetime

@dataclass
class SystemMetrics:
    """시스템 메트릭 데이터 클래스"""
    cpu_percent: float
    memory_percent: float
    disk_usage: Dict[str, float]
    network_io: Dict
    load_average: List[float]
    timestamp: datetime

class PrometheusMetrics:
    """Prometheus 메트릭 정의"""
    def __init__(self):
        # GPU 메트릭
        self.gpu_utilization = Gauge('gpu_utilization_percent', 'GPU utilization percentage', ['gpu', 'name'])
        self.gpu_memory_used = Gauge('gpu_memory_used_bytes', 'GPU memory used in bytes', ['gpu', 'name'])
        self.gpu_memory_total = Gauge('gpu_memory_total_bytes', 'GPU memory total in bytes', ['gpu', 'name'])
        self.gpu_temperature = Gauge('gpu_temperature_celsius', 'GPU temperature in Celsius', ['gpu', 'name'])
        self.gpu_power_draw = Gauge('gpu_power_draw_watts', 'GPU power draw in watts', ['gpu', 'name'])
        self.gpu_clock_graphics = Gauge('gpu_clock_graphics_mhz', 'GPU graphics clock in MHz', ['gpu', 'name'])
        self.gpu_clock_memory = Gauge('gpu_clock_memory_mhz', 'GPU memory clock in MHz', ['gpu', 'name'])
        self.gpu_fan_speed = Gauge('gpu_fan_speed_percent', 'GPU fan speed percentage', ['gpu', 'name'])
        
        # 시스템 메트릭
        self.system_cpu_percent = Gauge('system_cpu_percent', 'System CPU usage percentage')
        self.system_memory_percent = Gauge('system_memory_percent', 'System memory usage percentage')
        self.system_disk_usage = Gauge('system_disk_usage_percent', 'System disk usage percentage', ['mountpoint'])
        
        # 애플리케이션 메트릭
        self.training_batch_time = Histogram('training_batch_time_seconds', 'Time spent processing training batches')
        self.inference_requests = Counter('inference_requests_total', 'Total inference requests', ['model', 'status'])
        self.model_accuracy = Gauge('model_accuracy', 'Model accuracy', ['model', 'dataset'])

class AdvancedGPUMonitor:
    def __init__(self, prometheus_port: int = 8000):
        self.logger = logging.getLogger(__name__)
        self.prometheus_metrics = PrometheusMetrics()
        self.prometheus_port = prometheus_port
        self.alert_thresholds = {
            'gpu_temperature': 80.0,
            'gpu_memory_usage': 95.0,
            'gpu_utilization': 98.0,
            'system_memory': 95.0,
            'system_cpu': 90.0
        }
        self.alert_webhooks = []
        
        # NVML 초기화
        try:
            nvml.nvmlInit()
            self.nvml_available = True
            self.gpu_count = nvml.nvmlDeviceGetCount()
            self.logger.info(f"NVML initialized. Found {self.gpu_count} GPU(s)")
        except Exception as e:
            self.logger.error(f"Failed to initialize NVML: {e}")
            self.nvml_available = False
            self.gpu_count = 0

    def get_gpu_metrics_nvml(self) -> List[GPUMetrics]:
        """NVML을 사용한 상세 GPU 메트릭 수집"""
        if not self.nvml_available:
            return []
        
        gpu_metrics = []
        
        for i in range(self.gpu_count):
            try:
                handle = nvml.nvmlDeviceGetHandleByIndex(i)
                
                # 기본 정보
                name = nvml.nvmlDeviceGetName(handle).decode('utf-8')
                uuid = nvml.nvmlDeviceGetUUID(handle).decode('utf-8')
                
                # 온도
                temperature = nvml.nvmlDeviceGetTemperature(handle, nvml.NVML_TEMPERATURE_GPU)
                
                # 사용률
                utilization = nvml.nvmlDeviceGetUtilizationRates(handle)
                gpu_util = utilization.gpu
                
                # 메모리 정보
                memory_info = nvml.nvmlDeviceGetMemoryInfo(handle)
                memory_used = memory_info.used
                memory_total = memory_info.total
                memory_usage_percent = (memory_used / memory_total) * 100
                
                # 전력 정보
                try:
                    power_draw = nvml.nvmlDeviceGetPowerUsage(handle) / 1000.0  # mW to W
                    power_limit = nvml.nvmlDeviceGetPowerManagementLimitConstraintsMax(handle) / 1000.0
                except:
                    power_draw = 0.0
                    power_limit = 0.0
                
                # 클럭 정보
                try:
                    clock_graphics = nvml.nvmlDeviceGetClockInfo(handle, nvml.NVML_CLOCK_GRAPHICS)
                    clock_memory = nvml.nvmlDeviceGetClockInfo(handle, nvml.NVML_CLOCK_MEM)
                except:
                    clock_graphics = 0
                    clock_memory = 0
                
                # 팬 속도
                try:
                    fan_speed = nvml.nvmlDeviceGetFanSpeed(handle)
                except:
                    fan_speed = None
                
                # 프로세스 정보
                try:
                    process_info = nvml.nvmlDeviceGetComputeRunningProcesses(handle)
                    processes = []
                    for proc in process_info:
                        processes.append({
                            'pid': proc.pid,
                            'memory_used': proc.usedGpuMemory
                        })
                except:
                    processes = []
                
                gpu_metric = GPUMetrics(
                    index=i,
                    name=name,
                    uuid=uuid,
                    temperature=temperature,
                    utilization=gpu_util,
                    memory_used=memory_used,
                    memory_total=memory_total,
                    memory_usage_percent=memory_usage_percent,
                    power_draw=power_draw,
                    power_limit=power_limit,
                    clock_graphics=clock_graphics,
                    clock_memory=clock_memory,
                    fan_speed=fan_speed,
                    processes=processes,
                    timestamp=datetime.now()
                )
                
                gpu_metrics.append(gpu_metric)
                
            except Exception as e:
                self.logger.error(f"Error collecting metrics for GPU {i}: {e}")
        
        return gpu_metrics
    
    def get_system_metrics(self) -> SystemMetrics:
        """시스템 메트릭 수집"""
        try:
            # CPU 사용률
            cpu_percent = psutil.cpu_percent(interval=1)
            
            # 메모리 사용률
            memory = psutil.virtual_memory()
            memory_percent = memory.percent
            
            # 디스크 사용률
            disk_usage = {}
            for partition in psutil.disk_partitions():
                try:
                    usage = psutil.disk_usage(partition.mountpoint)
                    disk_usage[partition.mountpoint] = usage.percent
                except PermissionError:
                    continue
            
            # 네트워크 I/O
            network_io = psutil.net_io_counters()._asdict()
            
            # 로드 평균 (Linux/Unix만)
            try:
                load_average = list(psutil.getloadavg())
            except AttributeError:
                load_average = [0.0, 0.0, 0.0]
            
            return SystemMetrics(
                cpu_percent=cpu_percent,
                memory_percent=memory_percent,
                disk_usage=disk_usage,
                network_io=network_io,
                load_average=load_average,
                timestamp=datetime.now()
            )
        except Exception as e:
            self.logger.error(f"Error collecting system metrics: {e}")
            return None
    
    def update_prometheus_metrics(self, gpu_metrics: List[GPUMetrics], system_metrics: SystemMetrics):
        """Prometheus 메트릭 업데이트"""
        # GPU 메트릭 업데이트
        for gpu in gpu_metrics:
            labels = [str(gpu.index), gpu.name]
            
            self.prometheus_metrics.gpu_utilization.labels(*labels).set(gpu.utilization)
            self.prometheus_metrics.gpu_memory_used.labels(*labels).set(gpu.memory_used)
            self.prometheus_metrics.gpu_memory_total.labels(*labels).set(gpu.memory_total)
            self.prometheus_metrics.gpu_temperature.labels(*labels).set(gpu.temperature)
            self.prometheus_metrics.gpu_power_draw.labels(*labels).set(gpu.power_draw)
            self.prometheus_metrics.gpu_clock_graphics.labels(*labels).set(gpu.clock_graphics)
            self.prometheus_metrics.gpu_clock_memory.labels(*labels).set(gpu.clock_memory)
            
            if gpu.fan_speed is not None:
                self.prometheus_metrics.gpu_fan_speed.labels(*labels).set(gpu.fan_speed)
        
        # 시스템 메트릭 업데이트
        if system_metrics:
            self.prometheus_metrics.system_cpu_percent.set(system_metrics.cpu_percent)
            self.prometheus_metrics.system_memory_percent.set(system_metrics.memory_percent)
            
            for mountpoint, usage in system_metrics.disk_usage.items():
                self.prometheus_metrics.system_disk_usage.labels(mountpoint).set(usage)
    
    def check_alerts(self, gpu_metrics: List[GPUMetrics], system_metrics: SystemMetrics):
        """알림 임계값 검사"""
        alerts = []
        
        # GPU 알림 검사
        for gpu in gpu_metrics:
            if gpu.temperature > self.alert_thresholds['gpu_temperature']:
                alerts.append({
                    'type': 'gpu_temperature',
                    'severity': 'critical',
                    'message': f"GPU {gpu.index} temperature high: {gpu.temperature}°C",
                    'gpu_index': gpu.index
                })
            
            if gpu.memory_usage_percent > self.alert_thresholds['gpu_memory_usage']:
                alerts.append({
                    'type': 'gpu_memory',
                    'severity': 'warning',
                    'message': f"GPU {gpu.index} memory usage high: {gpu.memory_usage_percent:.1f}%",
                    'gpu_index': gpu.index
                })
            
            if gpu.utilization > self.alert_thresholds['gpu_utilization']:
                alerts.append({
                    'type': 'gpu_utilization',
                    'severity': 'info',
                    'message': f"GPU {gpu.index} utilization high: {gpu.utilization}%",
                    'gpu_index': gpu.index
                })
        
        # 시스템 알림 검사
        if system_metrics:
            if system_metrics.cpu_percent > self.alert_thresholds['system_cpu']:
                alerts.append({
                    'type': 'system_cpu',
                    'severity': 'warning',
                    'message': f"System CPU usage high: {system_metrics.cpu_percent}%"
                })
            
            if system_metrics.memory_percent > self.alert_thresholds['system_memory']:
                alerts.append({
                    'type': 'system_memory',
                    'severity': 'critical',
                    'message': f"System memory usage high: {system_metrics.memory_percent}%"
                })
        
        return alerts
    
    async def send_alerts(self, alerts: List[Dict]):
        """알림 전송"""
        for alert in alerts:
            self.logger.warning(f"ALERT: {alert['message']}")
            
            # 웹훅으로 알림 전송
            for webhook_url in self.alert_webhooks:
                try:
                    async with aiohttp.ClientSession() as session:
                        payload = {
                            'text': f"{alert['message']}",
                            'severity': alert['severity'],
                            'timestamp': datetime.now().isoformat()
                        }
                        await session.post(webhook_url, json=payload)
                except Exception as e:
                    self.logger.error(f"Failed to send alert to webhook: {e}")
    
    def optimize_gpu_performance(self, gpu_metrics: List[GPUMetrics]):
        """GPU 성능 자동 최적화"""
        for gpu in gpu_metrics:
            try:
                # 온도가 높으면 파워 리미트 감소
                if gpu.temperature > 75:
                    new_power_limit = max(gpu.power_limit * 0.9, gpu.power_limit - 50)
                    self.logger.info(f"GPU {gpu.index}: Reducing power limit to {new_power_limit}W due to high temperature")
                    # 실제 구현에서는 nvidia-ml-py3를 사용하여 파워 리미트 조정
                
                # 메모리 사용률이 높으면 경고
                if gpu.memory_usage_percent > 90:
                    self.logger.warning(f"GPU {gpu.index}: High memory usage ({gpu.memory_usage_percent:.1f}%). Consider reducing batch size.")
                
            except Exception as e:
                self.logger.error(f"Failed to optimize GPU {gpu.index}: {e}")
    
    async def run_monitoring(self, interval: int = 30):
        """메인 모니터링 루프"""
        # Prometheus HTTP 서버 시작
        start_http_server(self.prometheus_port)
        self.logger.info(f"Prometheus metrics server started on port {self.prometheus_port}")
        
        while True:
            try:
                # 메트릭 수집
                gpu_metrics = self.get_gpu_metrics_nvml()
                system_metrics = self.get_system_metrics()
                
                # Prometheus 메트릭 업데이트
                self.update_prometheus_metrics(gpu_metrics, system_metrics)
                
                # 알림 검사 및 전송
                alerts = self.check_alerts(gpu_metrics, system_metrics)
                if alerts:
                    await self.send_alerts(alerts)
                
                # 성능 최적화
                self.optimize_gpu_performance(gpu_metrics)
                
                # 상태 로깅
                for gpu in gpu_metrics:
                    self.logger.info(
                        f"GPU {gpu.index}: {gpu.utilization}% util, "
                        f"{gpu.temperature}°C, "
                        f"{gpu.memory_usage_percent:.1f}% mem, "
                        f"{gpu.power_draw:.1f}W"
                    )
                
                if system_metrics:
                    self.logger.info(
                        f"System: {system_metrics.cpu_percent}% CPU, "
                        f"{system_metrics.memory_percent}% memory"
                    )
                
                await asyncio.sleep(interval)
                
            except KeyboardInterrupt:
                self.logger.info("Monitoring stopped by user")
                break
            except Exception as e:
                self.logger.error(f"Monitoring error: {e}")
                await asyncio.sleep(interval)

async def main():
    """메인 함수"""
    monitor = AdvancedGPUMonitor(prometheus_port=8000)
    
    # 알림 웹훅 설정 (선택사항)
    # monitor.alert_webhooks.append("https://hooks.slack.com/your/webhook/url")
    
    await monitor.run_monitoring(interval=30)

if __name__ == "__main__":
    asyncio.run(main())

성능 최적화 자동화 스크립트

성능 최적화 자동화 스크립트 샘플 예시>

#!/bin/bash
# monitoring/gpu_optimizer.sh

set -e

# 색상 정의
RED='\033[0;31m'
GREEN='\033[0;32m'
YELLOW='\033[1;33m'
NC='\033[0m'

log() {
    echo -e "${GREEN}[$(date '+%Y-%m-%d %H:%M:%S')]${NC} $1"
}

warn() {
    echo -e "${YELLOW}[$(date '+%Y-%m-%d %H:%M:%S')] WARNING:${NC} $1"
}

error() {
    echo -e "${RED}[$(date '+%Y-%m-%d %H:%M:%S')] ERROR:${NC} $1"
}

# GPU 개수 확인
GPU_COUNT=$(nvidia-smi --list-gpus | wc -l)
log "Found $GPU_COUNT GPU(s)"

# GPU 성능 모드 설정
optimize_gpu_performance() {
    log "Optimizing GPU performance settings..."
    
    # 영구 성능 모드 활성화
    sudo nvidia-smi -pm 1
    
    for gpu in $(seq 0 $((GPU_COUNT - 1))); do
        log "Optimizing GPU $gpu..."
        
        # GPU 정보 수집
        temp=$(nvidia-smi --id=$gpu --query-gpu=temperature.gpu --format=csv,noheader,nounits)
        memory_used=$(nvidia-smi --id=$gpu --query-gpu=memory.used --format=csv,noheader,nounits)
        memory_total=$(nvidia-smi --id=$gpu --query-gpu=memory.total --format=csv,noheader,nounits)
        power_draw=$(nvidia-smi --id=$gpu --query-gpu=power.draw --format=csv,noheader,nounits)
        
        memory_usage=$((memory_used * 100 / memory_total))
        
        log "GPU $gpu: ${temp}°C, ${memory_usage}% memory, ${power_draw}W"
        
        # 온도 기반 파워 리미트 조정
        if [ "$temp" -gt 80 ]; then
            warn "GPU $gpu temperature high (${temp}°C), reducing power limit"
            # RTX 4090 기준 400W로 제한
            sudo nvidia-smi -i $gpu -pl 400
        elif [ "$temp" -lt 65 ]; then
            log "GPU $gpu temperature normal (${temp}°C), setting optimal power limit"
            # RTX 4090 기준 450W로 설정
            sudo nvidia-smi -i $gpu -pl 450
        fi
        
        # 메모리 사용률 기반 최적화
        if [ "$memory_usage" -gt 90 ]; then
            warn "GPU $gpu memory usage high (${memory_usage}%), check workload optimization"
        fi
        
        # 클럭 최적화 (RTX 4090 기준)
        # GPU 클럭: +200MHz, 메모리 클럭: +1000MHz
        nvidia-smi -i $gpu -ac 5001,2230 || true
        
        # 팬 커브 최적화 (가능한 경우)
        # nvidia-settings -a "[gpu:$gpu]/GPUFanControlState=1" || true
        # nvidia-settings -a "[fan:$gpu]/GPUTargetFanSpeed=80" || true
    done
    
    log "GPU performance optimization completed"
}

# 시스템 성능 최적화
optimize_system_performance() {
    log "Optimizing system performance..."
    
    # CPU 거버너를 performance 모드로 설정
    if [ -d "/sys/devices/system/cpu/cpu0/cpufreq" ]; then
        echo performance | sudo tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor > /dev/null
        log "CPU governor set to performance mode"
    fi
    
    # 스왑 사용량 최소화 (AI 워크로드에서 스왑은 성능 저하 요인)
    echo 10 | sudo tee /proc/sys/vm/swappiness > /dev/null
    log "Swappiness set to 10"
    
    # 대용량 메모리 페이지 활성화
    echo always | sudo tee /sys/kernel/mm/transparent_hugepage/enabled > /dev/null
    log "Transparent huge pages enabled"
    
    # 파일 디스크립터 한도 증가
    if ! grep -q "* soft nofile 1048576" /etc/security/limits.conf; then
        echo "* soft nofile 1048576" | sudo tee -a /etc/security/limits.conf
        echo "* hard nofile 1048576" | sudo tee -a /etc/security/limits.conf
        log "File descriptor limits increased"
    fi
    
    # 네트워크 버퍼 크기 최적화
    if ! grep -q "net.core.rmem_max" /etc/sysctl.conf; then
        cat << EOF | sudo tee -a /etc/sysctl.conf
# AI 워크로드 최적화 설정
net.core.rmem_max = 134217728
net.core.wmem_max = 134217728
net.ipv4.tcp_rmem = 4096 87380 134217728
net.ipv4.tcp_wmem = 4096 65536 134217728
net.core.netdev_max_backlog = 5000
vm.dirty_ratio = 15
vm.dirty_background_ratio = 5
EOF
        sudo sysctl -p
        log "Network and memory optimization applied"
    fi
    
    # I/O 스케줄러 최적화 (NVMe SSD의 경우)
    for disk in /sys/block/nvme*; do
        if [ -d "$disk" ]; then
            echo none | sudo tee $disk/queue/scheduler > /dev/null
            log "I/O scheduler optimized for $(basename $disk)"
        fi
    done
    
    log "System performance optimization completed"
}

# 도커 컨테이너 리소스 최적화
optimize_docker_resources() {
    log "Optimizing Docker container resources..."
    
    # 실행 중인 AI 컨테이너 확인
    ai_containers=$(docker ps --filter "label=ai-workload" --format "{{.Names}}" || true)
    
    if [ -n "$ai_containers" ]; then
        for container in $ai_containers; do
            log "Optimizing container: $container"
            
            # 컨테이너 리소스 사용량 확인
            stats=$(docker stats --no-stream --format "{{.Container}}\t{{.CPUPerc}}\t{{.MemUsage}}" $container)
            log "Container stats: $stats"
            
            # 필요시 컨테이너 리소스 제한 조정
            # docker update --memory=32g --cpus=16 $container
        done
    else
        log "No AI containers found with ai-workload label"
    fi
}

# 모니터링 알림 설정
setup_monitoring_alerts() {
    log "Setting up monitoring alerts..."
    
    # Prometheus 알림 규칙 생성
    mkdir -p /tmp/prometheus_rules
    
    cat << 'EOF' > /tmp/prometheus_rules/ai_infrastructure.yml
groups:
- name: ai_infrastructure
  rules:
  - alert: GPUHighTemperature
    expr: gpu_temperature_celsius > 80
    for: 2m
    labels:
      severity: critical
    annotations:
      summary: "GPU {{ $labels.gpu }} temperature is too high"
      description: "GPU {{ $labels.gpu }} ({{ $labels.name }}) temperature is {{ $value }}°C"

  - alert: GPUHighMemoryUsage
    expr: (gpu_memory_used_bytes / gpu_memory_total_bytes) * 100 > 95
    for: 1m
    labels:
      severity: warning
    annotations:
      summary: "GPU {{ $labels.gpu }} memory usage is too high"
      description: "GPU {{ $labels.gpu }} memory usage is {{ $value }}%"

  - alert: SystemHighCPUUsage
    expr: system_cpu_percent > 90
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "System CPU usage is too high"
      description: "System CPU usage is {{ $value }}%"

  - alert: SystemHighMemoryUsage
    expr: system_memory_percent > 95
    for: 1m
    labels:
      severity: critical
    annotations:
      summary: "System memory usage is too high"
      description: "System memory usage is {{ $value }}%"
EOF

    if [ -f "monitoring/prometheus/rules/ai_infrastructure.yml" ]; then
        cp /tmp/prometheus_rules/ai_infrastructure.yml monitoring/prometheus/rules/
        log "Prometheus alert rules updated"
    else
        warn "Prometheus rules directory not found, skipping alert setup"
    fi
}

# 성능 벤치마크 실행
run_performance_benchmark() {
    log "Running performance benchmark..."
    
    # GPU 벤치마크
    python3 << 'EOF'
import torch
import time
import numpy as np

def gpu_benchmark():
    if not torch.cuda.is_available():
        print("CUDA not available")
        return
    
    device = torch.device('cuda')
    print(f"Running benchmark on {torch.cuda.get_device_name(0)}")
    
    # 행렬 곱셈 벤치마크
    sizes = [2000, 4000, 8000]
    for size in sizes:
        a = torch.randn(size, size, device=device, dtype=torch.float32)
        b = torch.randn(size, size, device=device, dtype=torch.float32)
        
        # 워밍업
        for _ in range(3):
            _ = torch.matmul(a, b)
        torch.cuda.synchronize()
        
        # 벤치마크
        start_time = time.time()
        for _ in range(10):
            c = torch.matmul(a, b)
        torch.cuda.synchronize()
        end_time = time.time()
        
        avg_time = (end_time - start_time) / 10
        flops = 2 * size**3
        gflops = flops / (avg_time * 1e9)
        
        print(f"Matrix {size}x{size}: {avg_time:.4f}s, {gflops:.2f} GFLOPS")

gpu_benchmark()
EOF
    
    log "Performance benchmark completed"
}

# 메인 실행 함수
main() {
    case "${1:-}" in
        "gpu")
            optimize_gpu_performance
            ;;
        "system")
            optimize_system_performance
            ;;
        "docker")
            optimize_docker_resources
            ;;
        "alerts")
            setup_monitoring_alerts
            ;;
        "benchmark")
            run_performance_benchmark
            ;;
        "all")
            optimize_gpu_performance
            optimize_system_performance
            optimize_docker_resources
            setup_monitoring_alerts
            run_performance_benchmark
            ;;
        *)
            echo "Usage: $0 {gpu|system|docker|alerts|benchmark|all}"
            echo
            echo "Commands:"
            echo "  gpu        Optimize GPU performance settings"
            echo "  system     Optimize system performance settings"
            echo "  docker     Optimize Docker container resources"
            echo "  alerts     Setup monitoring alerts"
            echo "  benchmark  Run performance benchmark"
            echo "  all        Run all optimizations"
            exit 1
            ;;
    esac
}

# 권한 확인
if [ "$EUID" -ne 0 ] && [[ "${1:-}" =~ ^(gpu|system|all)$ ]]; then
    error "This script requires sudo privileges for GPU and system optimization"
    exit 1
fi

main "$@"

6. 실습 프로젝트: 제조업 AI 개발환경 완전 구축

구체적으로 제조업에서 AI 개발환경을 구축하는 실습 프로젝트는 다음 블로그글에서 상세히 다루기로 하겠습니다.

제조업의 품질관리시스템 AI를 구축하는 실제 개발환경을 구축하는 예시 : [제조 AI] 2-2) 로컬 AI 인프라 구축 - 제조업 AI 실제 개발환경 구축

마무리

로컬 AI 인프라 구축은 초기 투자 비용이 상당하지만, 장기적으로는 클라우드 비용 절감과 데이터 보안, 성능 최적화 측면에서 큰 이점을 제공합니다.

하드웨어 선정부터 모니터링 시스템 구축까지의 전 과정을 체계적으로 진행하면, 안정적이고 확장 가능한 AI 개발 환경을 구축할 수 있습니다. 특히 컨테이너 기반 환경 구성은 개발팀의 생산성을 크게 향상시키고, 일관된 개발 환경을 보장합니다. 구축된 인프라는 지속적인 모니터링과 최적화를 통해 성능을 유지하고 개선해야 하며, 기술 발전에 따라 점진적으로 업그레이드해야 합니다. 다음 편에서는 인프라 구축과 관련된 주제의 연장선상으로 실습형태의 [품질관리AI]를 구축하기 위해 실제 개발환경을 구축하는 실습과 관련된 글을 써볼까 합니다.

FAQ

Q1: GPU 메모리 부족 문제는 어떻게 해결하나요?
A: 배치 크기 줄이기, 그래디언트 체크포인팅, 모델 병렬화, 혼합 정밀도 훈련 등을 순서대로 적용해보세요. 근본적 해결책은 더 큰 메모리의 GPU로 업그레이드하는 것입니다.

Q2: 여러 GPU를 효율적으로 활용하는 방법은?
A: DataParallel이나 DistributedDataParallel을 사용하여 모델을 병렬화하고, 각 GPU의 사용률을 모니터링하여 로드 밸런싱을 확인하세요. 메모리 크기가 다른 GPU 조합은 피하는 것이 좋습니다.

Q3: Docker 컨테이너가 GPU를 인식하지 못할 때?
A: NVIDIA Container Toolkit 설치 상태를 확인하고, Docker 데몬 재시작 후 --gpus all 옵션을 사용하세요. nvidia-smi가 호스트에서 정상 작동하는지도 확인해야 합니다.

Q4: 시스템 온도가 너무 높을 때 대처법은?
A: 케이스 팬 추가, GPU 파워 리미트 조절, 언더볼팅 적용을 검토하세요. 70도 이상이 지속되면 하드웨어 손상 위험이 있으므로 즉시 조치가 필요합니다.

Q5: 예산이 부족할 때 우선순위는?
A: GPU 메모리 > CPU 코어 수 > 시스템 메모리 > 스토리지 순으로 투자하세요. 중고 기업용 GPU(Tesla K80, P40 등)도 학습용으로는 충분한 성능을 제공합니다.

참조문헌

NVIDIA Corporation. "CUDA Installation Guide for Linux". NVIDIA Developer Documentation, 2024.
Google Research. "TensorFlow Performance Optimization Guide". TensorFlow Official Documentation, 2024.
Meta AI. "PyTorch Distributed Training Best Practices". PyTorch Documentation, 2024.
Prometheus Community. "Monitoring Best Practices for AI Workloads". Prometheus Documentation, 2024.
Docker Inc. "GPU Support in Docker Containers". Docker Official Documentation, 2024.
Grafana Labs. "Grafana Dashboard Design for ML Operations". Grafana Documentation, 2024.
Ubuntu Community. "Ubuntu Server Guide for AI Development". Ubuntu Official Documentation, 2024.
MLflow Community. "MLflow Tracking Server Setup Guide". MLflow Documentation, 2024.

저작자표시 비영리 변경금지 (새창열림)

'AI 활용' 카테고리의 다른 글

AI 시대에 지금 당장 써봐야 할 재미있는 AI 도구들 (26)	2025.08.21
[제조 AI] 2-2) 로컬 AI 인프라 구축 - (실습)제조업 AI 실제 개발환경 구축 (6)	2025.08.18
도면 작성을 생성형 AI로 전문가처럼 할 수 있다 (18)	2025.08.12
[제조 AI] 01) 제조업을 위한 로컬 AI 도입계획 (15)	2025.08.04
당장 사용 가능한 대한민국 AI TOP 5 (17)	2025.08.01