인공지능의 지름길! NVIDIA의 최신 GPU 기술 탑재

<< Deep Learning 을 위한 최적의 IBM 솔루션 >>


제품개요

   
  • IBM Minsky는 인공지능에서부터 딥러닝, 첨단 빅데이터 분석 그리고 연산 집약적인 작업을 더욱 빠르고 효율적으로 처리해 줍니다.
  • 자율 주행차, 실시간 금융 사기 방지 및 신약 개발과 같은 새로운 산업의 발전은 예전과는 다른 차원의 인공지능 기술을 필요로 합니다. 이러한 기술의 핵심에 ‘딥러닝’이 있습니다.
  • 딥러닝(Deep Learning)이란 인공 신경망을 기반으로 한 머신러닝 방법론 중 하나로, 인간의 두뇌가 수많은 데이터 속에서 패턴을 발견한 뒤 사물을 구분하는 정보처리 방식을 모방해 컴퓨터가 사람처럼 스스로 학습하여 판단하는 기술입니다.

특징 및 장점

   

 

최신, 최고의 GPU PASCAL P100 쉽고 빠른 딥러닝 프레임워크 제공 PowerAI 신기술에 의한 기존 문제의 해결 진정한 오픈 아키텍처 OpenPOWER 플랫폼
• NVIDIA의 최신 PASCAL 아키텍처
P100 GPU 장착
• 딥러닝을 위한 Half- precision 성능 21TFLOPS
• 기존의 3배에 달하는 GPU메모리 대역폭
• IBM의 딥러닝 소프트웨어 툴킷 PowerAI 제공
• CAFFE, Torch, TensorFlow 등 주요 딥러닝 프레임워크를 최적화하여 패키지로 제공
• Unified Memory로 GPU 메모리 한계 극복, P2P 문제 해결
• NVLink 기술로 GPU-CPU간 병목 해결, 획기적 성능 향상
• POWER 아키텍처 공개에 의한 진정한 오픈 아키텍처
• IBM / Mellanox / NVIDIA 협업을 통한 굳건한 GPU 솔루션 로드맵
• NVIDIA – IBM Acceleration Lab 지원

병럴 처리 연산을 이용한 아키텍처

   

Distributed Deep Learning with PowerAI 4.0


ResNet-50, ImageNet-1K 데이터 모델 트레이닝 시, 16일 걸리던 작업을 64개의 시스템에 분산 -> 7시간만에 완료

 


최신의 Deep learning framework 지원

   

Distributed Deep Learning with PowerAI 4.0

  • 다수 사용자 환경에서 nvidia-docker를 이용한 다양한 SW 환경지원
  • IBM Power Systems 822LC (Minsky)는 PowerAI 를 사용하여 간단한 패키지 설치만으로 각종 예제 스크립트가 포함된 주요 framework 을 쓸 수 있어, 
    초급자도 쉽고 빠르게 딥 러닝을 시작할 수 있습니다.

최신, 최고의 GPU PASCAL P100

   

성능 효율 무한 확장 속도
ML/DL을 위한 새로운 Half-precision성능 21TFLOPS 16nm FinFET기술에 의해 향상된 에너지 효율 PME와 UM을 통해 GPU 메모리 한계를 극복 CoWoS HBM2로 3배 향상된 메모리 대역폭 PCIe Gen3 속도의 한계를 극복한 NVLink 기술

구성모듈

   

IBM Power8 CPU와 NVIDIA P100 GPU의 조합
• 최신 Pascal 아키텍처의 P100 4장 장착
• 양방향 40+40GB/sec의 대역폭을 가지는 NVLink를 통해 GPU-GPU는 물론, CPU-GPU도 연결
• 물리적 core 1개당 8개의 HW thread (SMT-8)를 가지는 Power8 프로세서
• 2U 공간 안에 강력한 GPU 컴퓨팅 파워를 압축하여 성능 대비 상면적 및 전력 소비량에서 월등한 이점

시스템 구성(8335-GTB)
마이크로프로세서 8코어 3.25GHz Power8 프로세서 카드 2개 또는
10코어 2.86GHz Power8 프로세서 카드 2개
L2(Level 2) 캐시 코어당 512KB L2 캐시
L3(Level 3) 캐시 코어당 8MB L3 캐시
L4(Level 4) 캐시 소켓당 최대 64MB
메모리 최소/최대 4GB, 8GB, 16GB, 32GB DDR4 모듈, 128GB ~ 1TB 총 메모리
프로세서-메모리 대역폭 소켓당 115GB/초, 시스템당 230GB/초(SCM에서 L4 캐시까지의 최대 지속 메모리 대역폭)
소켓당 170GB/초, 시스템당 340GB/초(L4 캐시에서 DIMM까지 최대 피크 메모리 대역폭)
스토리지 및 입출력(I/O)
표준 백플레인 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 디스크(SDD)를 위한
SFF(small form factor) 베이 2개
미디어 베이 해당 없음
RAID 옵션 통합 PCIe 어댑터에서 하드웨어 RAID 지원
어댑터 슬롯 PCIe Gen3 슬롯 3개: x16 PCIe Gen3 2개, x8 PCIe Gen3 1개. 모두 CAPI 지원
I/O 대역폭 64GBps
GPU 액셀러레이터 최대 4개의 NVIDIA Tesla P100(NVLink GPU)
전원, RAS, 시스템 소프트웨어, 물리적 특성과 보증
전원 200V ~ 240V
RAS 기능 •프로세서 명령 재시도 •선택 동적 펌웨어 업데이트
•Chipkill 메모리 •ECC L2 캐시, L3 캐시
•결함 모니터링 기능이 있는 서비스 프로세서 •핫스왑 가능 디스크 베이
•핫플러그 및 이중 전원/냉각 팬(GPU 설치 시 전원 이중화 없음)
운영 체제* Linux on POWER
시스템 크기 441.5W x 86H x 822D mm

적용 사례

   

고압철탑 시설점검을 위한 시스템 구축

– 드론으로 촬영한 이미지/영상을 딥러닝 기법을 사용하여 분석

> 송전탑 점검의 자동화

초음파 의료기기 개발

– 이미지를 딥러닝 기법을 사용하여 빠르게 분석 & 제한된 자원의 활용을 극대화하기 위해 docker 및 스펙트럼 LSF 솔루션 적용

> 분석 결과를 의료기기에 적용 및 개발

자율 주행 모델 개발

– 자체 수집한 블랙박스 영상 및 이미지를 통해 모델 트레이닝

– 대형 모델 트레이닝을 위한 모델 병렬화 구현

> 분산 병렬처리 성능 극대화를 위한 NVlink 및 스펙트럼 스케일에 장점 활용


IBM Minsky 문의

   


IBM Minsky 에 관한 문의 사항이 있으시면 버튼을 통해 신청해주시길 바랍니다.