H/W


IBM Minsky  인공지능의 지름길! NVIDIA의 최신 GPU 기술 탑재, Deep Learning을 위한 최적의 IBM 솔루션


  • IBM Minsky는 인공지능에서부터 딥러닝, 첨단 빅데이터 분석 그리고 연산 집약적인 작업을 더욱 빠르고 효율적으로 처리해 줍니다.


  • 자율 주행차, 실시간 금융 사기 방지 및 신약 개발과 같은 새로운 산업의 발전은 예전과는 다른 차원의 인공지능 기술을 필요로 합니다. 이러한 기술의 핵심에 ‘딥러닝’이 있습니다.


  • 딥러닝(Deep Learning)이란 인공 신경망을 기반으로 한 머신러닝 방법론 중 하나로, 인간의 두뇌가 수많은 데이터 속에서 패턴을 발견한 뒤 사물을 구분하는 정보처리 방식을 모방해 컴퓨터가 사람처럼 스스로 학습하여 판단하는 기술입니다.

최신, 최고의 GPU PASCAL P100

• NVIDIA의 최신 PASCAL아키텍처 P100 GPU 장착
• 딥러닝을 위한 Half- precision 성능 21TFLOPS
• 기존의 3배에 달하는 GPU메모리 대역폭

쉽고 빠른 딥러닝 프레임 워크 제공 PowerAI

• IBM의 딥러닝 소프트웨어 툴킷 PowerAI 제공
• CAFFE, Torch, TensorFlow 등 주요 딥러닝 
프레임워크를 최적화하여 패키지로 제공

신기술에 의한 기존 문제의 해결

• Unified Memory로 GPU 메모리 한계 극복, P2P 문제 해결
• NVLink 기술로 GPU-CPU간 병목 해결, 획기적 성능 향상

진정한 오픈 아키텍처 OpenPOWER 플렛폼

• POWER 아키텍처 공개에 의한 진정한 오픈 아키텍처
• IBM / Mellanox / NVIDIA 협업을 통한 굳건한 GPU 솔루션 로드맵
• NVIDIA – IBM Acceleration Lab 지원


병럴 처리 연산을 이용한 아키텍처 

 - Distributed Deep Learning with PowerAI 4.0

 - ResNet-50, ImageNet-1K 데이터 모델 트레이닝 시, 16일 걸리던 작업을 64개의 시스템에 분산 -> 7시간만에 완료

최신의 Deep learning framework 지원 

 - Distributed Deep Learning with PowerAI 4.0 

 - 다수 사용자 환경에 nvidia-docker를 이용한 다양한 SW 환경지원

 - IBM Power Systems 822LC (Minsky)는 PowerAI 를 사용하여 간단한 패키지 설치만으로 각종 예제 스크립트가 포함된 주요 framework 을 쓸 수 있어, 초급자도 쉽고 빠르게 딥 러닝을 시작할 수 있습니다.

최신, 최고의 GPU PASCAL P100 

 - 성능 : ML/DL을 위한 새로운 Half-precision성능 21TFLOPS

 - 효율 : 16nm FinFET기술에 의해 향상된 에너지 효율

 - 무한 : PME와 UM을 통해 GPU 메모리 한계를 극복

 - 확장 : CoWoS HBM2로 3배 향상된 메모리 대역폭

 - 속도 : PCIe Gen3 속도의 한계를 극복한 NVLink 기술


구성모듈


IBM Power8 CPU와 NVIDIA P100 GPU의 조합

  • 최신 Pascal 아키텍처의 P100 4장 장착
  • 양방향 40+40GB/sec의 대역폭을 가지는 NVLink를 통해 GPU-GPU는 물론, CPU-GPU도 연결
  • 물리적 core 1개당 8개의 HW thread (SMT-8)를 가지는 Power8 프로세서
  • 2U 공간 안에 강력한 GPU 컴퓨팅 파워를 압축하여 성능 대비 상면적 및 전력 소비량에서 월등한 이점
시스템 구성(8335-GTB)
마이크로
프로세서
8코어 3.25GHz Power8 프로세서 카드 2개 또는 10코어 2.86GHz Power8 프로세서 카드 2개
L2(Level 2)코어당 512KB L2 캐시
L3(Level 3)코어당 8MB L3 캐시
L4(Level 4)소켓당 최대 64MB
메모리
최소/최대
4GB, 8GB, 16GB, 32GB DDR4
모듈, 128GB ~ 1TB 총 메모리
프로세서-
메모리 대역폭
소켓당 115GB/초, 시스템당 230GB/초(SCM에서 L4 캐시까지의 최대 지속 메모리 대역폭)
소켓당 170GB/초, 시스템당 340GB/초(L4 캐시에서 DIMM까지 최대 피크 메모리 대역폭)
스토리지 및 입출력(I/O)
표준 백플레인하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 디스크(SDD)를 위한 SFF(small form factor) 베이 2개
미디어 베이해당 없음
RAID 옵션통합 PCIe 어댑터에서 하드웨어 RAID 지원
어댑터 슬롯PCIe Gen3 슬롯 3개: x16 PCIe Gen3 2개, x8 PCIe Gen3 1개. 모두 CAPI 지원
I/O 대역폭64GBps
GPU 액셀러레이터최대 4개의 NVIDIA Tesla P100(NVLink GPU)
전원, RAS, 시스템 소프트웨어, 물리적 특성과 보증
전원200V ~ 240V
RAS 기능•프로세서 명령 재시도 •선택 동적 펌웨어 업데이트
•Chipkill 메모리 •ECC L2 캐시, L3 캐시
•결함 모니터링 기능이 있는 서비스 프로세서 •핫스왑 가능 디스크 베이
•핫플러그 및 이중 전원/냉각 팬(GPU 설치 시 전원 이중화 없음)
운영 체제Linux on POWER
시스템 크기441.5W x 86H x 822D mm