02AI / Deep learning 1 페이지

본문 바로가기

HPC 최고의 자체 개발 미들웨어 솔루션

DreamFast Server / DTK / ThunderManager


AI / Deep learning


t_icon.pngCAE-Simulator ThunderBolt  AI-DL/ML 구성도 및 구조도 

4ef8fb3ada6d87177bcd354e5ca4cd4f_1620051317_0715_p1.png
 

 
4ef8fb3ada6d87177bcd354e5ca4cd4f_1620042515_0991_p1.png 


t_icon.pngCAE-Simulator ThunderBolt  DeepLearning-Module 
8GPU-SXM5 DeepLearning-Module


ESC-N8-E11_SPR_H100SXM5_8ea_frontUpsideView_934_p1.png
 

 Processor   

:  (2) Intel 4th(Sapphire Rapids)/5th(Emerald Rapids) Xeon 8400/6400/5400/4400 Processor(Socket-E 4677)

:  Max TDP   up to 350W

 Chipset       

:  Intel C741

:  Switch IC PLX PEX8796

 Slots 

:  (8) PCI-E Gen5 x16 slots (HH / HL / SW / LP, PCIe Switch) 

:  (1) PCI-E Gen5 x16 slot (FH / HL, CPU1)

:  (1) PCI-E Gen5 x16 slot (FH / HL, CPU2)

 Memory Capacity

:  32 DIMM slots supporting up to 12TB(4 DDR5 + 8 Crow Pass) 

:  DDR5 RDIMM/RDIMM 3DS 4800/4400  

:  Intel Optane DC Persistent Memory Module (DCPMM)

 LAN:  (2) 10Gb-T ports Intel X710T2 

 GPU

:  (1) Onboard Aspeed AST2600 64MB

:  (10) HGX H100 NVM SXM5 GPUs 94GB with NVLink NV Switch

 I/O Ports

:  (2) M.2/NVMe PCIe5 x4(CPU1)

:  (2) M.2/NVMe PCIe3 x4(PCH)

:  (2) SATA3 6Gbps by PCH

:  (4) USB3.2 G1 ports (@ Front) 

:  (1) D-Sub 15-pin port (@ front)

:  (2) 10GbE ports, (1) dedicated GbE for IPMI (@ front)

 Drive bays

:  (8) 2.5" Hot-swap, NVMe(PCIe Switch)

:  (2) 2.5" Hot-swap, NVMe(CPU2)/SATA/SAS*

:  * SAS support required an HBA/RAID card

 Management 

:  IPMI 2.0 compliant baseboard management controller (BMC) / 10/100/1000 Mb/s MAC interface

 Power Supply 

:  12,000Watts (200-240Vac input) PFC / 80 plus Titanium 4+2 Redundant

 Dimensions(H x W x D)

:  306.65mm x W447mm x D885mm (30.3”) 7U

 



8GPU-PCIe DeepLearning-Module
ESC8KE12_X6-GNR_931.png 
 

 Processor   

:  (2) Intel  Xeon 6 Sierra Forest/Granite Rapids-SP 6000E/P Processor(FCLGA4710) 

:  Max TDP   up to 350W

 Chipset       

:  E12

 Slots 

:  (8) PCI-E G5 x16 slots (FHFL), (1) PCI-E Gen5 x16 slot (FHHL), 1 PCIe5 x8/16 HBA/RAID FHHL

 Memory Capacity

:  32 DIMM slots supporting up to 4TB 

:  DDR5 REG ECC RDIMM/MCR-DIMM 6400/5200

:  16/32/64/128GB

 LAN:  (2) 10Gb-T ports Intel X710 

 GPU

:  (1)Onboard Aspeed AST2600 64MB

:  (8)H100 NVL 94GB / H200 NVL 141GB PCIe

 I/O Ports

:  (2) M.2 connectors PCIe5 x4, Up to 22110

:  (4) MCIO x8
:  (2) USB3.2 G1 ports (@ Rear) / (2) USB3.2 G1 ports (@ Front)

:  (1) Mini-DP port (@ front)

:  (2) 10GbE ports, (1) dedicated GbE for IPMI

 Drive bays

:  (8) 2.5" Hot-swap, Tool-less NVMe/U.2 - (4) MCIO x8 & (2) SlimSAS x4(requires HBA Card)

 Management 

:  IPMI 2.0 compliant baseboard management controller (BMC) 

 Power Supply 

:  3200Watts*4ea (200-240Vac input) PFC / 80 plus Titanium 3+1 Redundant

 Dimensions(H x W x D)

:  175mm x 439.5mm x 800mm 4U / 42kg


t_icon.pngCAE-Simulator ThunderBolt AI-DL/ML SW 
4ef8fb3ada6d87177bcd354e5ca4cd4f_1620040489_2621.png
 


CAE-Simulator ThunderBolt를 위한 소프트웨어 구조는 OS, MiddleWare, Application등으로 이루워져 있다.

1. Operating System(운영체제)

CAE-Simulator ThunderBolt 운영체제는 Linux를 기반으로 CAE-Simulatr 환경에 적합하도록 패치 및 보완을 하여 H/W에 최적화 하였으며, Multi-User 환경에서 잘 작동하도록 구성하였다. 특히, Firewall 패키지인 ThunderFirewall-v2 를 탑재하여, 해킹으로 부터 안전하도록 구성하였다.

2. MiddleWare(미들웨어)

(1) DreamFast Server - 자체개발솔루션
Sub-module(계산모듈)의 O/S 운영을 관장하는 DreamFast Server는 쉬운 모듈 관리 및 쉬운 프로그램 배포등 시스템관리에 들어가는 TCO(총비용)를 최소화 시켜준다. 또한 Disk 및 Diskless 모듈에도 적용 가능하도록 유연성을 제공한다. 특히,H/W 펌웨어 패치 및 최적화를 통해, 작은 크기의 캡슐화 된 RAMROM 기반 모듈 O/S를 전원이 켜짐과 동시에 램에 탑재되어 작동하도록 구현하여, Disk를 사용하는 타 시스템보다 수십 배 빠른 O/S 응답 처리속도와 안정성을 구현하였으며, 동적 MultiOS 지원 기능을 통해 동시다중 또는 선택적 이종 OS 운영을 지원한다. RAMROM 시스템의 주요 장점은 아래와 같다.

dfs_ramrom_table_935.png

(2) DTK - 자체개발솔루션
Console 기반의 Cluster Management Tool로 아래와 같은 기능을 제공한다.
• Terminal base Cluster Management tools
• dtk_mond_clt Client Daemon
• dtk_mond_svr Server Daemon
• Cluster User Management(add, del, change)
• Cluster Process Management(job allocation, monitoring, kill)
• Cluster Node Management(Node halt & reboot)

(3) ThunderManager - 자체개발솔루션
Windows PC에서도 쉽게 사용할 수 있는Web기반의 CAE-Simulator Management Solution 으로, ① 모니터링 ② 사용자관리, ③ 시스템관리 ④ 라이센스관리, ⑤ 시스템무결성관리 ⑥ 서브노드관리 ⑦ Extra Tools, ⑧ 스토리지 관리 등으로 구성된다.


4ef8fb3ada6d87177bcd354e5ca4cd4f_1620051073_991.png

① 모니터링
• 모듈당 CPU/GPU 사용율 및 사용유저별 CPU 사용률, 프로세스 리스트, 업타임
• 모듈당 메모리 사용상황, 캐쉬 및 스왑메모리 상태, Disk I/O 상태
• 모듈당 네트워크 및 Infiniband 사용상황, 네트워크 파일 시스템 리스트
• 모듈별 top 프로세스 모니터링 
• CAE-Simulator 사용자 Login Status
• CAE-Simulator Scheduler 작업 상태 모니터링

m02_01_img_05.jpg


② 사용자 관리
CAE-Simulaotr 사용자의 일괄관리를 처리하는 부분으로 사용자 추가, 사용자 삭제, 사용자 변경, 그룹추가, 그룹삭제, 사용자 동기화등을 처리할 수 있다.

m02_01_img_06.jpg


③ 시스템 관리
CAE-Simulaotr 시스템을 관리하는 부분으로 디스플레이설정(Remote PC/RDP/공유기지원), 파워온/오프/리부트, 네트워크 주소설정, 보안기능설정, 쉘(Shell) 환경설정등을 할 수 있다.

m02_01_img_07.jpg


④ 라이센스 관리
Fluent, Abaqus, CFX, CFD-ACE등 FlexLM 을 기반으로 하는 application의 라이센스를 일괄관리 하도록 지원한다.

m02_01_img_08.jpg


⑤ 시스템무결성관리
정기적으로 시스템 무결성을 체크하고, 그 결과를 리포트 해 준다.

m02_01_img_09.jpg


⑥ 서브모듈관리
서브모듈의 부팅모드(Hybrid의 경우 Linux 또는 Windows) 설정, 모듈 콘솔실행, 스크래치 파일 삭제, PBS 로그삭제, 캐쉬제거등을 지원한다.

m02_01_img_10.jpg


⑦ Tools : Webterm, Ganglia, Webmin, Samba등 3rd Part Program을 지원한다.

⑧ 보고서기능 : 시스템의 각종 항목에대한 사용이력을 그래프로 보고하는 기능을 제공한다.

m02_01_img_11.jpg


⑨ 스토리지 관리

m02_01_img_12.jpg


ThunderManager를 통해 다양한 형태의 DAS, NAS, LUSTRE 등 클러스터 스토리지를 모니터링 및 관리할 수 있다.
주요 지원되는 기능은,

- 파일시스템 사용량 모니터링
- 노드상태 모니터링 및 Alarm
- Raid 상태 모니터링 및 Alarm 
- Raid Disk 상태 모니터링 및 Alarm
- Quota 설정 및 사용자별 디스크 사용량 체크
- Console 지원 : Host, RAID GUI, IPMI
- 스토리지 모듈의 일괄적 파워관리 지원

(Halt, Reboot, Power On, Power Off)

m02_01_img_13.jpg


3. 딥러닝 가상화센터(Optional)

HPC Korea에서 개발한, ThunderManager에 탑재가능한 선택형 모듈제품으로, CAE-Simulator의 자원을 가상화하여 사용자로 하여금 PC에서 웹브라우저를 통해 쉽고 편하게 작업을 등록/모니터링/관리 할 수 있도록 지원한다. 

- 웹기반 클러스터 자원가상화 및 해석작업관리
- 사용자 Web-VNC 자동생성/연결 및 rGPU가속


- 해석작업모듈의 주요기능
1) 작업제출, 작업관리, 작업 모니터링, 전·후처리작업, 작업결과 검색 및 재사용
2) 해석작업 스케쥴링 및 통합자원관리
3) 웹기반 작업폴더 관리 및 윈도우 네트워크 드라이브 연동 지원
4) 웹기반 작업 유틸 지원Emacs, to zip, tail –f, dos2unix, Hanterm
5) Linux의 권한과 인증기반, 엄격한 사용자 인증 및 작업 폴더 관리
6) X-Windows 기반 Pre/Post 프로그램의 연동 
7) 원격 데스크톱 기반 Pre/Post/Solver 연동

- 도입효과 : 
1) 쉽고 편리한 작업환경 및 자원가상화로 해석시간 단축을 통한 생산성 극대화
2) 쉬운 인터페이스로 복잡한 실행 단계를 단순화
3) 해석작업의 DB화로 검색 및 재사용
4) 웹하드 형태로 작업폴더를 쉽게 관리
5) 체계화된 자원배치로 시뮬레이터 활용성 제고

- 주요지원 프로그램
 Caffe, TensorFlow, Theano, Torch, 그외 Customizing Solver

4ef8fb3ada6d87177bcd354e5ca4cd4f_1620041348_511.png

4ef8fb3ada6d87177bcd354e5ca4cd4f_1620041725_9554.png

jupyterhub_edit_launcher_670x456.png




 
회사소개 제품소개 제품문의 납품실적 자료실 묻고답하기 개인정보 취급방침
회사명 : 에이치피씨코리아(주)    / 대표자명 : 박명순    / 전화번호 : 042-610-6131~3/6135~7    / 팩스번호 : 042-610-6134    / www.hpckorea.co.kr
주소 : 대전광역시 서구 대덕대로 408 테크노월드 713호
COPYRIGHT (C) HPCKOREA. ALL RIGHTS RESERVED.