인텔 가우디 가속기, GPT3서 성능 2배 '업'

ML퍼프 성능평가서 확인...4세대 인텔 제온서도 향상
"엔비디아 H100 대체할 유일한 대안, 가격대비 뛰어난 성능"

인텔 가우디2 가속기가 FP8 소프트웨어로 GPT-3에서 두 배 높은 성능 향상을 제공하는 것으로 확인됐다.

인텔은 인텔 가우디2 및 4세대 인텔 제온에서 최신 ML퍼프 벤치마크 테스트 결과, FP8 데이터 유형을 적용해 두 배 높은 성능을 보였다고 10일 밝혔다.

인텔 데이터센터 및 AI 그룹 총괄 산드라 리베라(Sandra Rivera) 수석부사장은 “인텔은 AI 포트폴리오를 지속적으로 혁신하고 있으며, 연이은 ML퍼프 성능 결과를 통해 ML커먼스 AI 벤치마크의 기준을 높이고 있다"면서 "인텔 가우디 및 4세대 제온 프로세서는 고객에게 뚜렷한 가격 대비 성능 이점을 제공하며 즉시 사용 가능하고, 인텔의 다양한 AI 하드웨어 및 소프트웨어 구성은 고객에게 AI 워크로드에 맞는 포괄적인 솔루션과 선택지를 제공한다”고 말했다.

최신 ML커먼스의 ML퍼프 결과는 지난 6월 발표한 ML퍼프 트레이닝 결과보다 강력한 인텔의 AI 성능을 기반으로 한다. 인텔 제온 프로세서는 ML퍼프 결과를 제출하는 유일한 CPU이며, 인텔 가우디2는 테스트 결과 기준으로 세 가지 가속기 솔루션 중 하나로, 이 중 두 가지 솔루션만 현재 구매 가능하다.

인텔 가우디2 및 4세대 제온 프로세서는 다양한 하드웨어 구성으로 우수한 AI 학습 성능을 입증해 점점 더 다양해지는 고객의 AI 컴퓨팅 요구 사항을 해결할 수 있다.

이번 평가에서 가우디2는 AI 컴퓨팅 요구사항에 있어 엔비디아의 H100을 대체할 수 있는 유일한 대안으로 가격 대비 뛰어난 성능을 제공한다. 가우디2에 대한 ML퍼프 결과는 AI 가속기의 학습 성능이 향상되었음을 입증한다.

가우디2는 FP8 데이터 유형 구현으로 v3.1 학습 GPT-3 벤치마크에서 두 배의 성능 향상을 보였다. 6월 ML퍼프 벤치마크 대비 학습 시간이 절반 이상으로 단축됐으며, 384개의 인텔 가우디2 가속기를 사용해 153.38분 만에 학습을 완료하기도 했다. 가우디2 가속기는 E5M2 및 E4M3 형식 모두에서 FP8을 지원하며 필요 시 지연 스케일링 옵션도 제공한다.

인텔 가우디2는 BF16을 사용해 20.2분 만에 64개의 가속기로 스테이블 디퓨전(Stable Diffusion) 멀티모달 모델에 대한 학습을 시연했다. 향후 ML퍼프 트레이닝 벤치마크에서는 FP8 데이터 유형에 대한 스테이블 디퓨전 성능이 제출될 예정이다.

8개의 인텔 가우디2 가속기에서 BERT와 ResNet-50에 대한 벤치마크 결과는 각각 BF16을 사용하여 13.27분과 15.92분을 나타냈다.

4세대 제온의 결과도 주목할만하다. 인텔은 ML퍼프 결과를 제출한 유일한 CPU 벤더다. 4세대 제온에 대한 ML퍼프 결과는 제온의 강력한 성능을 강조한다.

인텔은 RESNet50, RetinaNet, BERT 및 DLRM dcnv2에 대한 결과를 제출했고, 4세대 인텔 제온 스케일러블 프로세서의 ResNet50, RetinaNet 및 BERT에 대한 결과는 2023년 6월 ML퍼프 벤치마크에 제출된 강력한 성능 결과와 유사했다.

DLRM dcnv2는 6월에 제출된 새로운 CPU 모델, 4개의 노드만 사용해 227분의 학습 시간을 기록했다.

4세대 제온 프로세서의 성능을 통해, 많은 엔터프라이즈 기업이 범용 CPU를 사용하여 기존 엔터프라이즈 IT 인프라에서 중소 규모의 딥 러닝 모델을 경제적이고 지속적으로 학습할 수 있으며, 특히 학습이 간헐적인 워크로드인 사용 사례에 적합하다.

인텔은 소프트웨어 업데이트 및 최적화를 통해 향후 ML퍼프 벤치마크에서 AI 성능 결과가 더욱 향상될 것으로 예상하고 있다.

문상현 기자 shmoon@

상단영역

본문영역