Graphcore의 C2 카드(사진:그래프코어, 편집:본지)
Graphcore의 C2 카드(사진:그래프코어, 편집:본지)

2016년 영국에 기반을 두고 사이먼 놀스(Simon Knowles)와 니겔 툰(Nigel Toon)이 공동창립한 AI 워크로드 가속칩을 개발하는 그래프코어(Graphcore)의 그 행보가 예사롭지 않다. 

보쉬 벤처캐피털(Robert Bosch Venture Capita), 삼성전자, 델 테크롤로지 캐피털(Dell Technologies Capital), 아마데우스 캐피털파트너스(Amadeus Capital Partners), C4벤처스, 드라퍼 에스프리트(Draper Esprit), 파운데이션 캐피털, 피탕고 캐피털(Pitango Capital), 암(Arm) 공동 창업자 헤르만 하우저(Hermann Hauser)와 딥마인드(DeepMind) 공동 창업자 데미스 하사비스(Demis Hassabis) 등으로부터 3억 달러(약 3500억원)를 유치했으며, 현재 기업 가치를 15억 달러(약 1조 7400억원)로 평가 받고 있다.

사이먼 놀스(Simon Knowles, 왼쪽)와 니겔 툰(Nigel Toon) 그래프코어 공동창립자(사진:그래프코어)

첫 상용 제품은 2018년에 출시된 16나노미터 PCI 고속 카드 ‘C2’이다. 특히 지난해 11월 '지능 처리 장치(Intelligence Processing Unit, 이하 IPU)'가 에저(Azure)에 채택됐다. 마이크로소프트(Microsoft)가 클라우드에 그래프코어 칩을 공개 채택한 것은 처음이다.

또 그래프코어 IPU는 Dell 서버 랙 기술과 통합되고 있다. 이는 기업 고객이 자사에서 머신 인텔리전스 컴퓨팅을 구축할 수 있음을 의미한다.

AI 컴퓨팅에서 엔비디아 GPU로 AI 시장을 주도하고 있다. 그러나 그래프코어 IPU가 빠르면서 가격 경쟁력도 갖춘 것으로 알려져 판도 변화가 예상된다. 특히, IPU는 CPU 및 GPU 프로세서와 완전히 다르다. 교육 및 추론 모두를 위해 최신 머신 인텔리전스 모델에서 최첨단 성능을 제공하도록 설계되었으며 유연성이 높고 사용하기 쉬운 병렬 프로세서이다.

그러나 더 중요한 것은 IPU는 새로운 머신 인텔리전스 워크로드를 실현할 수 있도록 설계된 것이다.

그래프코어는 자연어처리(NLP) 경계 확장에 중점을 두고 있으며, 기계 지능 개선에 우선순위를 두고 있다.

콜로서스(Colossus) IPU 칩(사진:그래프코어)

'C2'는 두 개의 상호 연결된 ‘콜로서스(Colossus) IPU’로 각각 16코어 팩과 236억개의 트랜지스터로 구성됐다. 단일 칩의 1,216 IPU는 코어당 최대 100GFLOPS(1GFLOP은 초당 약 10억 부동 소수점 연산에 해당)이상으로 300MB 메모리와 짝을 이룰 수 있으며 최대 1만개의 프로그램을 병렬로 실행할 수 있다.

또 그래프코어에 따르면 칩당 메모리 대역폭은 45TB/s로 C2에 90TB/s의 전체 카드 대역폭을 제공한다. 이론적인 최대치는 HBM2 그래픽 칩 메모리보다 100배 이상 높은 것이다.

C2는 AI 머신러닝을 위해 고안된 자사의 소프트웨어 스텍 ‘포플러(Poplar)’와 함께 작동하도록 설계됐다. 구글 텐서플로 프레임워크와 호환 가능한 AI 모델 생태계 ONNX(Open Neural Network Exchange)과 통합됐다. 페이스북 파이토치(PyTorch)와 호환도 2020년 초까지 완료한다는 계획이다.

출처:그래프코어

그래프코어는 IPU의 효율성을 입증하기 위해 IT 개발자와 마이크로소프트 개발자가 구글 버트(BERT)를 통해 최고 성능과 정확도를 달성했다. 이 모델은 일련의 데이터 세트를 사전 훈련해 문장 간의 관계를 학습하는 언어 모델이다. 한 대의 IPU 서버가 8개의 C2카드를 탑재, 56시간 동안 하나의 버트 베이스(BERT Base)를 훈련, 평균적으로 추론 처리량이 3배, 대기 시간이 20% 이상 향상됐다고 한다.

이미지 인식 측면에서, 그래프코어는 유럽 검색엔진 ‘콴트(Qwant’가 IPU에서 페이스북 모듈형 ‘ResNeXt-101’ 아키텍처를 실행하는 데 성공했으며, 콴트와 그래프코어는 이미지 검색에서 3.5배 더 높은 성능을 보였다.

출처:그래프코어
출처:그래프코어

또 확률론 학습 MCMC(Markov Chain Monte Carlo)기반 모델에서도 IPU는 기존 하드웨어로 2시간 이상 걸린 작업을 4분 30초 만에 최적화할 수 있었다. 훈련 시간은 26배 빨랐다.

그룹 콘볼루션(즉, 신호 및 영상 처리에서 교차 상관) 처리 속도는 최대 77배까지 향상했다.
그룹 콘볼루션(즉, 신호 및 영상 처리에서 교차 상관) 처리 속도는 최대 77배까지 향상했다.

이와 함께, 그래프코어는 훈련 모델별로 기존 시장 선도 프로세서와의 구체적인 벤치마크 비교 결과를 제시했다.

오토인코더(AutoEncoder) 모델은 예를 들어, 이전의 시청 경험에 기초한 온라인 TV 시청자들에게 영화를 추천하는 등 유용한 예측을 제공하기 위해 추천시스템에서 필터링을 수행하는 데 사용될 수 있다. 이 자동 인코더 모델은 공개된 넷플릭스(Netflix) 데이터 세트를 사용해 '협업적 필터링을 위한 심층 오토엔코더 훈련' 논문 기반 모델로 테스트한 결과 C2는 동급 전력으로 선도 프로세서에 비해 2배 이상 성능을 보였다.

시계열 분석: 판매 예측 모델 훈련(출처:그래프코어)
시계열 분석: 판매 예측 모델 훈련(출처:그래프코어)

이 벤치마크는 피처 임베딩 결합된 다중 계층 인식(MLP) 네트워크를 구성하는 시계열 분석에 사용되는 전형적인 모델을 보여준다. 이 모델은 원래 로스만(Rossmann) 경쟁 데이터세트의 특징 집합을 고려할 때 특정 날짜의 판매량을 예측한다. 비교 테스트의 결과, 동일 전력 및 기판 크기(1,024) 선도 프로세서 대비 15배 C2 IPU의 성능 우위를 보여준다.

강화학습(Reinforcement Learning)
강화학습(Reinforcement Learning)

강화학습(Reinforcement learning)은 인공지능 머신러닝의 한 유형이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상(Reward)을 최대화 하는 행동 혹은 행동 순서를 선택하는 방법이다.

이 학습 방식을 통해 컴퓨터는 사람의 개입없이 그리고 과제를 달성하기 위해 명시적으로 프로그래밍 하지 않고도 과제에 대한 보상 지표를 최대화하는 일련의 결정을 내릴 수 있다. 또 신경 과학적 관점에 중점을 두어 에이전트가 환경을 어떻게 최적화 할 수 있는지에 대한 설명을 제공하며, 대기 시간이 짧고 복잡한 상태에 대한 빠른 접근이 중요하다. IPU는 최적화 없이 처리량(10배)을 크게 개선해 훈련 시간이 훨씬 더 빨랐다.

한편, 세계 AI 업계에서 주목받고 있는 그래프코어는 최근 한국지사를 설립하고 주로 외국계 컴퓨팅업계에서 한국 사업을 총괄한 강민우 한국지사장을 선임하고 국내 AI 시장을 공략한다는 계획으로 AI가 필요한 컴퓨팅 시스템에 IPU 공급을 추진할 방침이다. 강 지사장은 빠른 시간 안에 엔터프라이즈 시장에 안정적으로 진입할 수 있도록 조직을 확대하고, 공격적으로 시장을 개척할 방침이라고 의욕을 내비쳤다. 엔비디아와의 경쟁이 주목된다.

아래는 영상은 "머신 인텔리전스는 모든 산업을 변화시킬 새로운 애플리케이션과 서비스의 폭발시킬 것"이라는 그래프코어 CEO 겸 공동 창립자 니겔 툰(Nigel Toon)이 2017년 실리콘 밸리에서 개최 된 삼성의 CEO 컨퍼런스에서 왜 IPU가 세계 표준이 되는지 설명한다.

저작권자 © 테크데일리(TechDaily) 무단전재 및 재배포 금지