엔비디아 텐서 RT-LLM으로 젬마 성능 가속…작업 속도 혁신
온디바이스 맞춤형 챗봇인 ‘챗위드RTX’에서도 젬마 지원 예정

엔비디아와 구글이 경량 AI모델에서 상호 협력한다.

양사는 이를 통해 모든 엔비디아 AI 플랫폼에서 구글의 AI 모델 ‘젬마’를 위한 최적화를 실시했으며, 이를 통해 비용을 절감하고 도메인별 용도에 따라 작업 속도를 혁신적으로 높였다고 23일 밝혔다.

젬마는 구글의 새로운 경량 언어모델로, 20억(2B) 파라미터와 70억(7B) 파라미터 2가지 버전이다. 젬마는 구글의 멀티모달 모델인 제미나이(Gemini) 개발에 사용된 동일한 연구와 기술을 기반으로 구축됐다.

 

엔비디아와 구글이 경량 AI '젬마' 최적화에 상호 협력한다. 출처=엔비디아
엔비디아와 구글이 경량 AI '젬마' 최적화에 상호 협력한다. 출처=엔비디아

 

엔비디아는 이번 젬마 최적화를 위해 엔비디아 텐서RT-LLM으로 젬마의 성능을 가속화했다. 텐서RT-LLM은 데이터센터, 클라우드 혹은 엔비디아 RTX GPU가 탑재된 PC에서 대규모 언어 모델(LLM) 추론을 최적화하는 오픈 소스 라이브러리이다. 개발자는 전 세계 고성능 AI PC에 탑재된 1억 개 이상의 엔비디아 RTX GPU를 활용할 수 있다.

개발자들은 우선, 클라우드 상의 엔비디아 GPU에서 젬마를 실행할 수 있다. 여기에는 H100 텐서 코어 GPU를 기반으로 하는 구글 클라우드 A3인스턴스가 포함되며, 초당 4.8테라바이트의 141GB HBM3e 메모리를 갖춘 엔비디아 H200 텐서 코어 GPU도 지원될 예정이다. 구글은 올해 안에 이를 배포할 예정이다.

엔비디아는 네모 프레임워크(NeMo Framework)가 적용된 엔비디아 AI 엔터프라이즈와 텐서RT-LLM을 비롯한 광범위한 도구를 갖추고 있다. 엔터프라이즈 개발자들은 이들을 추가로 활용해 젬마를 미세 조정하고 최적화된 모델을 프로덕션 애플리케이션에 배포할 수 있다.

또한 이번 협력에서 눈에 띄는 것 가운데 하나는 개인용 AI PC에서 젬마를 활용하도록 지원하겠다는 것이다.

엔비디아 챗 위드 RTX는 검색 증강 생성(RAG)과 텐서RT-LLM 소프트웨어를 사용해 일반 개인사용자 PC에서 온디바이스 AI를 제공하는 기술이다.

사용자는 챗 위드 RTX를 통해 PC의 로컬 파일을 LLM에 쉽게 연결하고 자신의 데이터로 챗봇을 개인화 할 수 있다. 챗 위드 RTX는 로컬에서 모델이 실행되므로 빠르게 결과를 얻을 수 있을 뿐만 아니라, 사용자 데이터가 로컬 PC에 남아 있기 때문에 사용자 정보 보안을 유지할 수 있다.

관련기사

저작권자 © 테크데일리(TechDaily) 무단전재 및 재배포 금지