엔비디아, 추론 성능 가속화하는 새로운 소프트웨어 텐서RT-LLM 출시

2023.09.12 10:45

[OSENbiz=강희수 기자] AI 컴퓨팅 기술 분야의 선두주자인 엔비디아가 새로운 소프트웨어 엔비디아 텐서RT-LLM(NVIDIA TensorRT-LLM)을 출시했다고 12일 밝혔다.

텐서RT-LLM은 텐서RT 딥 러닝 컴파일러로 구성되며 최적화된 커널, 전처리와 후처리 단계, 멀티 GPU/멀티 노드 통신 프리미티브를 포함해 엔비디아 GPU에서 획기적인 성능을 제공한다. 이를 통해 개발자는 C++ 또는 엔비디아 쿠다(CUDA)에 대한 전문적인 배경 지식 없이도 최고의 성능과 빠른 사용자 정의 기능을 제공하는 새로운 대규모 언어 모델을 테스트할 수 있다.

텐서RT-LLM은 대규모 언어 모델이 발전함에 따라 오픈 소스 모듈식 파이썬 API(Python API)를 통해 사용 편의성과 확장성을 개선하고, 쉽게 사용자 맞춤화할 수 있다. 파이썬 API는 새로운 아키텍처와 개선 사항을 정의, 최적화, 실행할 수 있다.

예를 들어, 모자이크ML은 텐서RT-LLM 위에 필요한 특정 기능을 원활하게 추가하고 추론 서비스에 통합했다.

데이터브릭스의 엔지니어링 담당 부사장인 나빈 라오(Naveen Rao)는 "텐서RT-LLM은 사용이 간편하고, 토큰 스트리밍, 인플라이트 배칭(In-flight Batching), 페이지드 어텐션(Paged-attention), 정량화 등 다양한 기능을 갖추고 있으며 효율적이다. 이 솔루션은 엔비디아 GPU를 사용해 대규모 언어 모델 서비스를 위한 최첨단 성능을 제공하고, 고객에게 비용 절감 효과를 전달한다"고 말했다.

대규모 언어 모델 에코시스템은 새롭고 다양한 모델 아키텍처를 개발하며 빠르게 혁신하고 있다. 대규모 모델은 새로운 기능과 이용 사례를 제시한다. 700억 개의 파라미터로 구성된 메타의 라마2와 같이 가장 크고 진보된 언어 모델은 실시간으로 응답을 제공하기 위해 여러 개의 GPU가 함께 작동된다. 기존에는 대규모 언어 모델 추론에서 최고의 성능을 얻기 위해 개발자가 AI 모델을 다시 작성하고 수동으로 조각으로 분할해 여러 GPU에서 실행을 조정해야 했다.

하지만 텐서RT-LLM은 개별 가중치 행렬을 여러 디바이스에서 분할하는 모델 병렬 처리의 일종인 텐서 병렬 처리(Tensor Parallelism)를 사용한다. 이를 통해 개발자의 개입이나 모델 변경 없이도 각 모델이 NV링크(NVLink)를 통해 연결된 여러 GPU와 서버에서 병렬로 실행돼 대규모 추론을 효율적으로 수행할 수 있게 됐다.

엔비디아 텐서RT-LLM은 현재 얼리 액세스 버전으로 제공된다. 아울러 보안, 안정성, 관리 용이성, 지원 등을 갖춘 엔터프라이즈급 AI 소프트웨어 플랫폼인 엔비디아 AI 엔터프라이즈(AI Enterprise)의 일부인 엔비디아 네모 프레임워크에 통합될 예정이다. 개발자와 연구자는 NGC의 네모 프레임워크 또는 깃허브(GitHub)의 소스 레포지토리를 통해 텐서RT-LLM에 액세스할 수 있다. /100c@osen.co.kr

OSENBiz 주요뉴스

눈매교정으로 와이드, ccNC로 스마트...기아 ‘더 뉴 EV6’ 계약 개시

IT 헤드라인

하만 오토모티브, 스쿠데리아 페라리와 파트너십 연장

하이브IM 모바일 리듬게임 ‘리듬하이브’에 보이넥스트도어 업데이트

SK텔레콤, 두터운 팬덤 갖춘 김재희 프로와 후원계약

개인형 AI비서 시장(PAA) 정조준 하는 SKT [MWC24]

서울시 마포구 합정동 377-14번지(양화진 4길 33-5) 평강빌딩 4층