NVIDIA가 믹구 태평양 시간 21일에 거행한 GTC 2010에서, NVIDIA의 창시자이자 CEO인 젠슨 황이 개막 연설이었습니다. 강연 주제는 여러 부분으로 나뉘었는데 앞으로 NVIDIA가 목표하는 발전 방향, GPU 어플리케이션과 시장의 기회, CUDA 병렬 연산 기술의 발전 상황에 대한 것이었습니다.

 

NVIDIA는 2007년부터 처음으로 CUDA 기술을 사용하는 GPU 마이크로 아키텍처 테슬라(Tesla)를 그래픽 영역과 평행 영산과 개인용 PC 어플리케이션 영역에 사용하기 시작했습니다. 지금은 CUDA 연산 프로그램 교육이 362개 대학교의 과목이 되었으며, 여러 3D 영상에서 NVIDIA GPU의 효과와 3D 영상 렌더링을 사용하고 있습니다.

 

22184553531792056130.jpg

 

젠슨 황은 GPU가 CPU를 대체할 수 없고, CPU와 공존 공영해야 한다고 하였습니다. 1978년에서 1986년 초까지, PC 연산 성능은 25%씩 성장해 왔지만, 1990년부터 2000년까지 매년 52%씩 연산 성능이 늘어났습니다. 그러나 200년부터 2006년 사이에는 연산 성능 발전이 정체되고 있는데, 이것은 전력 사용량, 메모리, 평행 영산의 병목 때문이며, NVIDIA GPU가 2007년부터 CUDA를 사용한 이후로, 성장율이 지속적으로 상승하고 있습니다.

 

22185334141281760199.jpg

 

22185437771545292284.jpg

 

CUDA로 고속 성장하는 PC 연산 성능

 

2010년은 CUDA에서 기념비적인 한 해입니다. 2009년에 CUDA SDK의 누적 다운로드는 29만3천번이지만 2010년에는 66만8천번이 되었으며, 테슬라 서버의 OEM 제조사는 2009년에 9곳에 불과했지만 지금은 19곳이 되었습니다. 또한 올해 GTC 2010에서 334개의 CUDA 어플리케이션 개발사가 등장했는데, 이것은 작년의 67곳보다 대폭 늘어난 것으로, GPU 어플리케이션이 현재 빠르게 보급되고 있으며 업계의 관심을 받음을 말해주는 것입니다.

 

젠슨 황은 CUDA 연산에서 이전에 없었던 혁신점을 발표했습니다. 계속하여 C 언어의 CUDA C 컴파일러를 지원함과 동시에, NVIDIA는 컴파일러 소프트웨어 개발사인 PGI와 같이 CUDA 포트란 컴파일러를 제공합니다. 이것은 x86 플랫홈에 맞춰진 CUDA 포트란 언어가 기존의 포트란을 개량하여 최적화한 것을 의미하며, 지금 포트란을 사용하는 프로그램들은 간단한 NVIDIA CUdA API를 사용하여 GPU 연산 가속이 가능해졌다는 것입니다.

 

동시에 Matalab의 CUDA용 가속 키트도 발표했습니다. 과학 연산에서 널리 쓰이는 연산 프로그램으로서 JAC 서버 테스트 프로그램에 따르면 192개의 쿼드코어 CPU 클러스터 서버에서는 하루 연산 성능이 46ns밖에 안됐지만, 8개의 페르미 아키텍처 GPU 서버에서는 매일 52ns를 처리할 수 있는 것으로 나왔습니다. 이 결과는 GPU를 사용하는 것이 더 높은 성능과 더 작은 공간, 그리고 전력 사용량을 더 줄여주는 것을 의미합니다.

 

22184754742054814105.jpg

 

8개의 페르미 GPU 연산 성능이 192개의 쿼드코어 CPU 클러스터보다 앞섭니다.

 

2218501111733907775.jpg

 

PGI의 CUDA 포트란 컴파일러

 

또한 3DMax에서 레이 트레이싱(Ray Tracing)을 사용하는 새로운 iRay 렌더링 클라우드 컴퓨팅을 선보였습니다. 사용자는 저가형 컴퓨터의 웹 브라우저에서 3D 영상의 광원 렌더링을 진행하며, 실제 연산은 클라우드 컴퓨팅으로 진행됩니다.

 

어도비는 사진의 초점을 수정하는 기술을 공개했습니다. NVIDIA CUDA를 사용하여 렌즈의 초점을 가상으로 연산해내 사진의 초점을 다시 구축합니다. 이런 처리에는 거대한 연산량이 필요하지만 NVIDIA CUDA를 사용하여 필요한 연산을 모두 수행합니다.

 

221859397960391755.jpg

 

2007년에 첫 CUDA 아키텍처인 테슬라가 나온 이후, 2009년에는 페르미가 등장했습니다. 2011년 하반기에는 케플러가 나오는데 연산 성능이 6x가 됩니다. 2013년에는 메모리 아키텍처를 개선하고 우수한 제조 공정을 사용하는  멕스웰이 등장, CUDA 연산 능력을 16x로 높이게 됩니다.

 

22183725451374277694.jpg