시사교육배움/과학은

엔비디아, 알파벳 게 섰거라!... 세레브라스시스템즈, 세계 최초 인간 뇌 규모의 인공지능 거대 칩 발표

천사요정 2022. 5. 26. 20:57

192개의 칩을 통해 미니 냉장고 크기의 단일 CS-2에서 120조 매개변수와 거의 선형에 가까운 확장성을 갖춘 최대 1억 6300만 코어의 클러스터로 한 번에 더 많은 데이터를 저장할 수 있으며, 모델에서 소비되는 전력을 크게 줄일 수

세계 최초 인간 뇌 규모의 인공지능 거대 칩(사진:세레브라스)

인간의 뇌에는 약 100조 개의 시냅스가 있다. 가장 큰 인공지능(AI) 하드웨어 클러스터는 인간 두뇌 규모의 1% 정도, 즉 매개변수라고 하는 약 1조 개의 시냅스에 해당한다.

세계에서 가장 큰 컴퓨터 칩을 만드는 실리콘 밸리의 AI 반도체 스타트업 세레브라스 시스템즈(Cerebras Systems)가 24일(현지시간) 세계 최초 인간 뇌 규모의 인공지능 거대 칩을 발표했다.

세레브라스 시스템즈는 AI용으로 특별히 설계된 칩을 제조하고 현재, 시장 리더인 엔비디아 및 알파벳(Alphabet)에 도전하는 것을 목표로 하는 수많은 신생 기업 중 하나로 현재, 약 4억 7500만달러(약 5548억원)의 벤처 캐피털을 조성했으며, 글로벌 제약사 글락소스미스클라인(GSK Glaxo Smith Kline) 및 아스트라제네카(AstraZeneca Plc)가 AI 약물 발견을 가속화하기 세레브라스의 AI 칩을 적용하고 있다.

전통적으로 수백 또는 수천 개의 컴퓨터 칩은 웨이퍼라고 하는 12인치(30cm) 실리콘 디스크에서 제조되며 나중에 개별 칩으로 슬라이싱 된다. 반면, 이 거대 AI 칩은 전체 웨이퍼를 사용하며, 192개의 칩을 통해 미니 냉장고 크기의 단일 CS-2에서 120조 매개변수와 거의 선형에 가까운 확장성을 갖춘 최대 1억 6300만 코어의 클러스터로 한 번에 더 많은 데이터를 저장할 수 있으며, 모델에서 소비되는 전력을 크게 줄일 수 있다.

칩 크기 비교

또한 이 칩에는 새로운 소프트웨어 실행 아키텍처인 Cerebras Weight Streaming, ▷메모리 확장 기술인 Cerebras MemoryX, ▷고성능 상호 연결 직물 기술인 Cerebras SwarmX, ▷동적 희소성 수집(Sparsity Harvesting) 기술인 Selectable Sparsity의 네 가지 혁신 기술이 포함되어 있다.

먼저, ▷'Cerebra Weight Streaming' 기술은 모델 매개변수를 칩에 저장하면서 동일한 교육 및 추론 성능을 제공할 수 있다. 이 새로운 실행 모델은 컴퓨팅 및 매개변수 스토리지를 세분화하여 연구자들이 유연하게 크기를 확장하고 속도를 높일 수 있도록 지원하며, 소규모 프로세서의 대규모 클러스터에 대한 대기 시간 및 메모리 대역폭 문제를 해결했다.

이를 통해 워크로드 분산 모델을 획기적으로 간소화하고 소프트웨어 변경 없이 1에서 최대 192개의 CS-2로 확장할 수 있다.

CS-2 개요

▷'세브라스 메모리X'는 메모리 확장 기술기술로 메모리X는 최대 2.4페타바이트(PB)의 고성능 메모리를 제공하는 2세대 세레브라스 웨이퍼스케일 엔진(WSE-2)을 제공한다. 이 메모리는 모두 온칩처럼 작동하며, 메모리X를 통해 CS-2는 최대 120조 개의 매개변수가 있는 모델을 지원한다.

▷‘세레브라스 스웜X’는고성능, AI에 최적화된 통신 패브릭으로, 세레브라 스웜 온칩 패브릭을 오프칩으로 확장한다. 최대 192개의 CS-2에 걸쳐 최대 1억 6,300만개의 AI 최적화 코어를 연결하여 단일 신경망을 훈련할 수 있도록 설계되었다.

▷‘선택 가능한 희소성(Selectable Sparsity)’을 통해 사용자는 모델의 가중치 희소성(Weight Sparsity) 레벨을 선택할 수 있으며 FLOP 및 솔루션 출시 시간을 직접 줄일 수 있으며, CS-2는 작업을 가속화하고 비정형 및 동적 가중치 희소성을 포함하여 사용 가능한 모든 유형의 희소성을 통해 더 짧은 시간 내에 답을 도출할 수 있다.

세레브라스의 CEO이자 공동 설립자인 앤드류 펠드먼(Andrew Feldman)은 “GPT-3과 같은 대규모 언어 AI 모델은 자연어처리(NLP) 환경을 변화시켜 이전에는 상상할 수 없었던 것을 가능하게 했습니다"라며, "업계는 1조 개의 매개변수를 넘어서고 있으며 우리는 그 경계를 1000조 개의 매개변수로 사람의 뇌 규모의 신경망을 가능하게 하여 100배 확장한 것입니다"라고 말했다.

이어 "우리는 뇌 크기의 모델을 통해 인공지능 연구와 통찰력의 광대한 새로운 길을 열 수 있을 것입니다”라고 덧붙였다.

 최창현 기자 aitimes@naver.com

http://www.aitimes.kr/news/articleView.html?idxno=22268 

 

엔비디아, 알파벳 게 섰거라!... 세레브라스시스템즈, 세계 최초 인간 뇌 규모의 인공지능 거대

인간의 뇌에는 약 100조 개의 시냅스가 있다. 가장 큰 인공지능(AI) 하드웨어 클러스터는 인간 두뇌 규모의 1% 정도, 즉 매개변수라고 하는 약 1조 개의 시냅스에 해당한다.세계에서 가장 큰 컴퓨터

www.aitimes.kr

[찬이의 IT교실] AI 칩이 뭐길래… ③ AI 칩 설계도 진화한다

칩 설계 과정에 AI를 적용해 성능 및 효율 개선
AI 알고리즘 처리에 특화된 AI 프로세서 설계
메모리와 프로세서를 같은 칩에 하나로 패키징
메모리와 프로세서를 수직으로 쌓아 적층 패키징
120조 매개변수의 웨이퍼 크기 거대 AI 칩 설계
인간 뇌처럼 연산·저장 동시에 하는 뉴로모픽 설계

[편집자 주] 하루가 멀다하고 새로운 기술들이 쏟아져 나옵니다. AI는 모든 산업 분야에 영향을 미칠 핵심 기술이 되었습니다. [찬이의 IT교실]은 AI를 비롯해 어렵고 생소한 IT 기술과 산업을 알기 쉽고 재미있게 풀어 드리겠습니다. 

AI를 이용한 AI 칩 설계: ‘평면배치(floorplanning)’ 과정 예.(사진=MarkinaRocks)

최근 구글이 수개월이 걸리던 칩 설계를 인공지능(AI)를 이용해 단 6시간 만에 끝냈다고 발표해 주목받았죠. 구글은 자사의 AI 칩인 TPU(Tensorflow Processing Unit) 설계의 일부를 AI가 수행했다고 밝혔는데요. 칩 설계에서 특히 시간과 인력이 많이 필요한 ‘평면배치(floorplanning)’ 과정에 AI를 적용했다고 합니다. 

AI를 이용한 구글 반도체 설계: 왼쪽에 보이는 a는 인간이 만든 반도체의 설계도 이고, b는 구글의 반도체 TPU가 만든 반도체 설계도 입니다. 인간이 만든것은 정렬되어 있으며 깔끔하다고 한다면, AI의 것은 매우 산만해 보입니다. 하지만 AI가 만든 b 반도체가 내는 효율은 전력소모, 퍼포먼스 모든 부분에서 a보다 우위를 차지했습니다.(사진=구글) 

평면배치는 건물의 내부 공간을 용도에 맞게 배치하듯이 손톱만 한 크기의 칩 안에 논리 회로(게이트) 수천만 개와 기억 소자(메모리 블록) 수천 개를 효율적으로 배치하는 과정인데요. 이 소자들을 연결하는 배선 길이도 다 합치면 수㎞나 된다고 하죠. 소자 간격이 짧으면 그만큼 배선이 짧고 신호도 빨리 전달되지만 소자들이 너무 밀집하면 전력 소모가 많아지는 문제가 생길 수 있어요.

그래서 반도체 칩을 설계할 때는 칩의 용도에 따라 소자 배치를 최적화하는 것이 중요한데요. 예를 들어 스마트폰용 칩은 배터리 수명을 늘리기 위해 전력 소모를 가능한 한 최소화해야 하고, 데이터센터용 칩은 성능을 높이기 위해 속도를 최대화하는 것이 관건이예요. 

앞서 살펴보았듯이, 특히 AI 칩은 고속 병렬연산 등 AI 데이터 처리에 최적화된 반도체이기 때문에 기존 반도체나 컴퓨팅 기술로 데이터 처리와 연산의 성능을 달성하기에는 여러모로 무리가 따릅니다. 먼저 칩에 수 많은 소자를 집적하게 될 경우 발생하는 높은 열이나 소자 간의 간섭 등의  물리적인 문제를 극복하기 어렵습니다. 

또한 주기억장치, 중앙처리장치, 입출력장치로 이어지는 직렬처리 구조는 AI 처리에 적합한 고속의 병렬연산을 수행할 때 데이터 병목 문제를 일으킵니다. 병렬처리는 프로세서와 저장장치 간 또는 저장장치들 간의 데이터 이동이 필수적인데 이러한 이동이 많아질수록 CPU 처리속도가 아닌 데이터 이동속도가 컴퓨팅 성능과 에너지 소비에 영향을 미치게 됩니다. 

이러한 문제를 해결하려면 컴퓨팅 소재, 구조, 계산모델 등에 있어서 혁신적인 방식의 반도체 설계 기술이 필요한데요. 잘 알려진 방법은 AI 알고리즘 처리에 특화된 연산패턴을 지원하는 AI 전용 프로세서를 개발하는 것입니다. AI 전용 프로세서는 프로세서와 메모리를 병렬화된 회로로 구현해 성능과 전력 효율을 높이고 지연 시간을 줄이게 됩니다. AI 알고리즘을 효율적으로 실행하기 위한 독자적인 구조나 특화된 병렬연산 회로를 제공하는 전형적인 AI 칩 설계 방법인데요. 엔비디아의 GPU(Graphic Processing Unit)나 구글의 TPU(Tensor Processing Unit)를 비롯해 대부분의 AI 칩에서 채택하는 설계 방식입니다.

구글 AI 칩 TPU(Tensor Processing Unit) 구조.(사진=구글) 

또 다른 방법으로는 프로세서와 메모리 사이의 데이터 이동성을 효율적으로 설계하는 PIM(Processing in Memory)이 있습니다. 메모리와 프로세서를 같은 칩에 하나로 패키징(packaging)해 CPU와 메모리 간 대역폭 차이로 발생하는 병목 문제와 데이터 이동에 따른 에너지 소모를 줄일 수 있습니다. 삼성전자, SK 하이닉스, 마이크론  등이  PIM 기술에 집중하고 있어요.

PIM(Processing in Memory) 구조 및 패키징.(사진=SK하이닉스) 

또한 병렬 프로세서들과 다수의 메모리 노드들을 서로 연결해 각 프로세서가 각자의 데이터를 병렬적으로 처리하게 해 성능을 높이는 3D 패키징 방식도 각광 받고 있습니다. 프로세서 칩과 메모리 칩을 수직으로 쌓아 올려(적층) 패키징해서 효율적인 데이터 이동성 뿐만 아니라 높은 전력 효율로 집적도(1개의 반도체 칩에 들어가는 소자 수)를 극대화 시킬수 있는 설계 방식입니다. 이미 AMD, 그래프코어(Graphcore), 인텔 등이 자사의 AI 칩에 적용하고 있다고 합니다.

AMD의 AI칩 Zen3: TSV(Through Silicon Vias) 본딩 기술을 이용한 프로세서-메모리 간 3D 적층 패키징.(사진=AMD)
인텔의 AI칩 폰테 베키오(Ponte Vecchio): Co-EMIB 연결기술을 이용한 47개의 실리콘 조각을 3D 적층으로 패키징.(사진=인텔)

그런가 하면 키보드에 가까운 크기의 거대한 AI 칩도 있는데요. 전통적으로 수백 또는 수천 개의 컴퓨터 칩은 웨이퍼라고 하는 12인치(30cm) 실리콘 디스크에서 제조되며 나중에 개별 칩으로 쪼개서(slicing) 패키징 됩니다. 반면 AI 반도체 스타트업인 세레브라스(Cerebras)는 하나의 웨이퍼를 구성하는 칩을 쪼개지 않고 전체 웨이퍼를 사용해 인간 뇌의 뉴런 수보다 많은 120조 개의 매개변수를 가진 신경망 모델을 처리하는, 세계에서 가장 큰 AI 칩 WSE-2(Wafer Scale Engine-2)를 출시했는데요. 2조6000억개의 트랜지스터가 집적된 85만개의 코어를 가졌다고 합니다. 수백 개의 코어로 구성된 GPU와 비교했을 때 그야말로 ‘AI 맞춤형’ 칩이라고 할 수 있겠네요.

GPU와 WSE-2를 비교한 이미지.(사진=세레브라스)

마지막으로 뇌 신경 구조를 모방해 사람의 사고 과정과 비슷한 방식으로 정보를 처리하도록 고안한 뉴로모픽(Neuromorphic) AI 칩이 있는데요. 인간의 신경망 구조와 같이 모든 칩을 병렬로 연결해 연산과 저장을 한 번에 할 수 있도록 하는 것이 뉴로모픽 기술의 핵심입니다.

연산과 저장이 가능한 인-메모리 컴퓨팅(PIM)과 동일한 개념이지만 뇌 신경망 구조를 활용했다는 점에서 인-메모리 컴퓨팅과 비교해 진화한 기술이라 할 수 있어요. 뉴로모픽 칩 내의 소자는 인간 뇌의 뉴런(연산), 메모리는 시냅스(기억) 역할을 담당합니다. 

IBM의 뉴로모픽 AI 칩 ‘트루노스(TrueNorth)’ 구조.(사진=IBM)

뉴로모픽 칩은 연산을 담당하는 중앙처리장치(CPU)와 정보를 저장하는 메모리가 별도로 존재하는 기존 컴퓨팅과 달리 사람의 뇌처럼 연산과 저장을 동시에 할 수 있어 전력 소모와 연산 속도가 빠르다는 장점이 있습니다. 기존 반도체와 비교해 높은 집적도도 또한 큰 장점입니다. 

인텔의 뉴로모픽 AI 칩 ‘로이히(Loihi)’: 단일칩(좌) 여러 칩의 배열(우).(사진=인텔)

IBM이 뉴로모픽 AI 칩 트루노스(TrueNorth)를 선보였지만 뉴로모픽 칩의 장점인 저전력과 정확도를 구현하지 못했다는 평가를 받기도 했죠. 인텔은 뉴로모픽 AI 칩 로이히(Loihi)를 출시했는데, 검색 및 연산 처리 능력이 기존 CPU보다 1000배, 전송 속도는 100배 이상 빠릅니다. 인텔은 로이히 칩 760여개를 이어붙인 뉴로모픽 연구 시스템 포호이키 스프링스(Pohoiki Springs)를 공개하기도 했는데요. 포호이키 스프링스는 동물이 냄새를 맡을 때 뇌에서 일어나는 전기 신호를 복사해 뉴로모픽 칩에 적용한 것으로, 생쥐에 맞먹는 후각 능력을 갖고 있다고 합니다. 국내에서도 삼성전자와 SK하이닉스가 뉴로모픽 AI 칩 개발에 속도를 내고 있습니다. 

http://www.aitimes.com/news/articleView.html?idxno=144587 

 

[찬이의 IT교실] AI 칩이 뭐길래… ③ AI 칩 설계도 진화한다 - AI타임스

[편집자 주] 하루가 멀다하고 새로운 기술들이 쏟아져 나옵니다. AI는 모든 산업 분야에 영향을 미칠 핵심 기술이 되었습니다. [찬이의 IT교실]은 AI를 비롯해 어렵고 생소한 IT 기술과 산업을 알기

www.aitimes.com

AI타임스 박찬 위원 cpark@aitimes.com

[관련기사][찬이의 IT교실] AI칩이 뭐길래… ② AI칩도 여러가지다

 

[찬이의 IT교실] AI칩이 뭐길래… ② AI칩도 여러가지다 - AI타임스

[편집자 주] 하루가 멀다하고 새로운 기술들이 쏟아져 나옵니다. AI는 모든 산업 분야에 영향을 미칠 핵심 기술이 되었습니다. [찬이의 IT교실]은 AI를 비롯해 어렵고 생소한 IT 기술과 산업을 알기

www.aitimes.com

[관련기사][찬이의 IT교실] AI 칩이 뭐길래… ① AI 칩 없이 AI도 없다

 

[찬이의 IT교실] AI 칩이 뭐길래… ① AI 칩 없이 AI도 없다 - AI타임스

[편집자 주] 하루가 멀다하고 새로운 기술들이 쏟아져 나옵니다. AI는 모든 산업 분야에 영향을 미칠 핵심 기술이 되었습니다. [찬이의 IT교실]은 AI를 비롯해 어렵고 생소한 IT 기술과 산업을 알기

www.aitimes.com

애브비 연구용 AI 컴퓨터 시스템 도입

생물의학 NLP 모델 훈련에 CS-2 적용, 가속화

[의학신문·일간보사=김자연 기자] 애브비가 세레브라스 시스템의 AI 컴퓨터 CS-2를 도입한다.

이 시스템은 AI 모델 훈련 등 딥러닝 작업 가속화를 위한 컴퓨터로 세계 최대의 프로세서를 탑재했으며 애브비가 생물의학 자연언어 처리 모델(NLP)에 이용하기로 결정했다.

애브비는 세계적으로 방대한 최신 연구 결과를 따라잡기 위해 애벨피쉬라는 기계학습 번역 서비스로 거대하고 복잡한 AI 언어 모델을 도입하고 있다.

이는 최신 번역 모델로 생물의학 문헌을 180개 언어로 번역해 검색이 가능한 라이브러리로 만들어 준다.

그러나 정확하게 최신으로 유지하기 위해서는 새로운 데이터세트로 계속 재훈련이 필요한데 기존의 그래픽 처리 장치(GPU) 프로그래밍으로는 시간이 오래 걸리고 어려웠다.

세레브라스에 따르면 애브비는 CS-2로 기존의 GPU 1/3 전력으로 128배의 성능을 달성할 수 있는 것으로 나타났다.

이에 대해 애브비의 AI 수장은 그동안 번역 모델 프로그래밍 및 훈련에 충분한 GPU 클러스터 자원을 제공하기 어려웠는데, CS-2는 방대한 AI 훈련을 보다 빠르고 쉽게 시킬 수 있을 것이라고 기대했다.

이미 GSK 역시 신약발굴을 위한 후성유전체 언어 모델(EBERT)에 대해 CS-2를 통해 단 2.5일 만에 훈련시키고 있다. 이에 비해 기존 16 노드 GPU 클러스터는 24일이 든다.

아울러 아스트라제네카도 신속한 대규모 의학 문헌 검색을 위한 여러 대규모 NLP 모델 훈련에 기존의 GPU 클러스터로는 2주나 걸렸지만 CS-2로 이틀 만에 가능해졌다.

 김자연 기자 nature@bosa.co.kr

 http://www.bosa.co.kr/news/articleView.html?idxno=2173251