(사진출처=게티이미지뱅크) |
AI(인공지능) 시대를 구현시킨 메모리 반도체 HBM(고대역폭메모리)의 신화를 이어갈 다음 기술은 무엇일까.
최근 반도체 업계의 화두는 ‘넥스트(Next) HBM’이다. AI용 메모리로 자리매김한 HBM의 뒤를 이을 차세대 기술을 선점하려는 의도다.
HBM이 AI에 필수로 여겨지는 이유는 수많은 정보량을 빠르게 처리할 수 있기 때문이다. 자동차를 정보, 대역폭을 자동차가 지나가는 길로 예를 들자면 D램의 대역폭은 2차선 도로에 불과하다. 반면 HBM은 8차선 고속도로로 뻥뻥 뚫린 길을 자랑한다. 전달할 수 있는 정보의 양과 속도 차이가 HBM을 AI 연산에 필요한 제품으로 만든 것이다.
결국 연산을 도와 속도를 올려줄 수 있는 기술이야 말로 AI에 필요하다. 이에 반도체 업계에서는 연산 속도를 획기적으로 올리는 2가지 기술에 주목하고 있다.
삼성전자 CXL 메모리 익스펜더 솔루션.(사진=삼성전자) |
◇용량부터 속도까지…CXL, AI에 필요한 모든 것
반도체 업계에서 주목하는 기술 중 하나가 바로 CXL(컴퓨트 익스프레스 링크)이다. CXL은 시스템 공유 연결 기술로, 시스템 간의 간섭을 최대한 줄이면서 다양한 시스템 장치들을 연결하는 차세대 인터페이스 통신 규약이다. 서로 다른 기종의 제품을 효율적으로 연결하는 기술로 이해하면 편하다.
CXL이 업계 내외에서 주목을 받는 이유는 ‘공유’와 ‘확장’이라는 2가지 특징을 갖기 때문이다.
기존 D램과 프로세서는 딱 정해진 수만 연결이 가능했다. 프로세서와 메모리 간 캐시(Cache)를 일관되게 유지하기 어려운 탓이다. 캐시는 계산하는 모든 장치들을 조금 더 빨리 연결하기 위해 장치가 내부에 가지고 있는 메모리다. 일종의 단기 기억인 셈이다. CXL은 D램과 프로세서 간 연결의 캐시 일관성을 맞추며, 물리적 한계를 극복해 D램 용량을 획기적으로 확장시켜 준다.
CXL은 반도체 내 데이터를 복사 작업 없이 공유한다는 특징도 가졌다. 캐시 일관성을 유지할 수 있는 이유다. 본래 컴퓨터는 데이터를 읽어올 때 복사로 불러온다. CXL은 중간작업인 복사 단계를 없애며 속도를 획기적으로 올려준 것이다.
이러한 지점은 엔비디아에서 채택한 고속 인터커넥트 기술 NV링크와의 차별점이기도 하다. NV링크는 데이터를 복사해 이동시키지만 그 양을 획기적으로 늘린 게 특징이다. 예를 들어 NV링크가 한번에 많은 소포(데이터)를 배달할 수 있는 택배 차량이라면, CXL은 적은 양의 소포를 빠르게 배달해주는 총알 배송 격이다.
반도체 업계 관계자는 “택배를 서울 집하장에서 대전 집하장으로 옮겨주는 걸 NV링크라고 한다면, CXL은 집하장에서 집 앞까지 옮겨주는 것”이라고 설명했다.
CXL은 PCIe(Peripheral Component Interconnect Express)를 기반으로 한다. PCIe는 전자 부품 간의 데이터 전송에 사용되는 연결 유형이다. 현재 CPU 대부분이 PCIe를 지원한다. 즉 CPU에 CXL 모듈을 추가하면 기존 시스템을 변형하지 않은 채 컴퓨터 성능을 향상시킬 수 있다.
CXL은 규약이 정해져 있다. 현재 시장에 출시된 CXL 1.1은 하나의 노드(네트워크에 연결하는 호스트 기기) 안에서만 확장하는 것을 의미한다. 2.0부터는 다수의 프로세서와 연결이 가능한 메모리 풀링을 지원한다. 다만 2.0은 다수의 프로세서가 각각 자신만 확인할 수 있는 메모리를 확장한 것에 그친다. 정보를 다른 프로세서와 공유하지 않는 것이다. 3.0은 이런 2.0의 성능에서 확장해 여러 장치 간 데이터 공유 기능이 더해진다.
정명수 파네시아 대표는 “진정한 의미의 데이터 연결은 3.0부터 가능하다”고 말했다.
인텔 제온.(사진=인텔) |
국내외 반도체 업체들은 CXL 상용화를 위한 제품 개발에 한창이다. 특히 CXL 규약을 이끌고 있는 인텔의 경우 CXL 2.0을 지원하는 첫 서버용 CPU ‘인텔 E코어 제온6(코드명 시에라포레스트)’를 올해 하반기 선보인다.
국내 메모리 기업들은 시에라포레스트의 등장 시기에 맞춰 CXL 2.0 지원 D램을 양산하는 게 목표다. 일반적으로 서버용 CPU는 교체와 함께 탑재되는 D램도 함께 바뀐다. 게다가 CXL은 프로세서당 연결 가능한 메모리 대수가 기존 D램 대비 획기적으로 늘어난다. 이론적으로는 D램 용량을 무한대로 늘릴 수 있다. 국내 메모리 업체들이 CXL 2.0 D램을 개발하는 이유다.
국내 메모리 업체 중 CXL 가장 적극적인 기업은 삼성전자로 알려졌다. 삼성전자는 국내 유일한 CXL 컨소시엄 이사회 멤버다. 2022년 5월에는 업계 최초로 CXL 타입3 메모리 익스펜더 프로토타입을 출시했으며, 지난해에는 PCIe 5.0 및 CXL 2.0을 지원하는 128GB D램을 개발했다.
지난해 말에는 △삼성 CMM(CXL Memory Module) D램 △삼성 CMM-DC(D램 Compute) △삼성 CMM-H(Hybrid) △삼성 CMM-HC(Hybrid Compute) 등 총 4종의 상표를 출원한 바 있다.
SK하이닉스가 개발한 CXL D램 메모리.(사진=SK하이닉스) |
SK하이닉스는 2022년 CXL 2.0을 지원하는 96GB D램 샘플을 선보인 바 있으며, 같은해 10월에는 CXL 기반 연산 기능을 통합한 메모리 솔루션 CMS를 개발했다. 지난 5월에는 CXL 컨소시엄에서 주최한 ‘CXL DEVCON 2024’에 참가해 CMM-DDR5를 선보였다. 이 제품은 DDR5만 장착한 기존 시스템보다 대역폭을 최대 50% 향상시키고, 용량은 최대 100% 확장시키는 효과를 보였다고 회사는 설명했다.
송명섭 하이투자증권 연구원은 “CXL의 도입이 메모리 확장 제한 문제 등을 해결해 AI 발전을 가속화 시키면 D램 수요는 더 커질 것”이라고 밝혔다.
삼성전자 HBM-PIM.(사진=삼성전자) |
◇저장장치가 계산까지 하는 칩 ‘PIM’
HBM이 대역폭 확대, CXL이 메모리와 프로세서의 연결을 통해 AI 연산을 돕는다면 PIM(Processing In Meomory)은 메모리 반도체 내부에 연산 기능을 더해 AI를 구현한다.
AI 구현에 PIM이 적합한 것은 AI 연산 성능을 기존 폰 노이만 구조(Von Neumann architecture)로 따라가기에 한계가 있는 탓이다. 폰 노이만 구조는 ‘존 폰 노이만’이 제시한 컴퓨터 구조로 CPU, 메모리, 프로그램 세 가지 구성요소로 이루어져 있다. 폰 노이만 구조에서는 메모리가 데이터의 저장을 담당하고, 프로세서가 메모리에서 데이터를 불러와 연산을 진행한다. 메모리는 데이터 저장소로만 기능하는 셈이다.
PIM은 폰 노이만 구조에서 벗어나 메모리에 연산 기능을 탑재했다. 이를 통해 AI 구현에 장애물인 메모리 병목현상을 해결할 수 있다. 데이터 병목 현상은 CPU, 메모리 등 컴퓨터 구성 요소 중 하나가 다른 자원들에 비해 처리 속도가 느려서 전체적인 성능을 제한하는 걸 말한다. 병목현상이 발생하면 프로세서가 연산을 지속하더라도 메모리의 입/출력 속도에 제한이 걸려 AI에도 제약이 걸린다. 즉 데이터가 이동하며 생기는 지연 현상에서 이동이라는 작업을 제외시키며 지연 현상을 해결한 것이다.
또 PIM은 전력 소모량도 줄여준다. 자동차의 연비가 주행 거리를 통해 결정되는 것처럼, PIM을 활용하면 데이터 간 이동 거리를 확 줄일 수 있어 전력량도 줄어든다.
PIM은 AI 연산 중에서도 추론 영역에 특화된 제품이다. AI는 새로운 정보를 배우는 ‘학습’과 학습된 데이터를 토대로 새로운 데이터를 생성하는 ‘추론’으로 나뉜다. 학습은 시간당 얼마나 많은 데이터를 처리하는지가 중요하고, 추론은 데이터를 지연시간(Latency) 없이 얼마나 빠르게 처리하는지가 사용자의 요구 사항을 충족하기 위한 핵심 요소이기 때문에, 메모리가 연산한 값을 신속히 전달할 수 있는 PIM은 추론에 더 효과적이다.
다만 PIM은 AI용 기술 중 상용화까지 가장 오랜 시간이 걸릴 것으로 점쳐진다. 연산에 최적화되지 않은 메모리 내에서 연산 기능을 구현해야 하므로 성능 면에서 떨어질 것으로 관측되기 때문이다. 게다가 메모리에 연산 기능을 탑재하는 것은 원가상승으로도 직결된다. AI용 메모리로 시장에 자리매김한 HBM과 2.0 지원 CPU가 공개되며 시장이 개화한 CXL에 비해 상용화 가능성이 늦어질 것으로 평가되는 이유다.
그렇지만 국내 메모리 업계에서는 PIM에 대한 관심의 끈을 놓지 않고 있다.
삼성전자는 지난 2021년 HBM에 PIM 적용을 성공했다. 삼성전자의 HBM-PIM은 AMD GPU인 MI-100 가속기 카드에 부착하기도 했다. 이를 통해 대규모 AI 및 HPC 응용 프로그램에서 성능을 두 배 향상하고 에너지 소모를 50% 줄일 수 있었다는 게 삼성전자의 설명이다. 이 칩은 실제 상용화보다 POC(Proof of Concept) 테스트용 칩 성격이 강했다.
SK하이닉스는 지난 2022년 PIM이 적용된 첫 제품 ‘GDDR6-AiM(Accelerator in Memory)’ 샘플 개발에 성공했다. 이 제품은 CPU, GPU 등과 같이 사용하는 제품이다. 함께 탑재하면 특정 연산의 속도를 최대 16배까지 올려준다. 회사는 이 메모리를 기반으로 한 AiMX 시제품을 공개하기도 했다. AiMX는 GDDR6-AiM 여러 개를 연결해 성능을 높인 가속기 카드로, GPU 대신 AI 연산에 활용할 수 있다. LLM 추론 기반 서비스에 특화된 이 제품은 GPU 대비 빠른 응답 속도와 더 적은 전력으로 데이터를 처리한다.
전화평 기자 peace201@viva100.com