"보고 있나 삼전닉스?" — AI 반도체 판 뒤흔들 빅테크의 승부수

728x90

최근 코스피가 심상치 않게 오르면서 외국인들의 시선이 한국 반도체 시장으로 쏠리고 있다. "저평가됐다", "지금이 기회다"라는 기사들이 쏟아지는 와중에, 유독 눈길을 끄는 제목이 있었다.

"보고 있나 삼전닉스?"…AI 반도체 판 뒤흔들 빅테크 '승부수' 😄

https://www.hankyung.com/amp/2026051472001

"보고 있나 삼전닉스?"…AI 반도체 판 뒤흔들 빅테크 '승부수'

"보고 있나 삼전닉스?"…AI 반도체 판 뒤흔들 빅테크 '승부수', 메모리 덜 쓰는 기술 내놓는 빅테크 구글·엔비디아·딥시크 "칩 확보 매달리지 않겠다" 치솟는 메모리 가격에 대응 메모리 효율화

www.hankyung.com

어떻게 클릭하지 않을 수 있겠는가.

요약하자면 이렇다. 치솟는 메모리 가격에 대응해, 빅테크들이 메모리를 더 사는 전략 대신 메모리를 덜 쓰는 기술에 올인하고 있다는 것. 웨카의 CEO도 포브스에 이렇게 썼다고 한다. "메모리 반도체를 모으는 전략은 더 이상 유효하지 않다."

어떻게? 무엇을? 이게 가능한가?? 궁금해서 내용을 조금 더 정리해봤다.

CPU, GPU — 뭐가 다를까?

CPU(중앙처리장치) 는 컴퓨터의 두뇌다. 복잡한 논리 판단, 프로그램 흐름 제어, 순서가 중요한 작업을 처리한다. 코어 수가 적은 대신 각 코어가 아주 똑똑하다. 요리로 치면 주방장 한 명이 복잡한 레시피를 순서대로 완벽하게 실행하는 것.

GPU(그래픽처리장치) 는 원래 게임 그래픽 렌더링용으로 만들어졌는데, AI 시대에 핵심 엔진이 됐다. 수천 개의 코어로 단순한 계산을 동시에 엄청나게 많이 처리한다. 주방장 한 명 대신 아르바이트 수천 명이 동시에 달걀 하나씩 까는 것. AI 모델 학습·추론에는 이런 병렬 처리가 필수다.

# CPU가 잘하는 것 → 복잡한 순서가 있는 일
CPU 코어 1개
┌─────────────────────┐
│  🧠 복잡한 두뇌      │
│  - 캐시 메모리 많음  │
│  - 분기 예측         │  ← "다음에 뭐 할지 미리 생각"
│  - 순서 제어         │
│  - 코어 8~32개       │
└─────────────────────┘

# GPU가 잘하는 것 → 단순한 걸 동시에 많이
GPU 코어 1개
┌──────┐
│ 단순 │  ← 캐시도 작고, 분기예측도 없고
│ 계산 │     그냥 시키는 것만 함
└──────┘
이게 수천~수만 개

CPU vs GPU 가격 비교

일반 고성능 CPU (인텔 i9, AMD 라이젠 9)
→ 50만원 ~ 150만원

게이밍 GPU (엔비디아 RTX 4090)
→ 200만원 ~ 250만원

AI용 GPU (엔비디아 H100)
→ 4,000만원 ~ 5,000만원  ← 🤯

GPU가 비싼 이유

첫째, 만들기가 극도로 어려움 H100 안에는 HBM 이라는 고대역폭 메모리가 있다. HBM을 GPU 위에 3D로 쌓아 올리는 공정 자체가 초정밀 작업이라 수율(정상품 비율)이 낮고 만들어도 불량이 많다.

둘째, 엔비디아가 독점에 가까움 AI용 GPU 시장에서 엔비디아 점유율이 80~90%이다. AMD가 쫓아가고 있고 구글·아마존이 자체 칩 만들고 있지만 아직은 넘사벽, 경쟁이 없으니 가격을 내릴 이유가 없다.

셋째, 수요가 공급을 완전히 압도 엔비디아의 신형 블랙웰 GPU도 강한 수요로 인해 공급이 부족하며, 현재 납기가 2026년 중반까지 늘어난 상태다. 돈이 있어도 못 사는 상황인 것.

H100 한 개 = 4,000만원~5,000만원
H100 8개짜리 서버 = 3억~4억원

근데 데이터센터엔 이게 수천~수만 개 필요

메모리 반도체 — High Bandwidth Memory(HBM)이 뭔데 왜 비싸?

메모리 반도체는 데이터를 임시 저장하는 공간이다. GPU가 연산하려면 데이터를 메모리에서 꺼내 와야 하는데, 이 속도가 느리면 아무리 GPU가 빨라도 소용없다. 기다리는 시간이 길어지는 것.

그래서 등장한 것이 HBM(고대역폭메모리) 다. 기존 D램보다 훨씬 빠른 속도로 GPU에 데이터를 공급한다. 문제는 만들기 까다롭고 비싸다는 것. 삼성전자, SK하이닉스가 주요 공급사인데, AI 붐으로 수요가 폭발하면서 가격이 치솟았다.

데이터센터 GPU의 절반은 HBM이 따라가지 못해 그냥 놀고 있다. 모델플롭스활용률(MFU)이 고작 40%라는 수치가 이걸 보여준다.

참고) 뭐가 그리 만들기 어렵길래??

D램 레이어를 얇게 깎아야 하는데 일반 D램 두께가 약 800㎛인데 HBM용은 50㎛까지 깎아야한다. 머리카락 굵기(70㎛)보다 얇게 깎아야하는데 이 과정에서 깨지는 게 엄청 많다.

1. 쌓는 기술(TSV)

구멍 하나가 직경 5~10㎛이고, 레이어마다 수만 개가 있다. 여기서 하나라도 틀어지면 전체 불량!

D램 4  ████
D램 3  ████
D램 2  ████  ← 얇은 판에 수직으로 구멍을 뚫고
D램 1  ████     구리선을 채워서 전기 연결
베이스 ████

2. 근데 진짜 어려운 건 붙이는 것

HBM 스택을 인터포저 위에 정확히 올려놓는 공정을 본딩이라고 부른다. H100엔 이 HBM 스택이 6개 있고, GPU 다이까지 합치면 한 장 위에 7개 덩어리를 마이크로미터 단위로 정확히 붙여야 한다.

만들어도 절반 가까이 버리게 되므로, 버리는 것도 다 비용이니까 정상품 가격에 포함되어 버림. 이게 H100이 4,000~5,000만원인 이유다.

오차 허용치: ±1㎛ 이하
= 사람 눈으로 볼 수 없는 수준

일반 D램 수율:  ~90%
HBM 수율:       ~50~60% (추정)

KV 캐시 — AI의 단기 기억

AI 모델이 텍스트를 읽고 답변을 생성할 때, 앞에서 읽은 내용을 기억해야 한다. "아까 '고양이'가 나왔으니 지금 이 '녀석'은 고양이를 가리키는구나" 같은 문맥 파악이 필요하다.

이 문맥 정보를 담아두는 HBM 내부의 임시 저장 공간이 KV 캐시(Key-Value Cache) 다. 위 이미지에서 D램 레이어들에 저장이 되는 것이다. K는 과거 내용의 '키'(색인), V는 실제 '값'(의미)이라고 보면 된다.

대화가 길어질수록, 처리하는 문서가 길수록 KV 캐시가 커진다. 더 많은 HBM이 필요해진다. 즉, KV 캐시 = 메모리 수요의 핵심 병목이다.

압축 기술 — 메모리 덜 쓰는 세 가지 방법

빅테크들이 꺼내든 카드는 KV 캐시를 줄이는 소프트웨어 기술이다. 크게 세 가지 접근이 있다.

① 구글의 터보퀀트 — 흐릿하게 저장하기 이미지를 고화질 대신 저화질로 저장하면 용량이 줄듯, KV 캐시에 담긴 정보를 압축해서 저장한다. KV 캐시를 6분의 1로 줄였다. 정보 손실이 조금 있지만, AI 성능에 큰 영향 없는 수준에서 타협하는 방식이다.

② 딥시크 V4 — 두 가지 눈으로 읽기 딥시크는 '하이브리드 어텐션'이라는 기술을 썼다. 어텐션이란 AI가 단어와 단어 사이의 관계를 파악하는 능력이다.

CSA(압축희소어텐션): '꼼꼼하게 읽는 눈'. 4개 토큰을 하나로 묶어 핵심만 추출. KV 캐시를 1/4로 줄임.
HCA(고강도압축어텐션): '훑어보는 눈'. 128개 토큰을 묶어 전체 흐름만 파악.

이 두 방식을 61개 레이어에 섞어 쓴 결과, KV 캐시 사용량이 전작 대비 10분의 1로 줄었다.

③ 엔비디아의 트라이어텐션 — 중요한 것만 남기기 터보퀀트가 '흐릿하게 저장'이라면, 트라이어텐션은 '필요 없는 부분은 버리기'다. KV 캐시에 담긴 정보 중 중요한 것을 선별해 나머지를 제거한다. KV 캐시 사용량을 9.3% 수준으로 줄이고 연산 속도는 2.5배 높였다.

터보퀀트       → 압축      (같은 걸 작게 저장)
딥시크 V4      → 캐싱 전략 (뭘 저장할지 선별)
트라이어텐션   → 캐시 교체 전략 (덜 중요한 건 드롭)

→ 사실 구글 터보퀀트만 엄밀한 의미의 압축 기술이고, 딥시크 V4는 캐싱 전략(뭘 저장할지 선별), 엔비디아 트라이어텐션은 캐시 교체 전략(덜 중요한 건 버리기)에 가깝다.

(압축 기술 및 원리에 대해서는 2탄에서 더 깊게 다뤄보겠다. )

그래서, 삼성전자·SK하이닉스는 긴장해야 하나?

놉. 단기적으로는 걱정 없다. HBM 수요는 여전히 폭발적이고, AI 모델은 계속 커지고 있다.

하지만 방향성은 분명히 바뀌고 있다. 빅테크들이 메모리를 더 사는 대신 덜 쓰는 쪽으로 움직이기 시작했으니까.

다만 냉정하게 보면, 지금 나온 기술들의 한계도 명확하다. 터보퀀트는 진짜 압축이지만 정보 손실을 감수해야 하고, 딥시크나 엔비디아 방식은 엄밀히 말해 압축이 아니라 캐싱 전략에 가깝다. 뭘 저장할지 영리하게 고르는 것이지, 메모리 자체가 필요 없어지는 게 아니다.

AI 모델이 커지는 속도를 캐싱 전략만으로 따라잡기엔 역부족이다. 모델 파라미터가 늘어나고, 처리하는 문맥 길이가 길어질수록 결국 더 많은 메모리가 필요해진다. 캐싱 전략은 병목을 줄이는 거지, 병목을 없애는 게 아니다. 진짜 위협이 되려면 손실 없이 메모리를 획기적으로 줄이는 압축 기술이 나와야 한다. 그게 나오기 전까지 삼성전자·SK하이닉스의 HBM은 여전히 AI의 필수 부품이다.

728x90

'Dev Log' 카테고리의 다른 글

GitHub Copilot 정액제 종료, 사용량 기반 과금 도입 (0)	2026.05.31
구글의 터보퀀트, 그리고 압축이란 무엇인가 (0)	2026.05.24
GitHub PR이 생성됐는데 목록에 안 보이는 버그 (1)	2026.05.10
useEffect 꿀팁 (0)	2026.05.03
Git Worktree 마스터하기X 알아보기O (2)	2026.04.26

cookie & cache

"보고 있나 삼전닉스?" — AI 반도체 판 뒤흔들 빅테크의 승부수

CPU, GPU — 뭐가 다를까?

CPU vs GPU 가격 비교

GPU가 비싼 이유

메모리 반도체 — High Bandwidth Memory(HBM)이 뭔데 왜 비싸?

KV 캐시 — AI의 단기 기억

압축 기술 — 메모리 덜 쓰는 세 가지 방법

그래서, 삼성전자·SK하이닉스는 긴장해야 하나?

'Dev Log' 카테고리의 다른 글

티스토리툴바

"보고 있나 삼전닉스?" — AI 반도체 판 뒤흔들 빅테크의 승부수

CPU, GPU — 뭐가 다를까?

CPU vs GPU 가격 비교

GPU가 비싼 이유

메모리 반도체 — High Bandwidth Memory(HBM)이 뭔데 왜 비싸?

KV 캐시 — AI의 단기 기억

압축 기술 — 메모리 덜 쓰는 세 가지 방법

그래서, 삼성전자·SK하이닉스는 긴장해야 하나?

'Dev Log' 카테고리의 다른 글

'Dev Log' Related Articles

티스토리툴바