하드웨어 장인이 만든 미친 속도의 코딩 AI, Cerebras Code

> "AI가 타이핑하는 걸 기다리다 답답해서, 그냥 내가 치는 게 빠르겠다 싶었던 적 없으신가요?"

최근 AI 모델의 발전 속도는 가히 혁명적이지만, 많은 개발자들은 여전히 '속도'에 대한 갈증을 느끼고 있습니다. 특히 특정 기업의 폐쇄적인 생태계 안에서, 내 아이디어를 실시간으로 구현하기엔 어딘가 모르게 답답한 딜레이가 존재했죠. 바로 이 지점에서, 반도체 웨이퍼를 통째로 써서 칩을 만드는 것으로 유명한 하드웨어 스타트업 Cerebras가 칼을 빼 들었습니다. 그들의 새로운 서비스 ‘Cerebras Code’는 “느린 건 못 참아!” 를 외치는 개발자들에게 ‘속도’와 ‘개방성’이라는 두 가지 선물을 안겨주며 커뮤니티에 신선한 충격을 주고 있습니다.

Cerebras Code는 단순히 또 하나의 거대 언어 모델(LLM)이 아닙니다. 강력한 오픈소스 모델들을 자신들의 압도적인 하드웨어 위에서 상상 초월의 성능으로 제공하겠다는, 일종의 ‘선언’에 가깝습니다. 오늘은 Cerebras Code가 과연 어떤 물건인지, 해외 개발자들은 왜 이토록 열광하고 또 우려하는지, 그 속내를 샅샅이 파헤쳐 보며 AI 개발의 새로운 미래를 엿보겠습니다.

### 1. Cerebras Code, 괴물 신인의 등장: Qwen3-Coder와 gpt-oss-120B를 품다

Cerebras Code의 핵심은 두 개의 강력한 모델을 전면에 내세운다는 점입니다.

첫 번째는 알리바바의 Qwen3-Coder입니다. 무려 480B(4800억) 파라미터를 자랑하는 이 모델은 이미 코딩 및 에이전트 작업에서 Claude Sonnet 4나 GPT-4.1과 견줄만한 성능을 입증받은 강력한 오픈소스 모델입니다. Cerebras는 이 모델을 자사의 AI 추론 클라우드 위에서 초당 2,000 토큰이라는 경이로운 속도와 131,000 토큰이라는 광대한 컨텍스트 창으로 제공합니다. 월 50달러(프로) 또는 200달러(맥스)의 구독료로 이 엄청난 성능을 빌려 쓸 수 있게 된 것이죠.

두 번째는 OpenAI의 gpt-oss-120B 모델 지원입니다. OpenAI가 최근 공개한 이 오픈소스 모델을 Cerebras는 초당 3,000 토큰이라는, 거의 실시간에 가까운 속도로 처리합니다. 이는 개발자가 코드를 짜는 동시에 AI의 제안을 받거나, 방대한 문서를 순식간에 분석하는 등 기존에는 상상하기 어려웠던 수준의 상호작용을 가능하게 합니다.

중요한 것은 이 모든 것이 OpenAI 호환 API를 통해 제공된다는 점입니다. 즉, 개발자들은 기존에 사용하던 Cursor, Continue.dev 같은 코드 에디터나 도구를 그대로 사용하면서, 엔드포인트만 살짝 바꿔주면 Cerebras가 제공하는 압도적인 속도를 경험할 수 있습니다. 특정 플랫폼에 갇힐 필요 없이, 내가 원하는 환경에서 최고의 모델을 최고의 속도로 활용할 수 있는 길이 열린 셈입니다.

### 2. 커뮤니티의 반응: “속도는 미쳤다. 근데 지갑이…”

Hacker News의 개발자들은 Cerebras Code의 ‘속도’에 열광적인 반응을 보였습니다. 한 사용자는 “모델이 말을 뱉어내는 속도가 너무 빨라서, 중간에 말을 끊고 끼어드는 게 가능할 정도”라며 놀라움을 표했습니다. 이는 Cerebras의 독특한 웨이퍼 스케일(wafer-scale) 칩 아키텍처 덕분인데, 모델 전체를 칩의 SRAM에 통째로 올려버리기 때문에 지연 시간이 극도로 짧아지는 원리입니다.

하지만 빛이 있으면 그림자도 있는 법. 가장 큰 우려는 역시 ‘비용’ 문제였습니다.

> “속도는 경쟁자들보다 훨씬 빠르지만, API 호출 비용이 꽤 비싸질 수 있습니다. 특히 캐싱 없이는요. 에이전트 워크플로우처럼 매번 전체 대화 기록을 보내야 한다면 비용이 만만치 않을 겁니다.”

한 개발자는 이러한 비용 문제를 해결하기 위한 아이디어를 제시하기도 했습니다. 파일 전체를 컨텍스트에 넣는 대신, 코드의 의미 단위인 ‘심볼(symbol)’ 레벨로 잘라서 필요한 부분만 전달하는 방식입니다. 그는 이 방법으로 리팩토링 작업을 토큰당 약 0.5센트라는 매우 저렴한 비용으로 해낼 수 있었다고 공유했습니다. 이는 강력한 AI 모델을 어떻게 하면 더 ‘현명하게’ 활용할 수 있을지에 대한 커뮤니티의 집단 지성이 빛을 발하는 순간이었습니다.

### 3. 종합: ‘하드웨어’가 ‘소프트웨어’의 경험을 바꾼다

Cerebras Code의 등장은 우리에게 중요한 시사점을 던져줍니다. 지금까지 AI 모델의 경쟁이 주로 ‘성능’과 ‘기능’에 초점이 맞춰져 있었다면, 이제는 그 모델을 뒷받침하는 ‘하드웨어’와 ‘인프라’가 사용자 경험을 결정하는 핵심 요소로 부상하고 있다는 것입니다.

아무리 뛰어난 모델이라도 응답이 느리고 사용하기 불편하다면 그 가치는 반감됩니다. Cerebras는 독보적인 하드웨어 기술을 통해 ‘속도’라는, 가장 직관적이면서도 강력한 사용자 경험을 제공함으로써 시장의 판도를 바꾸려 하고 있습니다. 또한, 특정 기업의 모델에 얽매이지 않고 다양한 오픈소스 모델들을 지원하는 ‘개방성’은 개발자들에게 더 넓은 선택의 자유를 주며 건강한 생태계를 만드는 데 기여할 수 있습니다.

물론 비용 문제는 아직 해결해야 할 숙제입니다. 하지만 기술이 발전하고 규모의 경제가 실현됨에 따라 비용은 점차 낮아질 가능성이 높습니다. 더 중요한 것은 Cerebras가 보여준 방향성 그 자체입니다. 앞으로 AI 시장은 단순히 더 똑똑한 모델을 만드는 경쟁을 넘어, 더 빠르고, 더 저렴하며, 더 개방적인 인프라를 제공하는 경쟁으로 진화할 것입니다.

Cerebras Code는 그 진화의 서막을 알리는 신호탄과도 같습니다. 개발자들은 이제 자신의 필요와 예산에 맞춰 최적의 모델과 인프라를 선택하고 조합하는, 진정한 ‘AI 레고’의 시대를 맞이하게 될지도 모릅니다. 그 변화의 중심에서 어떤 새로운 혁신과 기회가 꽃피게 될지, 앞으로의 행보가 더욱 기대되는 이유입니다.

1

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요