마이크로소프트가 대규모 인공지능(AI) 토큰 생성의 경제성을 획기적으로 개선하는 추론 가속기 ‘마이아 200(Maia 200)’을 27일 공개했다. 마이크로소프트 애저(Azure) 환경에서 AI 모델을 더욱 빠르고 경제적으로 구동할 수 있도록 지원하는 제품이다.
마이아 200은 TSMC의 3나노미터(nm) 공정을 기반으로 고성능 AI 추론에 최적화된 구조를 갖췄다. 특히 초당 7TB 대역폭의 216GB HBM3e 메모리 시스템과 네이티브 FP8/FP4 텐서 코어, 데이터 이동 엔진을 유기적으로 결합해 거대 모델에 최적화된 추론 성능을 제공한다.
실제 연산 성능에서도 주목할 만한 지표를 기록했다. 4비트 정밀도(FP4) 기준 3세대 아마존 트레이니움 대비 3배 높은 처리량을 기록했으며, 8비트 정밀도(FP8)에서도 구글의 7세대 TPU를 상회한다. 자사 인벤토리 내 최신 하드웨어 대비 달러당 성능을 30% 개선했다. 아울러 오픈AI의 최신 GPT-5.2 모델을 비롯한 다양한 모델을 지원한다.
마이아 200은 아이오와주 디모인(Des Moines) 인근 미국 중부 데이터 센터 지역을 시작으로 배포가 진행된다. 향후 애리조나주 피닉스(Phoenix) 인근 US West 3 지역 등으로 확대될 예정이다.
이번 신제품은 1400억 개 이상의 트랜지스터를 탑재해 대규모 AI 워크로드에 특화됐다. 대규모 클러스터 환경에서도 일관되게 구현된다. 통합 네트워킹 환경은 프로그래밍을 단순화하고 워크로드의 유연성을 높여 시스템 운영 효율을 강화한다.
데이터센터 투입 준비도 설계 단계부터 병행했다. 백엔드 네트워크와 2세대 액체 냉각 시스템 등 복잡한 요소를 조기 검증하고 애저 제어 플레인)과 네이티브로 통합했다. 그 결과 마이아 200은 첫 부품 입고 수일 만에 실제 모델 구동에 성공했으며, 칩 입고부터 데이터 센터 배치까지의 기간을 기존 대비 절반 이하로 단축했다.
마이크로소프트는 “대규모 AI 시대가 본격화됨에 따라 인프라가 기술적 가능성을 결정짓는 핵심 요소가 될 것”이라며 “이번 가속기 프로그램은 다세대 로드맵을 기반으로 설계됐으며 향후 지속적인 혁신을 통해 새로운 벤치마크를 제시하고 핵심 AI 워크로드에 최적화된 성능과 효율성을 제공한다”고 말했다.
박재림 기자 jamie@segye.com