Meta AWS Graviton: vì sao CPU lại thành chuyện lớn của AI?

Thỏa thuận Meta AWS Graviton vừa được công bố là dấu hiệu cho thấy CPU đang trở lại vị trí rất đáng chú ý trong AI. Theo thông báo của Meta, số lõi này sẽ phục vụ Meta AI và các hệ thống agentic AI có thể tự lên kế hoạch, gọi công cụ và xử lý nhiều bước liên tiếp. Điểm đáng nói không nằm ở chỗ Meta thuê thêm đám mây, mà ở việc hãng thừa nhận GPU không còn là lời giải duy nhất cho mọi lớp hạ tầng AI. Khi số phiên làm việc tăng mạnh, CPU trở thành lớp quyết định độ trễ nền, chi phí và khả năng mở rộng.

Vì sao agentic AI lại cần nhiều CPU hơn trước?

Trong thông cáo riêng, AWS mô tả agentic AI là nhóm workload thiên về suy luận thời gian thực, sinh mã, tìm kiếm và điều phối chuỗi tác vụ nhiều bước. Đây là kiểu việc không phải lúc nào cũng cần GPU để nhân ma trận, nhưng lại cần nhiều lõi CPU để nhận yêu cầu, chia nhỏ tiến trình, gọi dịch vụ và quản lý luồng dữ liệu. GPU có thể là nơi mô hình tạo ra kết quả, còn CPU là nơi hệ thống giữ cho mọi bước chạy đúng nhịp.

Vì sao agentic AI lại cần nhiều CPU hơn trước?

Khác với chatbot hỏi đáp một lượt, agentic AI thường phải lặp lại nhiều vòng: đọc yêu cầu, truy dữ liệu, chọn hành động, gọi API rồi kiểm tra kết quả. Mỗi vòng như vậy làm tăng tải ở lớp orchestration nhiều hơn lớp tăng tốc thuần AI. Vì thế, “hàng chục triệu lõi” ở đây nên được hiểu là công suất để xử lý thật nhiều phiên làm việc đồng thời, không chỉ là một con số phô diễn quy mô.

Graviton đáng chú ý vì đây là CPU Arm do AWS tự thiết kế cho trung tâm dữ liệu. Trên trang sản phẩm AWS Graviton, AWS nhấn mạnh lợi thế giá trên hiệu năng và điện năng so với một số hệ x86 tương đương. Với Meta, lợi ích thực tế nằm ở khả năng xử lý lượng lớn yêu cầu nền với chi phí dễ kiểm soát hơn. Nhìn rộng hơn, thương vụ Meta AWS Graviton cho thấy AI tác tử đang kéo CPU lên thành hạng mục chi tiêu chiến lược, thay vì chỉ là phần phụ trợ cho GPU.

Thỏa thuận này nói gì về cuộc đua phần cứng AI?

Điểm đáng chú ý nhất là Meta đang đẩy mạnh cách làm “đúng chip cho đúng việc” thay vì dồn mọi bài toán AI lên cùng một loại tăng tốc. Hãng đã có GPU cho huấn luyện và inference nặng, có chip MTIA cho một số workload riêng, còn giờ bổ sung Graviton để gánh phần điều phối và dịch vụ nền. Nếu nhìn sang bài TPU hai chip gần đây, có thể thấy cuộc đua đã chuyển từ benchmark đơn lẻ sang khả năng ghép một hệ thống cân bằng hơn ở quy mô trung tâm dữ liệu.

Thành phần Vai trò Ý nghĩa thực tế
GPU Huấn luyện, suy luận nặng Tăng tốc mô hình lớn nhưng tốn điện và chi phí
CPU Điều phối tác vụ, gọi công cụ, phục vụ yêu cầu đồng thời Ảnh hưởng trực tiếp đến độ trễ nền và chi phí vận hành
Mạng/lưu trữ Di chuyển dữ liệu giữa các dịch vụ Yếu sẽ làm nghẽn cả cụm AI

Từ góc độ vận hành, quyết định của Meta là lời nhắc rằng AI thương mại không chỉ là cuộc chơi của FLOPS. Khi hệ thống phải phục vụ hàng tỷ tương tác, phần thắng nhiều khi đến từ việc giảm điện năng, tối ưu mật độ máy chủ và hạ chi phí cho mỗi phiên làm việc. Một cụm CPU phù hợp có thể không gây chú ý bằng GPU mới, nhưng lại quyết định một dịch vụ AI có mở rộng bền vững hay không.

Chưa dừng lại ở đó, thỏa thuận này còn tạo thêm sức nặng cho CPU Arm trong trung tâm dữ liệu. Nếu mô hình Meta AWS Graviton cho thấy hiệu quả ở quy mô lớn, áp lực sẽ không chỉ dồn lên thị trường accelerator mà còn lên cả CPU máy chủ truyền thống. Với người dùng cuối, điều đó có thể chưa thấy ngay bằng một benchmark, nhưng về phía nhà vận hành, đây là câu chuyện rất thật về tiền điện, độ trễ và biên lợi nhuận. terafab intel 14a: spacex

Viết một bình luận