Tenstorrent gây sức ép lên Nvidia GB300, 350 token/giây nói gì?

Tenstorrent vừa tung ra một tuyên bố đủ khiến thị trường máy chủ AI phải chú ý: nền tảng Tenstorrent Blackhole của hãng có thể đạt hơn 350 token mỗi giây khi chạy DeepSeek R1, đồng thời có tổng chi phí sở hữu thấp hơn đáng kể so với Nvidia GB300. Với người đọc phổ thông, con số này nghe có vẻ khô, nhưng nó chạm đúng hai thước đo đang quyết định cuộc đua AI hiện nay: tốc độ trả lời và tiền phải bỏ ra để nuôi hạ tầng. Điều đáng nói là Tenstorrent không nhắm vào thị trường ngách, mà công khai so mình với nền tảng đang được xem là chuẩn tham chiếu của NVIDIA Blackwell. Nếu các tuyên bố này đứng vững khi có benchmark độc lập, cuộc chơi AI server trong năm 2026 sẽ bớt là sân khấu một chiều của Nvidia.

Table of Contents

Tenstorrent đang cố chứng minh Blackhole không chỉ là một con chip lạ

Trong bài tường thuật từ sự kiện TT-Deploy, Tenstorrent cho biết cụm Tenstorrent Blackhole có thể đẩy DeepSeek-R1-0528 671B lên mức hơn 350 token/giây mỗi người dùng ở pha decode, đồng thời giữ thời gian phản hồi token đầu tiên dưới 4 giây với ngữ cảnh 100.000 token. Nói dễ hiểu, đây là kiểu chỉ số dành cho các dịch vụ AI đòi hỏi vừa nhanh vừa phục vụ được nhiều người cùng lúc, thay vì chỉ chạy một bản demo đẹp mắt.

Blackhole cũng không đi theo công thức quen thuộc của GPU AI truyền thống. Tenstorrent xây hệ thống quanh kiến trúc RISC-V, ghép tính toán, bộ nhớ và mạng trong một cụm thống nhất, rồi nhấn mạnh vào phần mềm mã nguồn mở thay vì hệ sinh thái đóng. Cách tiếp cận này hấp dẫn các doanh nghiệp đang muốn tránh phụ thuộc hoàn toàn vào một nhà cung cấp duy nhất.

Điểm cần giữ đầu lạnh là toàn bộ các con số hiện tại vẫn do chính Tenstorrent công bố. Dù việc dám gọi tên GB300 cho thấy hãng muốn bước vào cuộc so găng trực diện, thị trường vẫn sẽ chờ những phép đo từ bên thứ ba để xác nhận Blackhole có giữ được hiệu suất khi tải thực tế tăng cao hay không. Điều đó càng đáng chú ý khi các đối thủ như NVIDIA Rubin đã bắt đầu được nhắc tới như thế hệ kế tiếp cho các cụm AI siêu lớn.

Vì sao 350 token mỗi giây và TCO thấp hơn GB300 lại là tin nóng

Trong mảng AI doanh nghiệp, phần cứng không thắng chỉ nhờ thông số đỉnh. Các bên mua ngày càng soi xem một hệ thống tạo ra bao nhiêu token, mất bao lâu để trả lời, tốn bao nhiêu điện, và cần bao nhiêu máy để phục vụ cùng một lượng truy vấn. Đó là lý do Tenstorrent lặp lại hai chữ TCO, tức tổng chi phí sở hữu, vì đây là thước đo mà cả nhà cung cấp chip AI lẫn khách hàng trung tâm dữ liệu đều đang bám rất sát.

Chỉ số	Tenstorrent công bố	Ý nghĩa thực tế
Hiệu suất decode	350+ token/giây/người dùng	Phù hợp dịch vụ AI cần phản hồi nhanh ở tải cao
Thời gian token đầu tiên	Dưới 4 giây với context 100K	Giảm cảm giác chờ khi hỏi mô hình lớn
Chi phí token	Khoảng 6 USD so với gần 30 USD	Nếu đúng, chi phí vận hành có thể giảm mạnh
Giá hệ thống	Từ 110.000 USD cho một server	Nhắm vào doanh nghiệp dựng cụm AI riêng

Nếu Tenstorrent thực sự giữ được tỷ lệ chi phí như hãng nêu, sức ép lên Nvidia không nằm ở việc đánh bại tuyệt đối về tốc độ, mà ở việc ép cả thị trường phải giải thích vì sao một cụm GPU đắt hơn lại đáng tiền hơn ở bài toán suy luận. Đây cũng là lúc câu chuyện băng thông bộ nhớ và khả năng mở rộng cụm trở nên quan trọng không kém FLOPS thuần, tương tự áp lực mà giới bán dẫn đang nói tới với HBM cho hạ tầng AI.

Tin này đáng theo dõi vì nó cho thấy cuộc đua AI không còn chỉ xoay quanh việc ai có GPU mạnh nhất. Các hãng mới đang cố đổi câu hỏi từ “nhanh nhất” sang “đủ nhanh với chi phí hợp lý nhất”. Tenstorrent Blackhole chưa thể xem là kẻ lật đổ Nvidia chỉ sau một buổi trình diễn, nhưng hãng đã buộc giới làm hạ tầng AI phải nhìn nghiêm túc hơn vào các lựa chọn thay thế.

Tenstorrent Blackhole gây sức ép lên Nvidia GB300: 350 token/giây có ý nghĩa gì?

Tenstorrent đang cố chứng minh Blackhole không chỉ là một con chip lạ

Vì sao 350 token mỗi giây và TCO thấp hơn GB300 lại là tin nóng

Viết một bình luận Hủy