Trong một động thái được xem là lời thách thức trực tiếp gửi đến sự thống trị của Nvidia, Broadcom vừa chính thức giới thiệu một con chip mạng thế hệ mới mang tên Thor Ultra. Đây là card mạng Ethernet 800G đầu tiên trên thế giới được xây dựng theo tiêu chuẩn mở của Hiệp hội Ultra Ethernet (UEC), nhắm thẳng vào một trong những nút thắt cổ chai lớn nhất trong việc huấn luyện các mô hình ngôn ngữ lớn: kết nối băng thông cao, độ trễ thấp ở quy mô trung tâm dữ liệu. Với Thor Ultra, Broadcom không chỉ cạnh tranh về tốc độ, mà còn muốn định hình lại toàn bộ cách các cụm AI được thiết kế và tiêu chuẩn hóa.
Thor Ultra và cuộc cách mạng Ethernet mở
Sự khác biệt cốt lõi của Thor Ultra không nằm ở thông lượng thô, mà ở cách nó vận hành một tiêu chuẩn Ethernet mở cho kỷ nguyên AI. Trong khi Nvidia đã rất thành công với hệ sinh thái mạng độc quyền, tốc độ cao nhưng khép kín của mình, Broadcom lại chọn một con đường khác. Bằng cách tuân thủ đặc tả của UEC, Thor Ultra mang đến cho các nhà vận hành trung tâm dữ liệu một cách để mở rộng quy mô các tác vụ AI mà không bị “khóa chân” vào hệ sinh thái mạng của một nhà cung cấp duy nhất. Điều này cho phép họ có sự linh hoạt hơn trong việc lựa chọn và kết hợp phần cứng từ nhiều nhà sản xuất khác nhau.
Về cơ bản, Thor Ultra vượt ra ngoài các kiến trúc RDMA truyền thống, giới thiệu một bộ các khả năng mới giúp Ethernet trở nên hoàn toàn khả thi cho các tác vụ với hàng nghìn tỷ tham số. Các tính năng như đa đường dẫn ở cấp độ gói tin (packet-level multipathing) và giao gói tin không theo thứ tự (out-of-order packet delivery) cho phép các mạng tự động cân bằng tải và duy trì thông lượng trên các kết cấu mạng bị tắc nghẽn. Đây là những nhiệm vụ mà trước đây phụ thuộc vào các kết nối độc quyền đắt đỏ.
Ngoài ra, các cơ chế truyền lại có chọn lọc (selective retransmission) và các thuật toán kiểm soát tắc nghẽn có thể lập trình hoàn toàn càng giúp cải thiện việc sử dụng liên kết. Điều này cho phép các hệ thống quản lý các mô hình lưu lượng không thể đoán trước, vốn là đặc trưng của môi trường huấn luyện AI phân tán.
Những công nghệ đột phá bên trong chip AI mới
Ở cấp độ phần cứng, Thor Ultra thể hiện một bước nhảy vọt về hiệu năng. Tốc độ đường truyền 800G của nó tăng gấp đôi thông lượng so với thế hệ trước. Nó cũng tích hợp các tùy chọn PAM4 SerDes 200G và 100G với tỷ lệ lỗi bit (bit error rate) mà Broadcom tuyên bố là thấp nhất trong ngành. Card mạng này hỗ trợ kết nối PCIe Gen6 x16, đảm bảo băng thông rộng rãi để giao tiếp với hệ thống chủ.
Một quyết định kiến trúc quan trọng là việc tích hợp khả năng mã hóa và giải mã ở tốc độ đường truyền thông qua cơ chế giảm tải PSP (PCIe Security Protocol). Điều này nhằm mục đích giải phóng các XPU (CPU, DPU, v.v.) khỏi các tác vụ bảo mật đòi hỏi nhiều tài nguyên tính toán, vốn có thể làm tăng độ trễ. Các tính năng như khởi động an toàn (Secure boot) và chứng thực phần sụn (firmware attestation) giúp mở rộng ranh giới điện toán tin cậy đến tận card mạng.
Về cơ bản, mỗi chi tiết kỹ thuật của Thor Ultra đều được thiết kế để tối ưu hóa cho dòng chảy dữ liệu khổng lồ và phức tạp của các cụm AI, đồng thời vẫn duy trì tính linh hoạt của một tiêu chuẩn mở.
Định hình lại cuộc chơi: Chiến lược của Broadcom
Mặc dù các dòng chip chuyển mạch Tomahawk và Jericho của Broadcom từ lâu đã thống trị trong các trung tâm dữ liệu, Thor Ultra đại diện cho nỗ lực rõ ràng nhất của công ty cho đến nay nhằm định nghĩa lại card mạng (NIC) như một phần mở rộng có thể lập trình của kết cấu mạng AI, thay vì chỉ là một điểm cuối thụ động. Đây là một sự thay đổi trong triết lý thiết kế.
Sự kết hợp giữa một pipeline kiểm soát tắc nghẽn có thể lập trình và hỗ trợ cho việc cắt tỉa gói tin (packet trimming) và báo hiệu tắc nghẽn với các switch Tomahawk 5 và 6 đã nhấn mạnh một kiến trúc được tối ưu hóa theo chiều dọc nhưng vẫn mở. Kiến trúc này hoàn toàn tương phản với ngăn xếp mạng độc quyền, được ghép nối chặt chẽ của Nvidia.
Với Thor Ultra, Broadcom không chỉ đơn thuần là tạo ra một đối thủ cạnh tranh về tốc độ. Họ đang đưa ra một tầm nhìn khác về tương lai của hạ tầng AI – một tương lai cởi mở, linh hoạt và không bị kiểm soát bởi một công ty duy nhất. Cuộc chiến giành quyền thống trị mạng lưới cho các siêu máy tính AI đang trở nên hấp dẫn hơn bao giờ hết.