NextSilicon Maverick-2: Chip AI thích ứng thách thức CPU và GPU

Phần cứng của NextSilicon đang bắt đầu chuyển từ thử nghiệm trong phòng thí nghiệm sang triển khai trong các hệ thống thực tế, bắt đầu với việc lắp đặt tại Phòng thí nghiệm Quốc gia Sandia thông qua chương trình siêu máy tính Vanguard-2 của liên bang Mỹ. Việc xác thực hiệu suất và hiệu quả của các tuyên bố này ngoài môi trường được kiểm soát có thể định vị công ty này trở thành một đối thủ cạnh tranh lớn trong một lĩnh vực mà việc sử dụng năng lượng và khả năng mở rộng ngày càng quyết định sự tiến bộ của tính toán hiệu năng cao. NextSilicon, một startup Israel được hậu thuẫn bởi hơn 300 triệu USD vốn đầu tư, đang thúc đẩy thách thức đối với sự thống trị của Nvidia, Intel và AMD trong lĩnh vực tính toán hiệu năng cao (HPC).

NextSilicon Maverick-2: Bộ tăng tốc thích ứng thách thức hiệu năng của Nvidia

Công ty đã công bố dòng chip mới của mình, bao gồm Bộ tăng tốc tính toán thông minh Maverick-2 (Maverick-2 Intelligent Compute Accelerator) và một CPU dựa trên RISC-V có tên mã Arbel, hiện đang được thử nghiệm bởi các phòng thí nghiệm quốc gia Hoa Kỳ như Sandia. Các kỹ sư quen thuộc với chương trình cho biết các bộ xử lý của công ty đang được đánh giá để sử dụng trong các hệ thống thực hiện các phép tính khoa học có yêu cầu cực cao, bao gồm cả mô hình hóa vũ khí hạt nhân.

NextSilicon Maverick-2: Chip AI thích ứng thách thức CPU và GPU

Maverick-2, hiện đang được vận chuyển đến một số khách hàng chọn lọc, được xây dựng trên tiến trình 5 nanomet của TSMC và bao gồm 96 hoặc 192 gigabyte bộ nhớ HBM3E, tùy thuộc vào cấu hình. Phiên bản một khuôn (single-die) hoạt động ở công suất 400 watt, trong khi mô hình hai khuôn (dual-die) tiêu thụ 750 watt và hỗ trợ làm mát bằng không khí hoặc chất lỏng.

Theo các tiêu chuẩn nội bộ của công ty, con chip này mang lại hiệu suất FP64 trên mỗi watt cao gấp 4 lần so với HGX B200 của Nvidia và hiệu quả gấp 20 lần so với CPU Xeon Sapphire Rapids của Intel. Không giống như các bộ xử lý Von Neumann truyền thống, Maverick-2 sử dụng kiến trúc luồng dữ liệu (dataflow architecture) để loại bỏ chi phí kiểm soát (control overhead). Mỗi đơn vị logic số học được kết nối trong một đồ thị, tự động kích hoạt tính toán khi dữ liệu di chuyển qua mạng. Người sáng lập công ty, Elad Raz, cho biết con chip này tự cấu hình lại theo thời gian thực, xác định các đường dẫn mã được thực thi thường xuyên và tối ưu hóa phần cứng ngay lập tức. Công ty tuyên bố khả năng thích ứng này mang lại công suất tính toán cao gấp khoảng mười lần so với dòng GPU mới nhất của Nvidia trong khi chỉ tiêu thụ khoảng 60% năng lượng.

Kiến trúc tính toán thông minh và những hứa hẹn thực tế

Maverick-2 sử dụng cái mà NextSilicon gọi là Kiến trúc Tính toán Thông minh (Intelligent Compute Architecture), một sự kết hợp giữa các thuật toán phần mềm thích ứng và phần cứng có thể cấu hình lại. Bằng cách chuyển nhiều tác vụ kiểm soát thường được xử lý bởi phần cứng sang một lớp phần mềm thông minh, thiết kế này giải phóng nhiều silicon hơn cho việc tính toán. Mô hình này cho phép con chip chạy các mã HPC và AI được viết bằng C, C++, Python và Fortran mà không cần phải viết lại phần mềm hiện có.

NextSilicon Maverick-2: Chip AI thích ứng thách thức CPU và GPU

Trong các thử nghiệm được chia sẻ với các đối tác, Maverick-2 đã đạt 32.6 giga-cập nhật mỗi giây – nhanh hơn 22 lần so với CPU và nhanh hơn khoảng sáu lần so với GPU – trong khi chỉ tiêu thụ 460 watt. Trong khối lượng công việc High-Performance Conjugate Gradients, nó tạo ra 600 gigaflops ở 750 watt, mà công ty cho rằng có thể so sánh với các GPU hàng đầu nhưng chỉ tiêu thụ khoảng một nửa năng lượng.

Phòng thí nghiệm Quốc gia Sandia, nơi đã hợp tác với NextSilicon hơn bốn năm, cho biết kết quả thử nghiệm sơ bộ “cho thấy tiềm năng thực sự trong việc thúc đẩy khả năng tính toán mà không cần chi phí chỉnh sửa mã mở rộng,” theo James H. Laros III, một nhà khoa học cấp cao và trưởng chương trình Vanguard. Bên cạnh bộ tăng tốc, NextSilicon đã chi tiết hóa bộ xử lý trung tâm (CPU) đầu tiên của mình, Arbel. Được xây dựng trên cùng tiến trình 5 nanomet, nó sử dụng bộ lệnh RISC-V mở, thách thức các kiến trúc từ Intel và AMD.

CPU RISC-V Arbel và tiềm năng mở ra kỷ nguyên mới của HPC

Arbel có một kiến trúc lệnh pipeline 10-wide chạy ở tốc độ 2.5 gigahertz, một bộ đệm sắp xếp lại (reorder buffer) 480 mục nhập, và bốn đơn vị vector 128-bit được thiết kế để xử lý dữ liệu song song. Công ty cho biết nó có thể thực thi tới mười sáu lệnh scalar mỗi chu kỳ và tích hợp bộ nhớ cache L3 chia sẻ để giảm độ trễ. Mặc dù vẫn đang trong quá trình thử nghiệm, những người quen thuộc với quá trình phát triển cho biết Arbel được thiết kế để kết hợp chặt chẽ với bộ tăng tốc Maverick-2 trong các hệ thống tương lai.

Các nhà phân tích trong ngành chỉ ra rằng sự kết hợp giữa RISC-V và luồng dữ liệu có thể mang lại cho các nhà nghiên cứu sự linh hoạt hơn so với các cặp CPU-GPU độc quyền, chẳng hạn như những cặp phổ biến trong các hệ thống cao cấp của Nvidia. Steve Conway, một nhà phân tích tại Intersect360 Research, mô tả cách tiếp cận này là giải quyết những sự thiếu hiệu quả dai dẳng trong tính toán hiệu năng cao do các pipeline có độ trễ cao và lãng phí điện năng gây ra. NextSilicon đang thực sự mở ra một hướng đi mới cho ngành công nghiệp HPC và AI.

Viết một bình luận