DeepSeek tiết lộ chi phí huấn luyện mô hình R1 chỉ 294.000 USD

Trong một động thái hiếm hoi, startup Trung Quốc DeepSeek vừa công bố chi tiết chi phí phát triển mô hình trí tuệ nhân tạo R1, cho thấy mức đầu tư chỉ 294.000 USD. Con số này gây chú ý lớn khi thấp hơn nhiều so với các đối thủ Mỹ, vốn thường công bố chi phí huấn luyện AI ở mức hàng trăm triệu USD. Thông tin được tiết lộ trong một nghiên cứu đăng trên tạp chí Nature, do chính nhà sáng lập Lương Văn Phong đồng tác giả.

Table of Contents

Chi phí thấp bất thường và những nghi vấn

Theo DeepSeek, mô hình R1 được huấn luyện trong 80 giờ bằng 512 chip Nvidia H800, dòng GPU chuyên dụng được thiết kế cho thị trường Trung Quốc. Hãng cũng thừa nhận từng sử dụng Nvidia A100 cho các thử nghiệm ban đầu trước khi chuyển hẳn sang H800. So với phát biểu trước đây của CEO OpenAI Sam Altman, người từng cho biết chi phí huấn luyện mô hình nền tảng vượt quá 100 triệu USD, con số 294.000 USD của DeepSeek được xem là khác biệt quá lớn.

Tuy nhiên, giới phân tích nhanh chóng đặt ra nhiều nghi ngờ. Công ty nghiên cứu SemiAnalysis cho rằng chi phí công bố chỉ phản ánh một phần nhỏ, trong khi thực tế DeepSeek đã đầu tư quy mô lớn hơn nhiều. Báo cáo của hãng này ước tính startup Trung Quốc đã chi khoảng 1,6 tỷ USD cho máy chủ, 944 triệu USD chi phí vận hành và hơn 500 triệu USD mua GPU, bao gồm tới 50.000 card Nvidia Hopper, trong đó có 10.000 H800 và 10.000 H100.

Tranh cãi về phương pháp và dữ liệu DeepSeek

Ngoài câu chuyện tài chính, DeepSeek còn đối mặt với chỉ trích về phương pháp phát triển. Nhiều quan chức Mỹ và chuyên gia AI cho rằng hãng phụ thuộc mạnh vào kỹ thuật distillation – huấn luyện mô hình mới dựa trên kết quả từ các mô hình có sẵn. DeepSeek bảo vệ cách tiếp cận này, cho rằng đây là phương pháp giúp tối ưu chi phí và mở rộng triển khai trên quy mô lớn. Hãng cũng từng thừa nhận có sử dụng nguồn dữ liệu từ Meta Llama trong một số mô hình.

Trong báo cáo mới nhất trên Nature, DeepSeek tiếp tục gây tranh luận khi tiết lộ mô hình V3 đã học từ “một số lượng đáng kể” phản hồi do hệ thống OpenAI tạo ra. Công ty giải thích rằng đây là dữ liệu thu được từ quá trình thu thập web, chứ không phải hành động sao chép có chủ đích.

Thách thức xác minh năng lực thực sự

Kể từ khi xuất hiện trên thị trường quốc tế vào tháng 1, DeepSeek vẫn duy trì chiến lược kín tiếng, chỉ tung ra các bản cập nhật nhỏ và hiếm khi công bố thông tin cụ thể. Việc chia sẻ chi phí huấn luyện R1 lần này được xem là nỗ lực tạo sự minh bạch, nhưng đồng thời làm dấy lên nhiều tranh luận hơn về khả năng thực sự của hãng.

Điểm rõ ràng nhất là cuộc cạnh tranh trong lĩnh vực AI toàn cầu đang ngày càng khốc liệt. Trong khi các công ty Mỹ phải đối mặt với chi phí huấn luyện hàng trăm triệu USD, thì DeepSeek cố gắng chứng minh rằng họ có thể xây dựng mô hình tiên tiến với chi phí thấp hơn nhiều. Dù còn nhiều hoài nghi, cách tiếp cận này chắc chắn sẽ gia tăng áp lực lên các đối thủ phương Tây trong bối cảnh chi phí đào tạo AI ngày càng leo thang.

Chi phí thấp bất thường và những nghi vấn

Tranh cãi về phương pháp và dữ liệu DeepSeek

Thách thức xác minh năng lực thực sự

Viết một bình luận Hủy