Trí tuệ nhân tạo: DeepSeek tăng tốc cuộc đua AI với bản nâng cấp mô hình R1

Hà Nội (TTXVN 30/5/2025) Ngày 29/5, công ty khởi nghiệp trí tuệ nhân tạo (AI) DeepSeek đã công bố bản nâng cấp đầu tiên cho mô hình suy luận R1 - công nghệ từng gây tiếng vang toàn cầu hồi tháng 1 vừa qua nhằm tăng sức ép cạnh tranh với các đối thủ của Mỹ, trong đó có OpenAI.

Biểu tượng mô hình trí tuệ nhân tạo DeepSeek. Ảnh: REUTERS/TTXVN

Theo thông báo đăng trên nền tảng phát triển Hugging Face, DeepSeek cho biết phiên bản R1-0528 là bản cập nhật nhỏ của mô hình R1, nhưng đã cải thiện đáng kể khả năng suy luận và xử lý các nhiệm vụ phức tạp, giúp hiệu suất gần như tương đương với các mô hình suy luận o3 của OpenAI và Gemini 2.5 Pro của Google.

Khác với đợt ra mắt R1 trước đó, bản cập nhật lần này không đi kèm các tài liệu học thuật chi tiết, vốn được giới nghiên cứu quốc tế phân tích kỹ lưỡng để hiểu chiến lược của DeepSeek. Trong một bài đăng ngắn trên mạng xã hội X, công ty có trụ sở tại Hàng Châu (Trung Quốc) xác nhận R1-0528 đã được cải thiện hiệu suất. Trên WeChat, DeepSeek cho biết tỷ lệ tạo ra thông tin sai lệch (hallucinations) của mô hình mới đã giảm khoảng 45–50% trong các nhiệm vụ như viết lại và tóm tắt văn bản.

DeepSeek cũng cho biết bản cập nhật mới có thể sáng tạo các thể loại văn bản như tiểu luận, tiểu thuyết và tăng cường khả năng trong các phương diện như tạo mã giao diện người dùng (front-end) và nhập vai tương tác. DeepSeek khẳng định R1-0528 “cho thấy hiệu suất vượt trội trong nhiều bài kiểm tra đánh giá, kể cả toán học, lập trình và logic tổng quát”.

DeepSeek cho biết thêm rằng một phiên bản khác của bản cập nhật R1-0528 đã được sử dụng để cải thiện hiệu suất cho mô hình Qwen 3 8B Base của tập đoàn Alibaba - một quá trình gọi là “distillation” (chưng cất tri thức), tức là sử dụng kiến thức từ một mô hình AI lớn hơn đã được huấn luyện trước tạo ra mô hình AI nhỏ hơn nhưng có hiệu suất tương đương. Kết quả là hiệu suất của phiên bản mới vượt hơn 10% so với bản gốc Qwen 3.

DeepSeek nhấn mạnh: “Chúng tôi tin rằng chuỗi suy luận của DeepSeek-R1-0528 sẽ đóng vai trò quan trọng đối với cả nghiên cứu học thuật về mô hình suy luận và việc phát triển các mô hình quy mô nhỏ trong công nghiệp”.

Sự ra mắt của R1 hồi tháng 1 đã nhanh chóng lan rộng toàn cầu, tạo ra "cơn địa chấn" trên thị trường khi cổ phiếu công nghệ bên ngoài Trung Quốc sụt giảm và thách thức quan điểm cho rằng phát triển AI quy mô lớn bắt buộc phải có năng lực tính toán và đầu tư tài chính khổng lồ. Kể từ đó, các tập đoàn công nghệ Trung Quốc như Alibaba và Tencent cũng đã tung ra những mô hình tuyên bố vượt qua DeepSeek.

Hãng tin Bloomberg hôm 28/5 cũng đưa tin về bản cập nhật của R1, trích dẫn một đại diện DeepSeek cho biết công ty đã hoàn tất “bản nâng cấp thử nghiệm nhỏ” và người dùng có thể bắt đầu trải nghiệm.

Thành công của DeepSeek được xem là đã phá vỡ quan điểm cho rằng các biện pháp kiểm soát xuất khẩu của Mỹ đang cản trở sự phát triển AI của Trung Quốc, khi công ty này tung ra các mô hình đạt hiệu suất ngang bằng hoặc vượt các mô hình hàng đầu của Mỹ với chi phí thấp hơn đáng kể. Trước sức ép cạnh tranh từ DeepSeek, Google đã triển khai các gói truy cập giảm giá cho Gemini, trong khi OpenAI cắt giảm chi phí và tung ra mô hình o3 Mini sử dụng ít năng lực tính toán hơn.

DeepSeek được kỳ vọng sẽ sớm công bố mô hình R2 – phiên bản kế tiếp của R1. Truyền thông trước đó đưa tin R2 dự kiến ra mắt trong tháng 5. Cũng trong tháng 3, DeepSeek đã phát hành bản nâng cấp cho mô hình ngôn ngữ lớn V3 của mình./.

Hoàng Châu

Trí tuệ nhân tạo: DeepSeek tăng tốc cuộc đua AI với bản nâng cấp mô hình R1

sự kiện

DeepSeek gây chấn động ngành công nghệ