DeepSeek mới đây đã chính thức công bố một mô hình AI mã nguồn mở mới, Janus-Pro-7B.
Mô hình này có khả năng tạo hình ảnh và vượt trội so với DALL-E 3 của OpenAI và Stable Diffusion trên nhiều tiêu chuẩn đánh giá.
Gần như ngay lập tức, các cổ phiếu công nghệ trên TTCK Mỹ, tiêu biểu là Nvidia đã kết thúc ngày giao dịch giảm 17%, chính thức xóa sạch 590 tỷ USD vốn hóa thị trường. Đây là mức giảm vốn hóa trong một ngày lớn nhất trong lịch sử đối với một cổ phiếu.

Vậy DeepSeek là gì mà lại gây tác động lớn đến như vậy?
DeepSeek có thể xem là cái tên mới và nổi bật nhất từ Trung Quốc, đang khiến Silicon Valley thực sự xôn xao. Thuật toán mô hình machine learning mà họ phát triển gần như đã đạt được sức mạnh tương đương với các mô hình được tạo ra bởi các startup và tập đoàn công nghệ Mỹ. Điều đặc biệt là DeepSeek đạt được điều này dù phải sử dụng các con chip xử lý máy chủ có hiệu năng thấp hơn rất nhiều so với những gì các startup phương Tây được tiếp cận và sử dụng.

DeepSeek đã phát triển một mô hình AI với chi phí thấp hơn 96% và hiệu quả cao hơn so với các mô hình như ChatGPT của OpenAI. Điều này đã làm lung lay niềm tin vào sự thống trị công nghệ của Mỹ, khi DeepSeek có thể đạt được thành công đáng kể ngay cả khi chỉ sử dụng các chip yếu hơn, chẳng hạn như Nvidia H800, vốn được Nvidia hạ cấp sức mạnh để tuân thủ lệnh cấm của Mỹ, thay vì những mẫu chip AI mạnh nhất thị trường như H100.
Trong số 7 startup AI lớn của Trung Quốc, DeepSeek nổi bật dù ít khi công khai thông tin, nhưng luôn để lại dấu ấn mạnh mẽ. Khác với nhiều công ty lớn tiêu tốn ngân sách qua các khoản trợ cấp, DeepSeek đã tự chủ tài chính và nhanh chóng đạt được lợi nhuận. Thành công này đến từ sự đổi mới toàn diện trong kiến trúc mô hình AI của công ty, đặc biệt là việc phát minh ra kiến trúc MLA (multi-head latent attention) giúp giảm mức sử dụng bộ nhớ từ 5-13% so với kiến trúc MHA hiện tại của các LLM hàng đầu thế giới. Bên cạnh đó, cấu trúc DeepSeekMoESparse còn giúp giảm chi phí tính toán và tổng chi phí.
Theo một số nguồn tin, tại Thung lũng Silicon, DeepSeek được gọi là “thế lực bí ẩn từ phương Đông” kể từ khi mô hình DeepSeek V2 ra mắt vào năm ngoái. Các nhà phân tích của SemiAnalysis khi đó đã nhận định đây là “mô hình ấn tượng nhất năm”, còn Andrew Carr, cựu nhân viên OpenAI, đánh giá sản phẩm là “rất trí tuệ và đáng kinh ngạc”. Jack Clark, cựu giám đốc chính sách của OpenAI và đồng sáng lập Anthropic, tin rằng DeepSeek đã “tập hợp một nhóm thiên tài vượt xa sự tưởng tượng” để phát triển các mô hình, và so sánh chúng với quy mô lớn của máy bay không người lái và ô tô điện.