Theo báo WSJ và các báo Hoa Kỳ
Sự xuất hiện của DeepSeek đã làm rung chuyển Phố Wall. Ảnh: Yuki Iwamura/Bloomberg News
SINGAPORE—Hãy lấy một nhóm kỹ sư trẻ người Trung Quốc, được một ông chủ coi thường kinh nghiệm thuê. Thêm một số phím tắt lập trình thông minh và một lỗ hổng trong các quy tắc của Hoa Kỳ cho phép họ có được chip tiên tiến. Đó chính là công thức mà DeepSeek của Trung Quốc đã sử dụng để khiến thế giới chấn động với các chương trình trí tuệ nhân tạo của mình.
Tư duy thông thường cho rằng việc phát triển AI hàng đầu đòi hỏi rất nhiều chip máy tính tiên tiến, đắt tiền—và các công ty Trung Quốc sẽ gặp khó khăn trong việc cạnh tranh vì họ không thể có được những con chip đó. DeepSeek đã thách thức những dự đoán đó bằng sự tháo vát dẫn đến cuộc tắm máu trị giá 1 nghìn tỷ đô la trên Phố Wall và đang thúc đẩy Thung lũng Silicon suy nghĩ lại về cách tiếp cận của mình.
Theo Tổng thống Trump, công ty Trung Quốc này cũng đã gửi lời cảnh tỉnh tới Washington, khi chính quyền của ông sắp quyết định trong những tháng tới về việc nên làm gì đối với các chính sách thời Biden hạn chế khả năng tiếp cận của Trung Quốc đối với những con chip AI tốt nhất.
Người đứng đầu DeepSeek, Liang Wenfeng, đã xây dựng công ty của mình tại trung tâm công nghệ Hàng Châu, cùng thành phố với gã khổng lồ công nghệ Alibaba . Công ty AI này phát triển từ một quỹ đầu cơ do Liang đồng sáng lập , sử dụng AI để tìm kiếm các giao dịch có lợi nhuận trên thị trường tài chính. Trong một cuộc phỏng vấn với một ấn phẩm Trung Quốc năm 2023, Liang cho biết hầu hết các vị trí kỹ thuật đều do những người mới tốt nghiệp hoặc những người có một hoặc hai năm kinh nghiệm đảm nhiệm.
Ông cho biết, kinh nghiệm là một trở ngại tiềm tàng. “Khi làm một việc gì đó, những người có kinh nghiệm sẽ không ngần ngại nói với bạn rằng bạn nên làm theo cách này, nhưng những người thiếu kinh nghiệm sẽ phải liên tục tìm hiểu và suy nghĩ nghiêm túc về cách thực hiện, sau đó tìm ra giải pháp phù hợp với tình hình thực tế hiện tại”, Liang nói.
Những gì họ đưa ra hiện đang được những người giỏi nhất và thông minh nhất ở Thung lũng Silicon nghiên cứu.
Cho đến gần đây, các mô hình AI tiên phong nằm sau các chương trình như ChatGPT của OpenAI được đào tạo trên một tập hợp lớn các văn bản, hình ảnh và dữ liệu khác. Họ sử dụng các thuật toán chuyên biệt để tìm ra các mẫu mà một chatbot có thể sử dụng để duy trì cuộc trò chuyện.
DeepSeek đã đưa ra lời cảnh tỉnh cho Washington. Ảnh: Justin Sullivan/Getty Images
Chiến thuật của DeepSeek là cắt giảm quá trình xử lý dữ liệu cần thiết để đào tạo các mô hình, bằng cách sử dụng một số phát minh của riêng mình và các kỹ thuật được các công ty AI Trung Quốc có hạn chế tương tự áp dụng .
Hãy tưởng tượng các phiên bản trước của ChatGPT như một thủ thư đã đọc hết tất cả các cuốn sách trong thư viện, Lennart Heim, người nghiên cứu AI tại viện nghiên cứu Rand, cho biết. Khi được hỏi một câu hỏi, nó sẽ đưa ra câu trả lời dựa trên nhiều cuốn sách đã đọc.
Quá trình này tốn thời gian và tốn kém. Phải dùng chip máy tính ngốn điện để đọc những cuốn sách đó.
DeepSeek đã áp dụng một cách tiếp cận khác. Thủ thư của họ không đọc hết tất cả các cuốn sách nhưng được đào tạo để tìm ra cuốn sách phù hợp cho câu trả lời sau khi được hỏi một câu hỏi.
Trên hết là một kỹ thuật khác, được gọi là “tổng hợp các chuyên gia”. Thay vì cố gắng tìm một thủ thư có thể nắm vững các câu hỏi về bất kỳ chủ đề nào, DeepSeek và một số nhà phát triển AI khác thực hiện một điều tương tự như việc phân công các câu hỏi cho một danh sách các chuyên gia trong các lĩnh vực cụ thể, chẳng hạn như tiểu thuyết, tạp chí và nấu ăn. Mỗi chuyên gia cần ít đào tạo hơn, giúp giảm nhu cầu về chip để làm mọi thứ cùng một lúc.
Cách tiếp cận của DeepSeek đòi hỏi ít thời gian và năng lượng hơn trước khi câu hỏi được đặt ra, nhưng sử dụng nhiều thời gian và năng lượng hơn khi trả lời. Heim cho biết, xét cho cùng, các phím tắt của DeepSeek giúp đào tạo AI với chi phí chỉ bằng một phần nhỏ so với các mô hình cạnh tranh.
Jensen Huang, CEO của Nvidia, cổ phiếu của công ty này đã giảm mạnh vào thứ Hai. Ảnh: steve marcus/Reuters
Phần còn lại là sự ra đời khó khăn của các biện pháp kiểm soát xuất khẩu của Hoa Kỳ, tạo cơ hội cho DeepSeek mua được những con chip mạnh mẽ của Mỹ.
Chính quyền Biden vào năm 2022 đã áp dụng các biện pháp kiểm soát đối với chip xuất khẩu sang Trung Quốc. Các công ty Hoa Kỳ muốn bán cho Trung Quốc trước tiên cần phải hạn chế chức năng của chip được gọi là băng thông kết nối, tức là tốc độ truyền dữ liệu.
Để đáp lại, Nvidia , nhà thiết kế chip AI hàng đầu thế giới, đã đưa ra một sản phẩm mới cho Trung Quốc tuân thủ thông số này nhưng bù lại bằng cách duy trì hiệu suất cao theo những cách khác. Điều đó dẫn đến một con chip mà một số nhà phân tích cho biết gần như mạnh mẽ như con chip tốt nhất của Nvidia tại thời điểm đó.
Các quan chức Hoa Kỳ đã công khai và riêng tư nói rằng mặc dù Nvidia không vi phạm luật, nhưng họ đã phá vỡ tinh thần của luật. Chính phủ đã hy vọng rằng các nhà lãnh đạo ngành sẽ hợp tác trong việc thiết kế các biện pháp kiểm soát xuất khẩu hiệu quả đối với công nghệ thay đổi nhanh chóng, một cựu quan chức cấp cao của chính quyền Biden cho biết.
Một năm sau các biện pháp kiểm soát ban đầu, chính phủ đã thắt chặt các quy định. Tuy nhiên, điều đó vẫn để lại khoảng một năm để DeepSeek mua chip thị trường Trung Quốc mạnh mẽ của Nvidia, được gọi là H800. Trong một bài báo nghiên cứu được công bố vào tháng 12, DeepSeek cho biết họ đã sử dụng 2.048 chip này để đào tạo một trong những mô hình AI của mình.
Kể từ khi các quy định được sửa đổi vào năm 2023, Nvidia đã thiết kế một loại chip mới tuân thủ quy định kiểm soát xuất khẩu dành cho Trung Quốc, có công suất yếu hơn đáng kể so với H800.
Một số nhà lãnh đạo ngành AI của Mỹ tỏ ra nghi ngờ rằng DeepSeek đã tiết lộ toàn bộ bí mật của mình. Họ cho biết các nhà nghiên cứu Trung Quốc có thể đã tích trữ chip Nvidia tiên tiến trước khi Hoa Kỳ áp dụng các hạn chế hoặc sử dụng các giải pháp thay thế như truy cập vào sức mạnh tính toán hỗ trợ Nvidia từ các quốc gia bên ngoài Hoa Kỳ và Trung Quốc. Chính quyền Biden trong những ngày cuối cùng đã triển khai các quy tắc mới để giải quyết những điểm mù như vậy.