Công ty khởi nghiệp Cerebras Systems đã phát triển bộ xử lý có kích thước chỉ bằng cỡ máy tính bảng iPad, nó được gọi là Wafer Scale Engine.
Hôm 27 tháng 8, 2024 , họ đã công bố một dịch vụ cho phép khách hàng sử dụng chip của mình cho các chương trình AI của công ty. Sự khác biệt chính là công nghệ của họ có thể chạy các chương trình AI nhanh hơn tới 20 lần nhưng với chi phí chỉ bằng một phần năm so với GPU H100 của hãng Nvidia.
Được gọi là Cerebras Inference, dịch vụ này đề cập đến khả năng tạo dữ liệu mới của chương trình AI, như dự đoán từ tiếp theo trong khi viết một đoạn văn bản. Cerebras cho biết nền tảng riêng của họ là “giải pháp suy luận AI nhanh nhất trên thế giới”. Để chứng minh điều này, công ty đang sử dụng chip Wafer Scale Engine để cung cấp năng lượng cho mô hình ngôn ngữ lớn mã nguồn mở Llama 3.1 của Meta. Kết quả có thể làm cho Llama 3.1 cung cấp câu trả lời dường như không có độ trễ.
Wafer Scale Engine, hình của hãng Cerebas System
Cụ thể, Cerebras cho biết chip của họ có thể chạy phiên bản tham số 8 tỷ của Llama 3.1 để tạo ra 1.800 mã thông báo mỗi giây, với mỗi mã thông báo đại diện cho khoảng bốn ký tự bằng tiếng Anh. Nói cách khác, chương trình AI có thể tạo ra một bài báo dài 1.300 từ trong một giây.
Trong khi đó, các chip tương tự cũng có thể chạy phiên bản tham số 70 tỷ mạnh hơn của Llama 3.1 để tạo ra 450 mã thông báo mỗi giây. Trong cả hai điểm chuẩn, Cerebras tuyên bố công nghệ của họ vượt xa hiệu suất mã thông báo mỗi giây của các nhà cung cấp đám mây AI, bao gồm AWS của Amazon, Microsoft Azure và Groq.
Cerebras đã xây dựng chip Wafer Scale Engine của mình bằng TSMC của Đài Loan, nhà sản xuất chip hợp đồng đứng sau GPU AI của Nvidia. Vào tháng 3, Cerebras đã giới thiệu chip thế hệ thứ ba, WSE-3, tự hào có 4 nghìn tỷ bóng bán dẫn, cùng với 900.000 lõi AI.
Trong thế giới kinh doanh, khả năng chạy suy luận với tốc độ chưa từng có mở ra những cơ hội mới cho việc phân tích và ra quyết định theo thời gian thực.
Các công ty có thể triển khai các hệ thống AI phân tích xu hướng thị trường, hành vi của khách hàng và dữ liệu hoạt động trong thời gian thực, cho phép họ phản ứng với những thay đổi trên thị trường một cách nhanh nhẹn và chính xác. Điều này có thể dẫn đến một làn sóng chiến lược kinh doanh dựa trên AI mới, với các công ty tận dụng thông tin chi tiết theo thời gian thực để đạt được lợi thế cạnh tranh.
Cerebras nhỏ hơn nhiều so với Nvidia. Năm 2023, Cerebras báo cáo doanh thu 78,7 triệu USD – tăng 220% so với cùng kỳ năm ngoái. Hơn nữa, công ty đã tạo ra doanh thu 136 triệu đô la trong sáu tháng đầu năm 2024.
Mặc dù tốc độ tăng trưởng này rất ấn tượng, nhưng công ty không ở gần quy mô và quy mô của Nvidia. Trên hết, gần 90% doanh thu của Cerebras bắt nguồn từ một khách hàng.
Nó cho thấy rằng mặc dù kiến trúc WSE có rất nhiều tiềm năng, nhưng chưa nhất thiết đạt được nhiều chú ý. Về lâu dài, tôi nghĩ rằng các công ty có thể quan tâm đến việc áp dụng các thiết kế chip mới khi đầu tư vào cơ sở hạ tầng công nghệ thông tin tiếp tục tăng trong những năm tới. Nhưng hiện tại, tôi không thấy khách hàng Nvidia lũ lượt rời đi qua đêm để thử một loại chip tương đối mới và có phần nào rủi ro.
Tạp Chí The Register – Ghi Danh Số
Tính khả dụng của WSE Chip
Tương tự như Groq, Cerebras có kế hoạch cung cấp dịch vụ suy luận thông qua API tương thích với OpenAI. Ưu điểm của phương pháp này là các nhà phát triển đã xây dựng ứng dụng xung quanh GPT-4, Claude, Mistral hoặc các mô hình đám mây khác không phải cấu trúc lại mã của họ để kết hợp dịch vụ suy luận của Cerebra.
Về chi phí, Cerebras cũng đang hạ giá so với các đối thủ cạnh tranh, hãng cung cấp Llama3-70B với mức giá 60 xu cho một triệu mã thông báo. Và, nếu bạn thắc mắc, thì đó là giả sử tỷ lệ đầu vào so với đầu ra là 3:1.
Để so sánh, Cerebras tính chi phí phục vụ cùng một mô hình trên H100 trên các đám mây cạnh tranh là 2,90 đô la/triệu mã thông báo. Tuy nhiên, như thường lệ với suy luận AI, có rất nhiều nút và đòn bẩy để xoay tác động trực tiếp đến chi phí và hiệu suất phục vụ một mô hình, vì vậy hãy xem xét kỹ các tuyên bố của Cerebra.
Tuy nhiên, không giống như Groq, Feldman cho biết Cerebras sẽ tiếp tục cung cấp các hệ thống tại chỗ cho một số khách hàng nhất định, chẳng hạn như những khách hàng hoạt động trong các ngành được quản lý chặt chẽ trong nhà.
Mặc dù Cerebras có thể có lợi thế về hiệu suất so với các máy gia tốc cạnh tranh, nhưng dịch vụ cung cấp vẫn còn hạn chế về các mô hình được hỗ trợ. Khi ra mắt, Cerebras hỗ trợ cả phiên bản tám và 70 tỷ tham số của Llama 3.1. Tuy nhiên, công ty khởi nghiệp này có kế hoạch bổ sung hỗ trợ cho 405B, Mistral Large 2, Command R+, Whisper, Perplexity Sonar cũng như các mô hình được tinh chỉnh tùy chỉnh. ®