1. Vai trò trung tâm: Từ CPU đến AI Core
Trong một SoC thông thường, CPU được ví như “trái tim” của toàn bộ hệ thống. CPU điều phối hoạt động, thực hiện các tác vụ xử lý điều khiển, luồng dữ liệu và tính toán tổng quát. Tuy nhiên, trong AI chip, vai trò trung tâm này đã được chuyển giao cho một tổ hợp các khối xử lý chuyên biệt, mà chúng ta có thể gọi chung là AI core. AI core không đơn thuần là một bộ xử lý duy nhất mà là sự kết hợp giữa nhiều phần tử như TPU (Tensor Processing Unit), NPU (Neural Processing Unit), FPU (Floating Point Unit) và các bộ xử lý học máy khác như Trainium, T-head hay Athena. GPU vẫn đóng vai trò quan trọng trong các phép toán song song quy mô lớn, trong khi TPU và NPU được thiết kế đặc biệt để tăng tốc các phép nhân ma trận và tác vụ học sâu với hiệu suất năng lượng cao hơn. FPGA cho phép khả năng cấu hình linh hoạt theo thuật toán cụ thể. FPU xử lý các phép toán dấu phẩy động chính xác cao, cần thiết cho huấn luyện mô hình. CPU đóng vai trò điều phối luồng dữ liệu và thực thi các tác vụ điều khiển logic tổng quát.
2. Các khối tăng tốc chuyên dụng cho Huấn luyện và Suy luận
Bên cạnh các khối xử lý, AI chip hiện đại cũng bao gồm các bộ tăng tốc inference/training chuyên dụng do từng hãng thiết kế: chẳng hạn như Trainium và Inferentia của Amazon, MTIA của Meta, T-head của Alibaba, hoặc Athena ASIC. Các khối này thường là ASIC được tối ưu hóa riêng cho các mạng nơ-ron phổ biến, giúp tiết kiệm điện năng và giảm độ trễ trong suy luận.
3. Kiến trúc bộ nhớ đa tầng
Về mặt bộ nhớ, AI chip được kết nối trực tiếp với nhiều loại bộ nhớ tốc độ cao: HBM (High Bandwidth Memory) đóng vai trò quan trọng nhờ khả năng cung cấp băng thông cực lớn cho huấn luyện mô hình; DDR/LPDDR phục vụ các tác vụ bộ nhớ thông thường; LPU/HPUL Memory là các khối bộ nhớ nội bộ tốc độ cao và được tinh chỉnh để hoạt động hiệu quả với các khối xử lý AI. Sự hiện diện của các tầng bộ nhớ khác nhau giúp tối ưu hiệu năng và độ trễ truy xuất dữ liệu.
4. Hệ thống kết nối nội bộ tốc độ cao
Tất cả các khối trên được kết nối thông qua một hệ thống liên kết nội bộ tốc độ cao (interconnect & fabric), có thể bao gồm cả bus chuyên dụng và NoC (Network-on-Chip). Điều này đảm bảo dữ liệu di chuyển mượt mà giữa các khối xử lý, bộ nhớ và các pipeline suy luận/huấn luyện.
5. So sánh kiến trúc: AI Chip và SoC truyền thống
Xét về kiến trúc tổng thể, AI chip thể hiện nhiều điểm khác biệt so với SoC truyền thống. SoC truyền thống thường được thiết kế theo hướng đa năng, phục vụ cho nhiều loại tác vụ như chạy hệ điều hành, quản lý giao diện người dùng, xử lý tín hiệu hoặc điều khiển thiết bị. Do đó, SoC chủ yếu tích hợp CPU, một hoặc vài nhân GPU, bộ xử lý DSP, và bộ nhớ DRAM phổ thông (DDR/LPDDR).
Trong khi đó, AI chip được xây dựng với mục tiêu tối ưu cho các tác vụ AI, đặc biệt là huấn luyện và suy luận các mô hình học sâu. Thay vì chỉ dựa vào GPU hay CPU, AI chip tích hợp nhiều lớp xử lý chuyên dụng như TPU, NPU, ASIC inference core và FPGA để đáp ứng nhu cầu tính toán ma trận, vector hóa và truyền dữ liệu song song. Khả năng tùy biến theo ứng dụng cụ thể được đẩy lên một mức độ cao hơn, đặc biệt trong các chip do các hãng lớn tự thiết kế để chạy mô hình nội bộ (ví dụ như Inferentia của Amazon hay MTIA của Meta).
6. Khác biệt về kiến trúc bộ nhớ
Bên cạnh đó, bộ nhớ trong AI chip được thiết kế với các tầng rõ rệt: HBM cho tốc độ cao gần khối tính toán, bộ nhớ cục bộ nội bộ (LPU/HPUL), và các kênh truy cập bộ nhớ tối ưu hóa theo mô hình truy cập của AI. Điều này khác biệt đáng kể với SoC, nơi bộ nhớ thường mang tính chia sẻ và không tối ưu cho truy cập đồng thời tốc độ cao.
7. Khác biệt về hệ thống kết nối
Một điểm then chốt khác là hệ thống kết nối nội bộ. Trong khi SoC thường chỉ cần giao tiếp mức moderate giữa CPU-GPU-RAM, thì AI chip đòi hỏi kết nối tốc độ cực cao giữa nhiều khối xử lý hoạt động đồng thời. Do đó, AI chip sử dụng các cấu trúc NoC tiên tiến hoặc mesh-fabric để đảm bảo tính mở rộng và phân phối dữ liệu hiệu quả trong môi trường tính toán song song quy mô lớn.
