Sự đột phá của các dòng máy lớn dựa trên sự cải thiện sức mạnh tính toán phần cứng và khả năng điện toán đám mây, NVIDIA H100 vốn được coi là "quả bom hạt nhân" GPU đang đối mặt với tình trạng thiếu hụt nghiêm trọng nhất trong lịch sử. Sam Altman đã trực tiếp tuyên bố rằng việc thiếu GPU sẽ hạn chế tốc độ nâng cấp công nghệ của OpenAI về khả năng tinh chỉnh, dung lượng chuyên dụng, cửa sổ ngữ cảnh 32K và tính đa phương thức.
Bài viết này được tổng hợp từ GPU Utils, tác giả chủ yếu thảo luận về thời gian tồn tại của GPU (đặc biệt là NVIDIA H100) từ góc độ cung và cầu.
Từ góc độ nhu cầu, NVIDIA H100 chắc chắn là một nhu cầu khắt khe để đào tạo các mô hình lớn, theo ước tính, nhu cầu H100 hiện tại trên thị trường là khoảng 432.000 chiếc, tương đương với tổng giá trị khoảng 35.000 đô la Mỹ mỗi chiếc. Với GPU $15 tỷ**, con số 432.000 không bao gồm các công ty như ByteDance (TikTok), Baidu và Tencent cần rất nhiều H800.
Về phía nguồn cung, sự thiếu hụt H100 trực tiếp bị hạn chế bởi năng lực sản xuất của TSMC và trong thời gian ngắn, NVIDIA không có nhà máy sản xuất chip thay thế nào khác. Do các lô hàng hạn chế, NVIDIA cũng có chiến lược riêng về cách phân bổ các GPU này.Đối với NVIDIA, làm thế nào để đảm bảo rằng các GPU hạn chế này sẽ đến tay những chú ngựa ô AI thay vì các đối thủ tiềm năng như Google, Microsoft và AWS là rất quan trọng.
Cuộc chạy đua vũ trang AI quanh H100 này sẽ kéo dài bao lâu? Câu trả lời vẫn chưa rõ ràng. Mặc dù NVIDIA cho biết sẽ tăng nguồn cung trong nửa cuối năm nhưng có vẻ như tình trạng thiếu GPU có thể tiếp diễn cho đến năm 2024.
Xung quanh việc khan hiếm H100, thị trường có thể bước vào một "vòng luẩn quẩn": khan hiếm khiến dung lượng GPU bị các công ty AI coi là con hào, dẫn đến tích trữ GPU nhiều hơn, càng làm trầm trọng thêm tình trạng khan hiếm GPU.
** Sau đây là mục lục của bài viết này, nên đọc kết hợp với các điểm chính. **
👇
01 nền
02 Phân tích yêu cầu cho H100
03 H100 Phân tích bên cung
04 Cách nhận H100
05 Tóm tắt
01.Nền
Cho đến tháng 8 năm 2023, sự phát triển của lĩnh vực trí tuệ nhân tạo đã bị hạn chế do tắc nghẽn nguồn cung cấp GPU.
"Một trong những lý do khiến sự bùng nổ của AI bị đánh giá thấp là sự thiếu hụt GPU/TPU. Sự thiếu hụt GPU và TPU hạn chế tốc độ giới thiệu sản phẩm và tiến độ đào tạo mô hình, nhưng những hạn chế này bị che giấu. Chúng tôi chủ yếu thấy giá cổ phiếu của NVIDIA tăng vọt , chứ không phải là kìm hãm tiến độ R&D, mọi thứ sẽ cải thiện khi cung cầu cân bằng.
—Adam D'Angelo, CEO của Quora, Poe.com, cựu CTO của Facebook
Đây là những CEO và công ty quan trọng nhất đối với cung và cầu GPU và AI
Sam Altman cho rằng sự thiếu hụt GPU đã hạn chế tiến độ của các dự án OpenAI, chẳng hạn như tinh chỉnh, dung lượng chuyên dụng, cửa sổ ngữ cảnh 32K, đa phương thức, v.v.
Các cụm H100 quy mô lớn của các nhà cung cấp đám mây lớn và nhỏ sắp hết dung lượng.
"Mọi người đều muốn NVIDIA tạo ra nhiều A/H100 hơn."
Thông tin từ giám đốc điều hành nhà cung cấp đám mây
"Do tình trạng thiếu GPU hiện tại, tốt hơn cho OpenAI là ít người sử dụng sản phẩm của chúng tôi hơn";
"Chúng tôi thực sự sẽ rất vui nếu mọi người sử dụng các sản phẩm OpenAI ít hơn vì chúng tôi không có đủ GPU."
—Sam Altman, Giám đốc điều hành, OpenAI
Một mặt, những lời của Sam Altman thể hiện một cách tinh tế rằng các sản phẩm của OpenAI đã được người dùng trên toàn thế giới yêu thích, nhưng đồng thời, nó cũng cho thấy thực tế rằng OpenAI cần nhiều GPU hơn để tiếp tục phát huy và nâng cấp các chức năng của nó.
Azure và Microsoft cũng đang đối mặt với tình huống tương tự, và một người giấu tên đã đề cập:
• Công ty đang hạn chế nhân viên sử dụng GPU, và mọi người phải xếp hàng đăng ký sức mạnh tính toán như sinh viên đại học những năm 1970 để được sử dụng máy tính. Theo quan điểm của tôi, OpenAI hiện đang hút hết tài nguyên GPU;
• Vào tháng 6 năm nay, sự hợp tác giữa Microsoft và CoreWeave về cơ bản là để tăng cường cung cấp năng lượng điện toán/GPU của Microsoft.
CoreWeave:
Các nhà cung cấp dịch vụ điện toán đám mây, theo trang web chính thức của CoreWeave, dịch vụ của họ rẻ hơn 80% so với các nhà cung cấp điện toán đám mây truyền thống. Vào tháng 4 năm 2023, CoreWeave đã nhận được khoản đầu tư vòng B của NVIDIA và thu được một số lượng lớn thẻ H100 mới. Vào tháng 6, Microsoft cũng đã ký một thỏa thuận với CoreWeave, Microsoft sẽ đầu tư hàng tỷ đô la trong vài năm tới để xây dựng cơ sở hạ tầng điện toán đám mây.
Vào tháng 7, CoreWeave đã hợp tác với NVIDIA khởi động dự án siêu máy tính AI nhanh nhất thế giới và Inflection AI đã tạo ra một trong những mô hình ngôn ngữ quy mô lớn phức tạp nhất thế giới trên CoreWeave Cloud bằng cách sử dụng cơ sở hạ tầng hỗ trợ gửi MLPerf. Ngoài ra, CoreWeave đã sử dụng thẻ tăng tốc NVIDIA H100 trong tay làm tài sản thế chấp và thông báo vào tháng 8 rằng họ đã hoàn tất khoản tài trợ nợ 2,3 tỷ USD.
Tóm lại, nguồn cung cấp GPU H100 đã khá ngắn. Thậm chí còn có tin đồn rằng **Azure và GCP trên thực tế đã hết dung lượng và AWS sắp hết dung lượng. **
Nguyên nhân của sự thiếu hụt là do NVIDIA chỉ cung cấp rất nhiều GPU H100 cho các nhà cung cấp đám mây này, do sản lượng GPU H100 của NVIDIA không thể đáp ứng nhu cầu, sức mạnh tính toán mà các nhà cung cấp đám mây này có thể cung cấp đương nhiên sẽ bắt đầu bị thiếu hụt.
Nếu muốn hiểu nút cổ chai của sức mạnh tính toán, bạn có thể tập trung vào các câu hỏi sau:
• Nguyên nhân cụ thể của tình trạng này là gì? :
Nhu cầu lớn như thế nào? Ví dụ, nhu cầu về trí tuệ nhân tạo đang tăng tương đối nhanh trong lĩnh vực nào;
Nguồn cung cấp lớn như thế nào? Năng lực sản xuất của các nhà sản xuất GPU như NVIDIA có đủ đáp ứng nhu cầu hay không;
• Tình trạng thiếu hụt này sẽ kéo dài bao lâu? Khi nào cung và cầu GPU sẽ dần đạt đến điểm cân bằng?
• Có những cách nào để khắc phục tình trạng thiếu hụt này một cách hiệu quả?
02.H100 Phân tích yêu cầu
Phân tích các vấn đề chính về tắc nghẽn năng lượng điện toán từ phía nhu cầu:
Cụ thể, thứ mà mọi người muốn mua nhưng gặp khó khăn trong việc mua là gì?
Nhu cầu GPU trên thị trường hiện tại lớn như thế nào?
Tại sao các doanh nghiệp thích NVIDIA H100 hơn các GPU khác?
Hiện nay trên thị trường có những loại GPU nào?
Doanh nghiệp có thể mua GPU ở đâu? giá của họ là gì?
**Ai là người có nhu cầu về H100? **
Doanh nghiệp có nhu cầu trên 1.000 H100 hoặc A100:
• LLM đào tạo khởi nghiệp:
OpenAI (thông qua Azure), Anthropic, Inflection (thông qua Azure và CoreWeave), Mistral AI;
• Nhà cung cấp dịch vụ đám mây (CSP):
Ngoài ba gã khổng lồ Azure, GCP và AWS, còn có các nhà cung cấp đám mây Oracle và GPU như CoreWeave và Lambda;
• Những gã khổng lồ công nghệ khác:
Ví dụ: Tesla (**chọn ghi chú: **Meta, Apple và những gã khổng lồ khác mà tác giả gốc không đề cập ở đây cũng có nhu cầu rất lớn về GPU, Google chủ yếu sử dụng TPU để xử lý tính toán và nhu cầu về H100 là chủ yếu Nền tảng đám mây của Google).
Ngoài các công ty trên, nếu công ty có nhu cầu tinh chỉnh LLM nhiều thì cũng cần đặt trước ít nhất 100 H100 hoặc A100.
Đối với các công ty áp dụng đám mây riêng (CoreWeave, Lambda) và các công ty có hàng trăm đến hàng nghìn cổ phiếu H100, họ gần như chủ yếu phải đối mặt với công việc của LLM và một số mô hình khuếch tán (Mô hình khuếch tán). Một số công ty chọn cách tinh chỉnh các mô hình hiện có, nhưng nhiều công ty khởi nghiệp AI đang xây dựng các mô hình lớn mới của riêng họ từ đầu. **Các công ty này thường ký hợp đồng với các nhà cung cấp dịch vụ đám mây tư nhân trong khoảng 10-50 triệu USD trong 3 năm và sử dụng vài trăm đến vài nghìn GPU. **
Đối với các công ty chỉ sử dụng một số lượng nhỏ GPU H100 theo yêu cầu, các tác vụ liên quan đến LLM chiếm một phần lớn mức sử dụng GPU của họ và LLM có thể sử dụng hơn 50% GPU.
Hiện tại, private cloud đang được các doanh nghiệp ưa chuộng và mặc dù các doanh nghiệp này thường chọn mặc định là các nhà cung cấp dịch vụ đám mây lớn nhưng họ cũng đứng trước nguy cơ bị đào thải.
**• Các phòng thí nghiệm AI lớn có bị hạn chế hơn bởi các nhiệm vụ suy luận hoặc nhiệm vụ đào tạo không? **
Câu hỏi này phụ thuộc vào mức độ hấp dẫn của sản phẩm của họ. Nói cách khác, sức hấp dẫn của các sản phẩm của công ty là rất quan trọng trong việc xác định phân bổ nguồn lực, trong trường hợp nguồn lực hạn chế, các ưu tiên về lý luận và đào tạo thường có điểm nhấn riêng. Quan điểm của Sam Altman là nếu phải đưa ra lựa chọn, OpenAI thiên về tăng cường khả năng suy luận, nhưng hiện tại OpenAI đang bị hạn chế ở cả hai khía cạnh.
Tại sao chỉ cần H100 để đào tạo LLM
Hầu hết thị trường hiện tại đều sử dụng GPU NVIDIA H100. Điều này là do GPU H100 nhanh nhất về đào tạo và suy luận LLM, đồng thời nó cũng có hiệu suất chi phí suy luận tốt nhất. Cụ thể, hầu hết các doanh nghiệp đều lựa chọn sử dụng máy chủ 8 GPU HGX H100 SXM.
Theo mình phân tích thì cùng 1 công việc thì H100 có lợi thế hơn về giá thành. GPU V100 là một lựa chọn tốt nếu bạn có thể tìm thấy một thiết bị đã qua sử dụng, nhưng điều đó thường không khả thi.
—— một người ẩn danh
Về mặt suy luận, chúng tôi nhận thấy GPU A10G là quá đủ và rẻ hơn nhiều.
—— Giám đốc điều hành đám mây riêng
Chúng tôi nhận thấy rằng Falcon 40b và llama2 70b cũng đang được sử dụng nhiều nên tuyên bố này không còn chính xác nữa. Do đó, tốc độ kết nối là rất quan trọng đối với các nhiệm vụ suy luận.
— (Khác) Giám đốc điều hành đám mây riêng
Chim ưng 40b :
Falcon là một mô hình ngôn ngữ lớn cơ bản với 40 tỷ tham số, Falcon 40b nhằm mục đích sử dụng ít sức mạnh tính toán đào tạo hơn để đạt được kết quả tốt hơn, mô hình chỉ chiếm 75% điện toán đào tạo GPT-3, 40% của Chinchilla và PaLM-62B 80% đào tạo. Vào ngày 25 tháng 5 năm 2023, Viện Đổi mới Công nghệ Các Tiểu vương quốc Ả Rập Thống nhất thông báo rằng họ sẽ mở nguồn Falcon 9 để nghiên cứu và sử dụng cho mục đích thương mại. Sau khi phát hành, nó từng đứng đầu danh sách LLM mã nguồn mở Hugging Face.
**• Nhu cầu chung của các nhóm doanh nhân LLM là gì? **
**Đối với các công ty khởi nghiệp LLM, họ thường chọn GPU H100 với InfiniBand 3,2Tb/giây để đào tạo LLM. Mặc dù hầu hết mọi người thích H100 hơn trong buổi đào tạo, nhưng trong buổi suy luận, các công ty này chú ý nhiều hơn đến hiệu suất chi phí, tức là hiệu suất được tạo ra trên mỗi đô la. **
Vẫn còn một số vấn đề về hiệu suất trên mỗi đô la của GPU H100 so với A100, nhưng H100 vẫn được ưa chuộng hơn vì khả năng mở rộng tốt hơn và thời gian đào tạo nhanh hơn, trong khi tốc độ/nén bắt đầu, đào tạo hoặc cải thiện Thời gian mô hình là rất quan trọng đối với công ty khởi nghiệp.
"Đối với đào tạo nhiều nút, tất cả chúng đều yêu cầu GPU A100 hoặc H100 với kết nối mạng InfiniBand. Yêu cầu duy nhất không phải A/H100 mà chúng tôi quan sát thấy là dành cho suy luận, trong đó khối lượng công việc là một GPU hoặc một nút."
—— Giám đốc điều hành đám mây riêng
Các yếu tố chính ảnh hưởng đến đào tạo LLM là:
**• Băng thông bộ nhớ: **Khi đối mặt với một lượng lớn dữ liệu được tải từ bộ nhớ, băng thông bộ nhớ cao hơn có thể tăng tốc độ tải dữ liệu;
**• Công suất tính toán của mô hình (FLOPS, phép tính dấu phẩy động trên giây): ** Đơn vị nhân ma trận lõi tenor hoặc tương đương, chủ yếu ảnh hưởng đến tốc độ tính toán;
**• Bộ nhớ cache và độ trễ của bộ nhớ cache: **Bộ nhớ cache có thể lưu trữ tạm thời dữ liệu để truy cập nhiều lần, điều này có tác động đáng kể đến hiệu suất;
**• Các tính năng bổ sung: **Chẳng hạn như FP8 (số dấu phẩy động 8 bit), v.v., các định dạng số có độ chính xác thấp có thể tăng tốc độ đào tạo và suy luận;
**• Hiệu suất điện toán: ** liên quan đến số lượng lõi CUDA của GPU và chủ yếu ảnh hưởng đến số lượng tác vụ có thể được thực thi song song;
**• Tốc độ kết nối: **Đối với băng thông kết nối giữa các nút nhanh như InfiniBand, yếu tố này sẽ ảnh hưởng đến tốc độ đào tạo phân tán.
**H100 được ưa chuộng hơn A100 một phần do độ trễ bộ nhớ cache thấp hơn và khả năng tính toán FP8 của H100. **
H100 thực sự là lựa chọn hàng đầu vì hiệu năng gấp 3 lần A100 nhưng giá chỉ bằng 1,5 - 2 lần A100. Xét về giá thành của cả hệ thống thế nào thì hiệu năng trên 1 đồng của H100 cũng cao hơn rất nhiều, nếu xét về hiệu năng của hệ thống thì hiệu suất trên 1 đồng có thể cao gấp 4-5 lần.
—— Một nhà nghiên cứu học sâu
**Tại sao độ chính xác của con số lại quan trọng như vậy? **
Các số dấu phẩy động có độ chính xác thấp có thể cải thiện tốc độ đào tạo và suy luận.Ví dụ: FP16 có dung lượng bộ nhớ bằng một nửa so với FP32 và nhanh hơn FP32 ba lần về tốc độ tính toán. Trong quá trình đào tạo LLM, để đảm bảo sự cân bằng giữa tốc độ và độ chính xác, các phương pháp như độ chính xác hỗn hợp và độ chính xác thích ứng được sử dụng để tăng tốc các mô hình ngôn ngữ lớn. Google đã đề xuất định dạng số BFP16, giúp mở rộng phạm vi số trong khi giảm độ chính xác và hiệu suất tốt hơn FP 32.
**• Bên cạnh GPU, các liên kết chi phí trong đào tạo và vận hành LLM là gì? **
GPU hiện là thành phần đắt nhất trong toàn bộ cơ sở hạ tầng đào tạo LLM, nhưng các khía cạnh khác của chi phí không thấp, điều này cũng ảnh hưởng đến chi phí đào tạo và vận hành của LLM:
Bộ nhớ hệ thống và ổ SSD NVMe đắt tiền: Các mẫu máy lớn cần nhiều bộ nhớ tốc độ cao và ổ SSD tốc độ cao để lưu vào bộ đệm và tải dữ liệu, đồng thời cả hai thành phần đều đắt tiền;
Mạng tốc độ cao rất đắt: Các mạng tốc độ cao như InfiniBand (được sử dụng để liên lạc giữa các nút) rất đắt, đặc biệt là đối với đào tạo phân tán, quy mô lớn.
Có lẽ 10% -15% tổng chi phí vận hành một cụm dành cho điện và lưu trữ, chia đều cho cả hai. Chi phí điện bao gồm điện, chi phí xây dựng trung tâm dữ liệu, chi phí đất đai và nhân viên, v.v., khoảng 5% -8%; chi phí lưu trữ bao gồm đất đai, tòa nhà, nhân viên, v.v., khoảng 5% -10%. **
Mối quan tâm chính của chúng tôi là mạng và trung tâm dữ liệu đáng tin cậy. AWS không phù hợp do hạn chế về mạng và phần cứng không đáng tin cậy.
——Nhà nghiên cứu học sâu
**• Công nghệ GPUDirect hỗ trợ như thế nào trong đào tạo LLM? **
GPUDirect của NVIDIA không bắt buộc đối với đào tạo LLM, nhưng nó cũng có thể giúp nâng cao hiệu suất:
Công nghệ GPUDirect có thể cải thiện hiệu suất, nhưng không nhất thiết phải là sự khác biệt siêu tới hạn. Nó chủ yếu phụ thuộc vào vị trí tắc nghẽn hệ thống của bạn. Đối với một số kiến trúc/triển khai phần mềm, nút cổ chai hệ thống không nhất thiết phải là mạng. **Nhưng trong trường hợp kết nối mạng, GPUDirect có thể cải thiện hiệu suất thêm 10%-20%, đây là một con số đáng kể so với chi phí chạy đào tạo đắt đỏ. **
Tuy nhiên, GPUDirect RDMA giờ đây phổ biến đến mức mức độ phổ biến của nó gần như nói lên điều đó. Tôi nghĩ hỗ trợ GPUDirect yếu đối với các mạng không phải Infiniband, nhưng hầu hết các cụm GPU được tối ưu hóa cho đào tạo mạng thần kinh đều có mạng/thẻ Infiniband. Yếu tố lớn hơn đối với hiệu suất có lẽ là NVLink, vì nó hiếm hơn Infiniband, nhưng nó cũng chỉ quan trọng nếu bạn sử dụng một chiến lược song song hóa cụ thể.
Vì vậy, các tính năng như kết nối mạng mạnh mẽ và GPUDirect có thể giúp phần mềm kém tinh vi hơn hoạt động hiệu quả. Tuy nhiên, GPUDirect không bắt buộc phải có nếu xem xét chi phí hoặc cơ sở hạ tầng kế thừa.
—— Một nhà nghiên cứu học sâu
GPUDirect:
Công nghệ truyền dữ liệu có tên GPUDirect Storage (GPUDirect Storage) do NVIDIA giới thiệu chủ yếu được sử dụng để tăng tốc độ truyền dữ liệu được lưu trữ trong các kho lưu trữ khác nhau sang bộ nhớ GPU, có thể tăng băng thông từ 2 đến 8 lần và cũng có thể giảm tốc độ kết thúc. độ trễ đầu cuối lên tới 3,8 lần. Trước đây, CPU chịu trách nhiệm tải dữ liệu từ bộ nhớ đến GPU, điều này hạn chế rất nhiều hiệu năng của phần cứng.
Đường dẫn tiêu chuẩn để truyền dữ liệu từ đĩa NVMe sang bộ nhớ GPU là sử dụng bộ đệm thoát (Bounce Buffer) trong bộ nhớ hệ thống, đây là một bản sao dữ liệu bổ sung. Cốt lõi của công nghệ lưu trữ GPUDirect là tránh sử dụng bộ nhớ đệm phục hồi để giảm các bản sao dữ liệu bổ sung và sử dụng công cụ truy cập bộ nhớ trực tiếp (Truy cập bộ nhớ trực tiếp, DMA) để đưa dữ liệu trực tiếp vào bộ nhớ GPU.
**Tại sao công ty LLM không thể sử dụng GPU của AMD? **
Giám đốc điều hành của một công ty đám mây tư nhân cho biết, về mặt lý thuyết, việc mua GPU AMD là khả thi, nhưng phải mất một khoảng thời gian nhất định từ khi mua đến khi thiết bị hoạt động thực tế. Do đó, CUDA là con hào hiện tại của NVIDIA.
Một nghiên cứu của MosaicML đã đề cập rằng GPU AMD cũng phù hợp với các nhiệm vụ đào tạo mô hình lớn. Họ đã thử nghiệm một nhiệm vụ đào tạo đơn giản dựa trên PyTorch mà không cần sửa đổi mã so với chạy trên NVIDIA. Các tác giả cho thấy rằng miễn là cơ sở mã được xây dựng trên PyTorch, nó có thể được sử dụng trực tiếp trên AMD mà không cần điều chỉnh bổ sung. Trong tương lai, tác giả có kế hoạch xác minh hiệu suất của hệ thống AMD trên một cụm máy tính lớn hơn.
Đồng thời, cũng có quan điểm cho rằng nếu xét chi phí đào tạo một người mẫu lên tới gần 300 triệu USD, sẽ không ai mạo hiểm trông cậy vào chip của AMD hay các startup khác với quy mô lớn, nhất là khi nhu cầu chip đang rất lớn. trên đơn đặt hàng của hơn 10.000.
Một người đã nghỉ hưu trong ngành bán dẫn cũng đề cập rằng tình hình nguồn cung của AMD không khả quan và năng lực sản xuất CoWoS của TSMC đã bị NVIDIA hấp thụ nên mặc dù MI250 có thể là một giải pháp thay thế khả thi nhưng cũng rất khó để có được.
H100 so với A100
NVIDIA A100:
Bản nâng cấp của NVIDIA V100, so với V100 thì hiệu năng của A100 được cải thiện gấp 20 lần, rất phù hợp cho các tác vụ như AI, phân tích dữ liệu. Bao gồm 54 tỷ bóng bán dẫn, A100 tích hợp lõi Tensor thế hệ thứ ba với khả năng tăng tốc cho các hoạt động ma trận thưa thớt, đặc biệt hữu ích cho đào tạo và lý luận AI. Ngoài ra, nhiều GPU A100 có thể được tận dụng cho khối lượng công việc suy luận AI lớn hơn với công nghệ kết nối NVIDIA NVLink.
NVIDIA H100:
Thế hệ tiếp theo của A100 là chip mới nhất được tối ưu hóa cho các mẫu lớn. Nó dựa trên kiến trúc Hopper, được xây dựng bằng quy trình phiên bản tùy chỉnh 5nm của TSMC (4N) và một con chip chứa 80 tỷ bóng bán dẫn. Cụ thể, NVIDIA đã đề xuất Transformer Engine, tích hợp nhiều tính toán chính xác và khả năng xử lý động của mạng thần kinh Transformer, cho phép GPU H100 giảm đáng kể thời gian đào tạo mô hình. Dựa trên H100, NVIDIA cũng đã tung ra hàng loạt sản phẩm máy trạm và siêu máy tính học máy, chẳng hạn như 8 chiếc H100 và 4 chiếc NVLink kết hợp lại để tạo thành một GPU khổng lồ - DGX H100.
So với A100, tốc độ suy luận 16 bit của H100 nhanh hơn khoảng 3,5 lần và tốc độ đào tạo 16 bit nhanh hơn khoảng 2,3 lần.
So sánh tốc độ A100 và H100
MoE đào tạo H100
Tăng tốc H100 theo quy mô
Hầu hết mọi người có xu hướng mua H100 để đào tạo và suy luận mô hình, và sử dụng A100 chủ yếu để suy luận mô hình. Tuy nhiên, người ta cũng có thể xem xét các yếu tố sau:
**• Chi phí: **H100 đắt hơn A100;
**• Dung lượng: **A100 và H100 khác nhau về khả năng tính toán và bộ nhớ;
**• Sử dụng phần cứng mới: **Việc áp dụng H100 yêu cầu các điều chỉnh tương ứng về phần mềm và quy trình làm việc;
**• Rủi ro: ** Có nhiều rủi ro chưa biết hơn khi thiết lập H100;
**• PHẦN MỀM ĐƯỢC TỐI ƯU HÓA: **Một số phần mềm đã được tối ưu hóa cho A100.
Nhìn chung, mặc dù H100 có hiệu suất cao hơn, nhưng đôi khi bạn nên chọn A100,** điều này khiến việc nâng cấp từ A100 lên H100 không phải là một quyết định dễ dàng với nhiều yếu tố cần cân nhắc. **
Trên thực tế, A100 sẽ trở thành V100 như ngày nay sau vài năm nữa. Xem xét các hạn chế về hiệu suất, tôi nghĩ rằng hầu như không ai sẽ đào tạo LLM trên V100 ngay bây giờ. Nhưng V100 vẫn đang được sử dụng để suy luận và các tác vụ khác. Tương tự như vậy, giá của A100 có thể giảm khi nhiều công ty AI chuyển sang H100 để đào tạo các mô hình mới, nhưng sẽ luôn có nhu cầu về A100, đặc biệt là để suy luận.
Điều hành đám mây riêng
Tôi nghĩ rằng điều đó có thể dẫn đến làn sóng A100 tràn ngập thị trường một lần nữa khi một số công ty khởi nghiệp được tài trợ rất lớn cuối cùng phải phá sản.
— (Khác) Giám đốc điều hành đám mây riêng
Nhưng theo thời gian, mọi người sẽ sử dụng A100 cho nhiều tác vụ suy luận hơn thay vì đào tạo các mô hình mới nhất và lớn hơn. **Hiệu suất của V100 không còn có thể hỗ trợ đào tạo các mô hình lớn và card đồ họa bộ nhớ cao phù hợp hơn cho các mô hình lớn, vì vậy các nhóm tiên tiến thích H100 hoặc A100 hơn.
Lý do chính của việc không sử dụng V100 là thiếu kiểu dữ liệu brainfloat16 (bfloat16, BF16). Không có loại dữ liệu này, rất khó để huấn luyện các mô hình một cách dễ dàng. Lý do chính cho hiệu suất kém của OPT và BLOOM là do không có loại dữ liệu này (OPT được đào tạo trong float16, BLOOM chủ yếu được tạo mẫu trong FP16, điều này khiến không thể khái quát hóa dữ liệu cho các lần chạy đào tạo được thực hiện trong BF16).
——Nhà nghiên cứu học sâu
**• Sự khác biệt giữa GPU của Nvida H100, GH200, DGX GH200, HGX H100 và DGX H100 là gì? **
• H100 = 1x GPU H100;
• HGX H100 = Nền tảng tham chiếu máy chủ NVIDIA. Được các OEM sử dụng để xây dựng máy chủ 4 GPU hoặc 8 GPU, được sản xuất bởi các OEM bên thứ ba như Supermicro;
• DGX H100 = Máy chủ NVIDIA H100 chính thức với 8x H100, NVIDIA là nhà cung cấp duy nhất;
• GH200 = 1x GPU H100 cộng với 1x CPU Grace;
• DGX GH200 = 256x GH200, ra mắt cuối 2023, chắc chỉ của NVIDIA;
• MGX dành cho các công ty điện toán đám mây lớn.
Trong số này, hầu hết các công ty đã chọn mua máy chủ 8-GPU HGX H100 thay vì máy chủ DGX H100 hoặc 4-GPU HGX H100.
**Các GPU này có giá bao nhiêu? **
1x DGX H100 (SXM) với 8x GPU H100 có giá 460.000 USD, bao gồm các dịch vụ hỗ trợ bắt buộc, v.v., khoảng 100.000 USD. Các công ty khởi nghiệp có thể được giảm giá Inception khoảng 50.000 đô la cho tối đa 8 hộp DGX H100, với tổng số 64 H100.
Thông số kỹ thuật cụ thể của GPU như sau:
Thông số kỹ thuật DGX H100
1x HGX H100 (SXM) với 8x GPU H100 có thể có giá từ 300.000-380.000 USD tùy thuộc vào thông số kỹ thuật (mạng, lưu trữ, bộ nhớ, CPU) cũng như lợi nhuận và mức hỗ trợ của nhà cung cấp. Nếu thông số hoàn toàn giống với DGX H100, doanh nghiệp có thể trả giá cao hơn từ 360.000 USD đến 380.000 USD bao gồm hỗ trợ.
1x HGX H100 (PCIe) với 8x GPU H100 có giá khoảng 300.000 USD bao gồm hỗ trợ, tùy thuộc vào thông số kỹ thuật.
Giá thị trường cho thẻ PCIe là khoảng 30.000 đến 32.000 đô la.
Các card đồ họa SXM không được bán dưới dạng các card đơn nên việc định giá rất khó khăn. Thường chỉ được bán dưới dạng máy chủ 4GPU và 8GPU.
Khoảng 70-80% nhu cầu trên thị trường là SXM H100, còn lại là PCIe H100. Nhu cầu đối với phân khúc SXM đang tăng lên do chỉ có thẻ PCIe trong những tháng trước. Cho rằng hầu hết các công ty đang mua 8GPU HGX H100 (SXM), đó là khoảng $360.000-$380.000 cho mỗi 8 H100, bao gồm các thành phần máy chủ khác.
DGX GH200 chứa 256x GH200 và mỗi GH200 chứa 1x H100 GPU và 1x Grace CPU. Theo ước tính, giá thành của DGX GH200 có thể vào khoảng 15 triệu - 25 triệu đô la Mỹ.
** Nhu cầu thị trường đối với GPU là gì? **
• Đào tạo GPT-4 có thể được thực hiện trên 10.000 đến 25.000 tờ A100;
• Meta có khoảng 21.000 A100, Tesla có khoảng 7.000 A100 và Ổn định AI có khoảng 5.000 A100;
• Huấn luyện Falcon 40B được thực hiện trên 384 chiếc A100;
• Inflection sử dụng 3500 tờ H100 trong mẫu tương đương GPT-3.5.
Chúng tôi sẽ có 22.000 GPU được sử dụng vào tháng 12 và hơn 3.500 đơn vị đang được sử dụng hiện nay.
— Mustafa Suleyman, Giám đốc điều hành, Inflection AI
**Theo Elon Musk, đào tạo GPT-5 có thể sử dụng 30.000-50.000 H100. **Morgan Stanley đã đề xuất vào tháng 2 năm 2023 rằng GPT-5 sẽ sử dụng 25.000 GPU và họ cũng đề xuất vào thời điểm đó rằng GPT-5 đã được đào tạo, nhưng Sam Altman sau đó đã từ chối điều này vào tháng 5 năm nay, nói rằng OpenAI không đào tạo GPT-5 nên thông tin của Morgan Stanley có thể không chính xác.
GCP có khoảng 25.000 H100 và Azure có thể có 10.000-40.000 H100. Nó sẽ tương tự đối với Oracle. Ngoài ra, phần lớn năng lực của Azure sẽ được cung cấp cho OpenAI.
CoreWeave duy trì khoảng 35.000 đến 40.000 chiếc H100, nhưng điều này dựa trên đơn đặt hàng, không phải thực tế.
** Startup đặt hàng bao nhiêu chiếc H100? **Nếu được sử dụng cho nhiệm vụ tinh chỉnh LLM, thường hàng chục hoặc hàng trăm tờ được đặt hàng; nếu được sử dụng cho đào tạo LLM, hàng nghìn tờ được yêu cầu.
**Một công ty trong lĩnh vực LLM có thể cần bao nhiêu H100? **
• OpenAI có thể cần 50.000, Inflection có thể cần 24.000 và Meta có thể cần 25.000 (cũng có ý kiến cho rằng Meta thực sự cần 100.000 hoặc hơn);
• Các nhà cung cấp dịch vụ đám mây lớn, chẳng hạn như Azure, Google Cloud, AWS và Oracle, mỗi nhà cung cấp có thể cần 30.000;
• Các nhà cung cấp dịch vụ đám mây riêng, chẳng hạn như Lambda và CoreWeave và các đám mây riêng khác có thể có tổng số lên tới 100.000;
• Anthropic, Helsing, Mistral, Character có thể có giá 10k mỗi loại.
Các con số ở trên là ước tính và phỏng đoán, và một số trong số chúng có thể được tính hai lần, chẳng hạn như khách hàng thuê đám mây. ** Nhìn chung, theo tính toán hiện tại, số lượng H100 vào khoảng 432.000 chiếc, nếu tính ra khoảng 35.000 USD mỗi chiếc thì đây là GPU có tổng giá trị khoảng 15 tỷ USD. Ngoài ra, con số 432.000 không bao gồm các công ty Trung Quốc như ByteDance (TikTok), Baidu và Tencent yêu cầu rất nhiều H800. **
Ngoài ra, một số công ty tài chính cũng đang triển khai A100/H100 từ hàng trăm đến hàng nghìn như Jane Street, JP Morgan, Two Sigma và Citadel.
**Điều này so với doanh thu của trung tâm dữ liệu NVIDIA như thế nào? **Doanh thu của trung tâm dữ liệu NVIDIA là 4,28 tỷ USD từ tháng 2 đến tháng 4 năm 2023. Từ ngày 25 tháng 5 đến tháng 7 năm 2023, doanh thu của trung tâm dữ liệu có thể vào khoảng 8 tỷ USD. **Điều này chủ yếu dựa trên giả định rằng hướng dẫn doanh thu cao hơn của NVIDIA trong quý chủ yếu là do doanh thu trung tâm dữ liệu cao hơn chứ không phải doanh thu cao hơn từ các lĩnh vực kinh doanh khác. **
Do đó, có thể mất một thời gian để tình trạng thiếu hụt nguồn cung giảm bớt. Nhưng có thể sự thiếu hụt sức mạnh tính toán đã bị phóng đại, trước hết, hầu hết các công ty không mua ngay tất cả H100 họ cần mà nâng cấp dần dần, bên cạnh đó, NVIDIA cũng đang tích cực tăng cường năng lực sản xuất.
Việc có tổng cộng 400.000 chiếc H100 trên thị trường không phải là điều xa vời, đặc biệt khi mọi người đang triển khai những chiếc H100 4 hoặc 5 con số với số lượng lớn hiện nay.
—— Giám đốc điều hành đám mây riêng
Tóm tắt
• Hầu hết các CSP lớn (Azure, AWS, GCP và Oracle) và các đám mây riêng (CoreWeave, Lambda và nhiều loại khác) thích nhiều GPU H100 hơn là chỉ có thể truy cập chúng, hầu hết các dịch vụ AI lớn Công ty cũng đang theo đuổi nhiều GPU H100 hơn .
• Thông thường, các công ty này muốn có khung máy 8GPU HGX H100 với thẻ SXM. Tùy thuộc vào thông số kỹ thuật và hỗ trợ, mỗi máy chủ 8GPU có giá khoảng 3-4 triệu USD. Có thể có nhu cầu dư thừa đối với hàng trăm nghìn GPU H100, với tổng giá trị hơn 15 tỷ USD;
• Với nguồn cung hạn chế, NVIDIA lẽ ra có thể tăng giá để tìm mức giá cân bằng thị trường, và ở một mức độ nào đó, họ đã làm như vậy. Nói chung, quyết định cuối cùng về cách phân bổ GPU H100 phụ thuộc vào việc chính NVIDIA muốn phân bổ GPU cho khách hàng nào.
03.H100 Phân tích bên cung
Thắt cổ chai từ TSMC
H100 do TSMC (TSMC) sản xuất, **Liệu NVIDIA có thể chọn các nhà máy sản xuất chip khác để sản xuất thêm H100 không? Ít nhất là chưa. **
NVIDIA đã từng hợp tác với Samsung trước đây nhưng Samsung không thể đáp ứng nhu cầu của họ về GPU tiên tiến nên hiện tại NVIDIA chỉ có thể sử dụng GPU H100s và các GPU 5nm khác do TSMC sản xuất. **Có thể trong tương lai NVIDIA sẽ hợp tác với Intel, hoặc tiếp tục hợp tác với Samsung về các công nghệ liên quan, nhưng cả hai trường hợp này đều không xảy ra trong ngắn hạn nên tình trạng thiếu hụt nguồn cung H100 sẽ không thể thuyên giảm. **
Công nghệ 5 nanomet (N5) của TSMC sẽ được đưa vào sản xuất hàng loạt vào năm 2020. Công nghệ N5 là công nghệ xử lý EUV thứ hai của TSMC, cung cấp tốc độ nhanh hơn và mức tiêu thụ điện năng thấp hơn so với công nghệ N7 trước đó. Ngoài ra, TSMC cũng có kế hoạch ra mắt công nghệ 4 nanomet (N4), đây là phiên bản nâng cao của công nghệ N5 giúp cải thiện hơn nữa hiệu suất và mức tiêu thụ điện năng, đồng thời có kế hoạch bắt đầu sản xuất hàng loạt vào năm 2022.
H100 được sản xuất dựa trên quy trình TSMC 4N, thuộc 5nm nâng cao trong dòng 5nm chứ không phải quy trình 4nm thực sự. ** Ngoài NVIDIA, Apple cũng đang sử dụng công nghệ này, nhưng họ chủ yếu chuyển sang N3 và giữ phần lớn dung lượng của N3. **Ngoài ra, Qualcomm và AMD là những khách hàng lớn của dòng N5.
A100 sử dụng quy trình N7 của TSMC.
7 nanomet (N7) là nút quy trình mà TSMC sẽ đưa vào sản xuất hàng loạt vào năm 2019. Trên nền tảng của N7, TSMC cũng giới thiệu quy trình N7+, đây là quy trình sản xuất 7nm sử dụng EUV (kỹ thuật in khắc cực tím), giúp tăng mật độ bóng bán dẫn từ 15% đến 20% đồng thời giảm mức tiêu thụ điện năng của chip.
Nói chung, năng lực xử lý mặt trước (Dung lượng Fab) sẽ được lên kế hoạch trước hơn 12 tháng. Người ta chỉ ra rằng TSMC và các khách hàng lớn của họ sẽ cùng nhau lên kế hoạch về nhu cầu sản xuất cho năm tới, vì vậy việc thiếu hụt nguồn cung H100 hiện tại một phần là do TSMC và NVIDIA đã đánh giá sai nhu cầu H100 của năm nay so với năm trước.
Dung lượng Fab:
Trong quy trình xử lý chip bán dẫn, Fab là chữ viết tắt của FABRICATION (gia công, sản xuất) và Fab Capacity có thể coi là công suất dung lượng.
Theo một nguồn tin khác, thông thường H100 sẽ mất 6 tháng để bán cho khách hàng (sản xuất, đóng gói và thử nghiệm) kể từ khi bắt đầu sản xuất, nhưng tình hình này vẫn chưa được xác nhận.
Một chuyên gia đã nghỉ hưu trong ngành công nghiệp bán dẫn chỉ ra rằng năng lực sản xuất tấm bán dẫn không phải là nút thắt cổ chai của TSMC, mà nút thắt thực sự nằm ở CoWoS (xếp chồng ba chiều) đã nói ở trên.
CoWoS (Chip trên wafer trên Chất nền, xếp chồng ba chiều):
Đó là công nghệ sản xuất tích hợp 2.5D của TSMC, đầu tiên chip được kết nối với tấm wafer silicon thông qua quy trình đóng gói CoW (Chip on Wafer), sau đó chip CoW được kết nối với đế (Substrate) và tích hợp vào CoWoS .
Theo DigiTimes, TSMC đã bắt đầu mở rộng năng lực sản xuất CoWoS và có kế hoạch tăng năng lực sản xuất CoWoS từ 8.000 tấm wafer mỗi tháng lên 11.000 tấm wafer mỗi tháng vào cuối năm 2023 và lên khoảng 14.500 đến 16.600 tấm wafer mỗi tháng vào cuối năm 2020. 2024. Những gã khổng lồ công nghệ lớn như NVIDIA, Amazon, Broadcom, Cisco và Xilinx đều có nhu cầu ngày càng tăng đối với bao bì CoWoS tiên tiến của TSMC.
Bộ nhớ H100
**Loại bộ nhớ (Memory Bype), Độ rộng bus bộ nhớ (Memory Bus Width) và Tốc độ xung nhịp bộ nhớ (Memory Clock Speed) cùng ảnh hưởng đến băng thông bộ nhớ của GPU. **NVIDIA đã thiết kế độ rộng bus và tốc độ xung nhịp của H100 như một phần của kiến trúc GPU. Bộ nhớ HBM3 chủ yếu được sử dụng trên H100 SXM và HBM2e chủ yếu được sử dụng trên H100 PCIe.
HBM rất khó sản xuất và nguồn cung rất hạn chế nên việc sản xuất HBM là một cơn ác mộng. Nhưng một khi HBM được sản xuất, phần còn lại của thiết kế trở nên dễ dàng.
——Một nhà nghiên cứu Deepl Learning
**Loại bộ nhớ, độ rộng bus bộ nhớ và tốc độ xung nhịp bộ nhớ là ba chỉ số quan trọng của bộ nhớ máy tính. **
Chiều rộng Bus bộ nhớ:
Nó đề cập đến chiều rộng của kênh truyền dữ liệu giữa mô-đun bộ nhớ và bo mạch chủ. Chiều rộng bus bộ nhớ rộng hơn có thể cung cấp đường dẫn dữ liệu lớn hơn, do đó tăng tốc độ truyền dữ liệu giữa bộ nhớ và bộ xử lý.
Tốc độ xung nhịp bộ nhớ:
Đề cập đến tần số xung nhịp làm việc của mô-đun bộ nhớ. Tốc độ xung nhịp bộ nhớ cao hơn có nghĩa là bộ nhớ có thể thực hiện các thao tác đọc và ghi nhanh hơn, đồng thời cung cấp tốc độ truyền dữ liệu cao hơn.
HBM(Bộ nhớ băng thông cao):
Là công nghệ bộ nhớ băng thông cao được sử dụng để cung cấp tốc độ truy cập bộ nhớ nhanh trong các đơn vị xử lý đồ họa (GPU) và các thiết bị điện toán hiệu suất cao khác. Công nghệ bộ nhớ được sử dụng trong card đồ họa và thiết bị máy tính truyền thống thường dựa trên thiết kế GDDR (Tốc độ dữ liệu kép đồ họa), có sự cân bằng nhất định giữa hiệu suất và mức tiêu thụ điện năng. Công nghệ HBM đạt được băng thông cao hơn và mức tiêu thụ điện năng thấp hơn bằng cách đặt các ngăn xếp bộ nhớ trên chip GPU và xếp chồng nhiều chip DRAM với nhau thông qua các kết nối dọc tốc độ cao (TSV).
Đối với bộ nhớ HBM3, NVIDIA có thể sử dụng tất cả hoặc chủ yếu SK Hynix. Không rõ H100 của NVIDIA có sử dụng bộ nhớ của Samsung hay không, nhưng chắc chắn rằng NVIDIA hiện không sử dụng bộ nhớ của Micron.
Đối với HBM3, nói chung, SK Hynix có sản lượng lớn nhất, tiếp theo là Samsung và Micron xếp thứ ba có khoảng cách sản lượng lớn với hai công ty trước. Có vẻ như SK Hynix đã tăng cường sản xuất, nhưng NVIDIA vẫn muốn họ sản xuất nhiều hơn, trong khi Samsung và Micron vẫn chưa tăng sản lượng.
**Cái gì khác được sử dụng trong sản xuất GPU? **
Ngoài ra, việc sản xuất GPU cũng sẽ liên quan đến rất nhiều vật liệu và linh kiện kim loại, việc thiếu hụt nguyên liệu thô tại các mắt xích này cũng sẽ gây ra tình trạng tắc nghẽn nguồn cung GPU, chẳng hạn như:
**• Kim loại và hóa chất: **Bao gồm silicon (á kim) như đồng, tantalum, vàng, nhôm, niken, thiếc, indium và palladi, được sử dụng trong các giai đoạn sản xuất khác nhau, từ sản xuất vòng silicon đến lắp ráp GPU cuối cùng , chẳng hạn như silicon, đất hiếm, v.v.;
**• Các thành phần và vật liệu đóng gói: **Chẳng hạn như chất nền, bóng hàn và dây điện, hợp chất tản nhiệt, v.v., được sử dụng để hoàn thiện quá trình lắp ráp và liên kết các thành phần khác nhau của GPU, đồng thời rất quan trọng đối với hoạt động của GPU GPU;
**• Tiêu thụ năng lượng:**Do sử dụng các thiết bị cơ khí có độ chính xác cao trong quá trình sản xuất chip GPU nên cần một lượng điện năng lớn.
** NVIDIA giải quyết tình trạng thiếu H100 như thế nào? **
NVIDIA tiết lộ họ sẽ tăng nguồn cung trong nửa cuối năm nay Giám đốc tài chính của NVIDIA cho biết tại buổi báo cáo tài chính rằng công ty đang nỗ lực hết sức để giải quyết vấn đề nguồn cung, ngoài ra họ không truyền đạt thêm bất kỳ thông tin nào, cũng như không họ có số liệu cụ thể nào liên quan đến H100 không. .
"Chúng tôi đang giải quyết các vấn đề về nguồn cung trong quý, nhưng chúng tôi cũng đã mua rất nhiều hàng dự trữ cho nửa cuối năm nay."
"Chúng tôi tin rằng nguồn cung trong nửa cuối năm sẽ cao hơn đáng kể so với nửa đầu năm."
-- Colette Kress, Giám đốc tài chính của Nvidia, trong cuộc gọi thu nhập từ tháng 2 đến tháng 4 năm 2023
Một giám đốc điều hành của công ty đám mây tư nhân tin rằng **một vòng luẩn quẩn có thể xuất hiện trên thị trường tiếp theo, đó là sự khan hiếm khiến năng lực GPU được coi là con hào đối với các công ty AI, dẫn đến việc tích trữ nhiều GPU hơn, điều này càng làm trầm trọng thêm tình trạng khan hiếm của GPU. **
Theo khoảng thời gian lịch sử giữa các lần ra mắt các kiến trúc khác nhau của NVIDIA, mẫu H100 thế hệ tiếp theo có thể không được phát hành cho đến cuối năm 2024 (giữa năm 2024 đến đầu năm 2025). Trước đó, H100 sẽ luôn là sản phẩm cấp cao nhất của GPU NVIDIA (GH200 và DGX GH200 không được tính, chúng không phải là GPU thuần túy và cả hai đều sử dụng H100 làm GPU).
Ngoài ra, dự kiến trong tương lai sẽ có phiên bản 120GB với bộ nhớ lớn hơn.
04. Cách nhận H100
Người bán H100
Các nhà sản xuất thiết bị gốc (OEM) như Dell, HPE, Lenovo, Supermicro và Quanta đang bán H100 và HGX H100, trong khi việc đặt hàng InfiniBand cần được thực hiện thông qua NVIDIA Mellanox.
Mellanox là một trong những nhà cung cấp InfiniBand lớn trên toàn cầu. Năm 2015, thị phần của Mellanox trên thị trường IB toàn cầu đạt 80%. Vào năm 2019, NVIDIA đã mua lại Mellanox với giá 125 USD/cổ phiếu, với tổng giá trị giao dịch khoảng 6,9 tỷ USD. Việc mua lại này cho phép NVIDIA tiếp tục mở rộng thị phần của mình trong các trung tâm dữ liệu và điện toán hiệu suất cao, đồng thời củng cố khả năng cạnh tranh của NVIDIA trong lĩnh vực AI.
Bằng cách kết hợp công nghệ kết nối tốc độ cao của Mellanox với bộ tăng tốc GPU của NVIDIA, NVIDIA có thể cung cấp cho các trung tâm dữ liệu các giải pháp băng thông cao hơn và độ trễ thấp hơn. Ngoài Mellanox, công nghệ IB của QLogic, một nhà cung cấp khác trong lĩnh vực IB, đã được Tập đoàn Intel mua lại vào năm 2012.
Các đám mây GPU như CoreWeave và Lambda mua GPU từ các OEM và cho các Công ty khởi nghiệp thuê chúng. Các trình phát đám mây siêu quy mô (Azure, GCP, AWS, Oracle) có thể mua trực tiếp hơn với NVIDIA, nhưng đôi khi chúng cũng hoạt động với các OEM.
Đối với DGX, việc mua hàng cũng được thực hiện thông qua OEM. Mặc dù khách hàng có thể trao đổi với NVIDIA về các yêu cầu mua hàng, nhưng việc mua hàng được thực hiện thông qua OEM thay vì đặt hàng trực tiếp với NVIDIA.
Thời gian cung cấp cho máy chủ 8 GPU HGX là rất tệ và máy chủ 4 GPU HGX là khá tốt, nhưng thực tế là mọi người đều muốn máy chủ 8 GPU.
***• Từ khi đặt hàng đến khi triển khai H100 mất bao lâu? **
Triển khai là một quá trình theo từng giai đoạn. Giả sử một đơn đặt hàng 5.000 GPU, họ có thể có quyền truy cập vào 2.000 hoặc 4.000 GPU trong 4-5 tháng và sau đó là các GPU còn lại trong 6 tháng hoặc lâu hơn.
**Đối với Startup, nếu bạn muốn mua GPU, bạn không đặt hàng từ OEM hoặc đại lý **, họ thường chọn các dịch vụ đám mây công cộng như Oracle hoặc thuê quyền truy cập vào các đám mây riêng như Lambda và CoreWeave hoặc sử dụng các dịch vụ như FluidStack và các OEM cũng như nhà cung cấp làm việc với trung tâm dữ liệu cho thuê quyền truy cập.
**• Doanh nghiệp có nên xây dựng trung tâm dữ liệu hoặc colocation cho riêng mình? **
Đối với việc thành lập trung tâm dữ liệu, các yếu tố cần được xem xét bao gồm thời gian thành lập trung tâm dữ liệu, liệu có tài năng và kinh nghiệm về phần cứng hay không và quy mô đầu tư vốn.
Thuê và lưu trữ một máy chủ dễ dàng hơn nhiều. Nếu bạn muốn xây dựng trung tâm dữ liệu của riêng mình, bạn phải đặt một đường cáp quang tối đến vị trí của mình để kết nối với Internet và chi phí cáp quang là 10.000 USD mỗi km. Trong thời kỳ bùng nổ Internet, hầu hết cơ sở hạ tầng đã được xây dựng và trả tiền. Bây giờ, bạn chỉ có thể thuê, và nó khá rẻ.
—— Giám đốc điều hành đám mây riêng
Lựa chọn thuê hay xây dựng trung tâm dữ liệu là một trong hai quyết định, tùy theo nhu cầu thực tế mà doanh nghiệp có thể có những lựa chọn khác nhau sau đây:
Đám mây theo yêu cầu: hoàn toàn sử dụng dịch vụ đám mây để cho thuê;
Đám mây dành riêng;
Hosting (mua máy chủ, hợp tác với nhà cung cấp để đặt và quản lý máy chủ);
Tự thuê máy chủ (tự mua và thuê máy chủ).
Hầu hết các Công ty khởi nghiệp cần nhiều H100 sẽ chọn sử dụng dịch vụ đám mây hoặc thuê chỗ đặt máy chủ riêng.
**Doanh nghiệp chọn công ty cung cấp dịch vụ đám mây như thế nào? **
Có quan điểm cho rằng cơ sở hạ tầng của Oracle không đáng tin cậy bằng ba đám mây chính, nhưng hãng sẵn sàng dành nhiều thời gian hơn cho hỗ trợ kỹ thuật của khách hàng. Một số học viên của công ty đám mây tư nhân cho biết 100% trong số họ sẽ có một lượng lớn khách hàng không hài lòng với các dịch vụ dựa trên Oracle và một số CEO của các công ty khác tin rằng khả năng kết nối mạng của Oracle mạnh hơn.
**Thông thường, Startup sẽ chọn công ty có sự kết hợp tốt nhất giữa hỗ trợ dịch vụ, giá cả và năng lực. **
Sự khác biệt chính giữa một số công ty dịch vụ đám mây lớn là:
**• Kết nối mạng: **AWS và Google Cloud đã chậm hơn trong việc áp dụng InfiniBand vì họ có cách tiếp cận riêng, nhưng hầu hết các công ty khởi nghiệp đang tìm kiếm các cụm A100/H100 lớn đều đang tìm kiếm InfiniBand;
**• Tính khả dụng: **Ví dụ: hầu hết sức mạnh tính toán H100 của Azure được sử dụng bởi OpenAI, điều đó có nghĩa là có thể không có nhiều sức mạnh tính toán khả dụng cho các khách hàng khác.
**Mặc dù không có cơ sở thực tế, nhưng có suy đoán rằng NVIDIA có xu hướng ưu tiên cung cấp GPU hơn cho các nhà cung cấp dịch vụ đám mây chưa phát triển chip máy học cạnh tranh. **Cả ba nhà cung cấp dịch vụ đám mây lớn hiện đang phát triển chip máy học của riêng họ, nhưng AWS và các giải pháp thay thế NVIDIA của Google đã có mặt trên thị trường và lấy đi một số thị phần của NVIDIA. Điều này cũng dẫn đến một số đồn đoán trên thị trường rằng NVIDIA sẵn sàng hợp tác với Oracle hơn vì điều này.
Một số công ty đám mây lớn có giá tốt hơn những công ty khác. Như một nhà điều hành đám mây riêng đã lưu ý, "Ví dụ: A100 trên AWS/AZURE đắt hơn nhiều so với GCP."
Oracle nói với tôi rằng họ sẽ có "hàng chục nghìn chiếc H100" được đưa vào sử dụng vào cuối năm nay. Nhưng về giá cả, họ cao hơn các công ty khác. Họ không báo giá cho tôi H100, nhưng đối với A100 80GB, họ báo giá cho tôi gần 4 đô la/giờ, cao hơn gần 2 lần so với mức GCP báo giá, với cùng mức tiêu thụ điện năng và công sức.
— Ẩn danh
Các đám mây nhỏ hơn có lợi thế về giá cả, ngoại trừ một số trường hợp khi một trong những công ty đám mây lớn có thể thực hiện một thỏa thuận kỳ quặc để đổi lấy vốn chủ sở hữu.
Vì vậy, về tổng thể, xét về mức độ hợp tác chặt chẽ với NVIDIA, Oracle và Azure > GCP và AWS, nhưng đây chỉ là phỏng đoán.
Oracle đã đi tiên phong trong A100 và lưu trữ các cụm dựa trên Nvidia với sự hợp tác của Nvidia, đây cũng là một khách hàng của Azure.
***• Công ty đám mây lớn nào có hiệu suất mạng tốt nhất? **
Azure, CoreWeave và Lambda đều sử dụng InfiniBand. Hiệu suất mạng của Oracle tốt ở mức 3200 Gbps, nhưng sử dụng Ethernet thay vì InfiniBand và có thể chậm hơn khoảng 15-20% so với IB đối với các trường hợp sử dụng như đào tạo LLM thông số cao. Mạng của AWS và GCP không tốt bằng.
***• Doanh nghiệp lựa chọn dịch vụ đám mây hiện nay như thế nào? **
Một dữ liệu thống kê đối với 15 công ty cho thấy cả 15 công ty được khảo sát sẽ chọn AWS, GCP hoặc Azure và Oracle không nằm trong số đó.
Hầu hết các doanh nghiệp có xu hướng sử dụng đám mây hiện có của họ. Nhưng đối với các nhóm doanh nhân, lựa chọn của họ dựa trên thực tế nhiều hơn: bất cứ ai có thể cung cấp sức mạnh tính toán sẽ chọn cái nào.
**• NVIDIA hợp tác với ai trên DGX Cloud? **
"Nvidia đang hợp tác với các nhà cung cấp dịch vụ đám mây hàng đầu để lưu trữ Cơ sở hạ tầng đám mây DGX, bắt đầu với Cơ sở hạ tầng đám mây của Oracle" - bán với Nvidia, nhưng cho thuê thông qua các nhà cung cấp đám mây hiện có (đầu tiên là Oracle, sau đó là Azure, tiếp theo là Google Cloud, không hoạt động với AWS).
Giám đốc điều hành NVIDIA Jensen Huang cho biết trong cuộc gọi thu nhập của NVIDIA rằng "sự kết hợp lý tưởng là 10% đám mây NVIDIA DGX và 90% đám mây CSP".
*• Lịch trình H100 của các đại gia điện toán đám mây:
CoreWeave là một trong những người đầu tiên. Với tư cách là nhà đầu tư của CoreWeave và để tăng cường cạnh tranh giữa các công ty đám mây lớn, NVIDIA là công ty đầu tiên hoàn thành việc cung cấp CoreWeave.
Lịch trình H100 của các công ty dịch vụ đám mây khác như sau:
• Azure đã công bố tính khả dụng của H100 để xem trước vào ngày 13 tháng 3;
• Oracle công bố nguồn cung H100 hạn chế vào ngày 21 tháng 3;
• Lambda Labs đã thông báo vào ngày 21 tháng 3 rằng họ sẽ ra mắt H100 vào đầu tháng 4;
• AWS đã thông báo vào ngày 21 tháng 3 rằng H100 sẽ được xem trước sau vài tuần nữa;
• Google Cloud đã thông báo về việc bắt đầu xem trước riêng tư H100 vào ngày 10 tháng 5.
***• Các công ty khác nhau đang sử dụng dịch vụ đám mây nào? **
• OpenAI: Azure
• Sự thay đổi: Azure và CoreWeave
• Anthropic: AWS 和 Google Cloud
• Cohere:AWS 和 Google Cloud
• Ôm mặt: AWS
• AI ổn định: CoreWeave và AWS
• Character.ai: Google Cloud
• X.ai: Oracle
• NVIDIA: Azure
**Làm cách nào để có thêm hạn ngạch GPU? **
Nút cổ chai cuối cùng là liệu có thể nhận được sự phân phối sức mạnh tính toán từ NVIDIA hay không.
***• NVIDIA lựa chọn khách hàng như thế nào? **
NVIDIA thường phân bổ một số lượng GPU nhất định cho mỗi khách hàng và trong quá trình này **NVIDIA quan tâm nhất đến "ai là khách hàng cuối cùng", ví dụ: Azure cho biết "chúng tôi muốn mua 10.000 chiếc H100 để hỗ trợ Inflection" và kết quả tương ứng với Azure cho biết "Chúng tôi đã mua 10.000 chiếc H100 cho Azure" là khác nhau. **Nếu NVIDIA quan tâm đến một khách hàng cuối cụ thể, công ty đám mây có thể nhận thêm hạn ngạch GPU. Do đó, NVIDIA hy vọng sẽ biết càng nhiều càng tốt khách hàng cuối cùng là ai và họ sẽ nghiêng về các doanh nghiệp lớn hoặc công ty khởi nghiệp có sự ủng hộ mạnh mẽ hơn.
Vâng, đó dường như là trường hợp. Nvidia thích cấp quyền truy cập GPU cho các công ty khởi nghiệp AI (nhiều công ty trong số đó có quan hệ chặt chẽ với Nvidia). Inflection, một công ty AI do Nvidia đầu tư, đang thử nghiệm một cụm H100 khổng lồ trên CoreWeave.
—— Giám đốc điều hành đám mây riêng
Nếu một công ty đám mây nào đó đưa một khách hàng cuối đến NVIDIA và bày tỏ rằng họ sẵn sàng mua một lượng H100 nhất định và NVIDIA quan tâm đến khách hàng cuối này, NVIDIA thường sẽ đưa ra một hạn ngạch nhất định, điều này thực sự sẽ làm tăng số lượng mà NVIDIA phân bổ cho khách hàng cuối. Tổng dung lượng của công ty đám mây, vì phân bổ này độc lập với hạn ngạch ban đầu NVIDIA cấp cho công ty đám mây.
Việc NVIDIA phân bổ dung lượng lớn cho các đám mây riêng là một trường hợp đặc biệt: **CoreWeave có nhiều H100 hơn GCP. NVIDIA miễn cưỡng phân bổ các nguồn lực quan trọng cho các công ty cố gắng cạnh tranh trực tiếp với nó (AWS Inferentia và Tranium, Google TPUs, Azure Project Athena). **
Nhưng vào cuối ngày, nếu bạn gửi đơn đặt hàng và tiền cho NVIDIA, cam kết thực hiện một thỏa thuận lớn hơn với nhiều khoản tài trợ trả trước hơn và cho biết hồ sơ rủi ro thấp của mình, thì bạn chắc chắn sẽ nhận được nhiều hạn ngạch GPU hơn bất kỳ ai khác.
05. Tóm tắt
Mặc dù, như Sam Altman đã nói, "kỷ nguyên sử dụng các mô hình lớn sắp kết thúc", nhưng ở thời điểm hiện tại, chúng ta vẫn bị giới hạn bởi GPU. Một mặt, các công ty như OpenAI đã có các sản phẩm PMF tuyệt vời như ChatGPT, nhưng do bị giới hạn bởi GPU nên họ cần mua một lượng lớn sức mạnh tính toán, mặt khác, nhiều nhóm đang nghiên cứu khả năng tham gia trong LLM trong tương lai Tích trữ GPU bất kể tiềm năng của chúng để tạo ra thứ gì đó như ChatGPT.
Nhưng chắc chắn rằng quyền phát biểu của NVIDIA sẽ không bị lung lay.
Ở giai đoạn này, sản phẩm LLM tốt nhất mà PMF sản xuất là ChatGPT. Sau đây sử dụng ChatGPT làm ví dụ để giải thích lý do thiếu GPU:
Vì ChatGPT quá phổ biến với người dùng nên ARR (doanh thu định kỳ hàng năm) của nó có thể vượt quá 500 triệu đô la Mỹ;
ChatGPT chạy trên API của GPT-4 và GPT-3.5;
Các API của GPT-4 và GPT-3.5 yêu cầu GPU để chạy và cần một số lượng lớn GPU. OpenAI hy vọng sẽ phát hành nhiều chức năng hơn cho ChatGPT và API của nó, nhưng điều đó không thể thực hiện được do số lượng hạn chế GPU;
OpenAI đã mua một số lượng lớn GPU NVIDIA thông qua Microsoft (Azure);
Để sản xuất GPU H100 SXM, NVIDIA sử dụng TSMC để sản xuất và sử dụng công nghệ đóng gói CoWoS của TSMC và HBM3 chủ yếu từ SK Hynix.
Ngoài OpenAI, có rất nhiều công ty trên thị trường đang đào tạo các mô hình lớn của riêng họ, hãy tạm gác lại có bao nhiêu bong bóng tồn tại trong LLM và khả năng cuối cùng các sản phẩm PMF xuất hiện là bao nhiêu, nhưng nhìn chung, sự cạnh tranh của LLM có đã đẩy nhu cầu GPU của thị trường lên cao. Ngoài ra, có một số công ty ngay cả khi họ không cần GPU trong thời điểm hiện tại, họ sẽ bắt đầu tích trữ chúng trước vì lo lắng cho tương lai. Vì vậy, nó giống như "kỳ vọng về sự thiếu hụt nguồn cung làm trầm trọng thêm tình trạng thiếu hụt nguồn cung"**.
Vì vậy, một lực lượng khác thúc đẩy nhu cầu về GPU là các công ty doanh nghiệp muốn tạo LLM mới hoặc tham gia vào AI trong tương lai:
Tầm quan trọng của các mô hình lớn đã trở thành một sự đồng thuận: nếu là một doanh nghiệp trưởng thành, họ hy vọng sẽ đào tạo LLM trên dữ liệu của chính mình và hy vọng rằng nó sẽ mang lại nhiều giá trị kinh doanh hơn; sở hữu LLM và biến nó thành giá trị thương mại. GPU chỉ cần thiết để đào tạo các mô hình lớn;
Liên lạc giữa các doanh nghiệp này với các nhà cung cấp đám mây lớn (Azure, Google Cloud, AWS), cố gắng đạt đủ H100;
Trong quá trình này, họ phát hiện ra rằng các nhà cung cấp đám mây không có đủ H100 để phân bổ và một số nhà cung cấp đám mây cũng có cấu hình mạng bị lỗi, vì vậy CoreWeave, Oracle, Lambda và FluidStack cũng đã mua GPU và sở hữu chúng, có thể họ cũng thảo luận với OEM và NVIDIA;
Cuối cùng, họ có rất nhiều GPU;
Bây giờ, họ đang cố gắng đưa sản phẩm của họ phù hợp với thị trường;
Trong trường hợp chưa rõ ràng, con đường sẽ không dễ dàng - hãy nhớ rằng OpenAI đã đạt được sản phẩm phù hợp với thị trường trên một mô hình nhỏ hơn và sau đó mở rộng quy mô. Nhưng bây giờ để đạt được sự phù hợp với thị trường sản phẩm, bạn phải phù hợp với trường hợp sử dụng của người dùng tốt hơn mô hình của OpenAI, vì vậy bạn cần nhiều GPU hơn OpenAI để bắt đầu.
**Ít nhất đến cuối năm 2023, các doanh nghiệp triển khai hàng trăm, hàng nghìn chiếc H100 sẽ thiếu hụt, có thể đến cuối năm 2023 tình hình sẽ rõ ràng hơn, nhưng có vẻ như tình trạng khan hiếm GPU có thể tiếp tục đến năm 2024. **
Hành trình cung và cầu GPU
Thẩm quyền giải quyết
Nhận xét từ một nhà sáng lập khởi nghiệp LLMs dành cho doanh nghiệp tùy chỉnh
Tin nhắn từ một nhà cung cấp dịch vụ đám mây
Cuộc trò chuyện với các công ty đám mây và nhà cung cấp GPU
Tesla Q1 2023 (bao gồm từ ngày 1 tháng 1 năm 2023 đến ngày 31 tháng 3 năm 2023) cuộc gọi thu nhập
Nhận xét từ một công ty điện toán đám mây
Một sân bóng ước tính từ một công ty đám mây
︎
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Phân tích cung cầu H100: Cuộc chiến chip sẽ kéo dài bao lâu?
Tác giả: Clay Pascal
Biên soạn: văn lý, Lavida, yunhao
Người giới thiệu: Cage, Hoài Vệ
Nguồn: Lân hải ngoại
Sự đột phá của các dòng máy lớn dựa trên sự cải thiện sức mạnh tính toán phần cứng và khả năng điện toán đám mây, NVIDIA H100 vốn được coi là "quả bom hạt nhân" GPU đang đối mặt với tình trạng thiếu hụt nghiêm trọng nhất trong lịch sử. Sam Altman đã trực tiếp tuyên bố rằng việc thiếu GPU sẽ hạn chế tốc độ nâng cấp công nghệ của OpenAI về khả năng tinh chỉnh, dung lượng chuyên dụng, cửa sổ ngữ cảnh 32K và tính đa phương thức.
Bài viết này được tổng hợp từ GPU Utils, tác giả chủ yếu thảo luận về thời gian tồn tại của GPU (đặc biệt là NVIDIA H100) từ góc độ cung và cầu.
Từ góc độ nhu cầu, NVIDIA H100 chắc chắn là một nhu cầu khắt khe để đào tạo các mô hình lớn, theo ước tính, nhu cầu H100 hiện tại trên thị trường là khoảng 432.000 chiếc, tương đương với tổng giá trị khoảng 35.000 đô la Mỹ mỗi chiếc. Với GPU $15 tỷ**, con số 432.000 không bao gồm các công ty như ByteDance (TikTok), Baidu và Tencent cần rất nhiều H800.
Về phía nguồn cung, sự thiếu hụt H100 trực tiếp bị hạn chế bởi năng lực sản xuất của TSMC và trong thời gian ngắn, NVIDIA không có nhà máy sản xuất chip thay thế nào khác. Do các lô hàng hạn chế, NVIDIA cũng có chiến lược riêng về cách phân bổ các GPU này.Đối với NVIDIA, làm thế nào để đảm bảo rằng các GPU hạn chế này sẽ đến tay những chú ngựa ô AI thay vì các đối thủ tiềm năng như Google, Microsoft và AWS là rất quan trọng.
Cuộc chạy đua vũ trang AI quanh H100 này sẽ kéo dài bao lâu? Câu trả lời vẫn chưa rõ ràng. Mặc dù NVIDIA cho biết sẽ tăng nguồn cung trong nửa cuối năm nhưng có vẻ như tình trạng thiếu GPU có thể tiếp diễn cho đến năm 2024.
Xung quanh việc khan hiếm H100, thị trường có thể bước vào một "vòng luẩn quẩn": khan hiếm khiến dung lượng GPU bị các công ty AI coi là con hào, dẫn đến tích trữ GPU nhiều hơn, càng làm trầm trọng thêm tình trạng khan hiếm GPU.
** Sau đây là mục lục của bài viết này, nên đọc kết hợp với các điểm chính. **
👇
01 nền
02 Phân tích yêu cầu cho H100
03 H100 Phân tích bên cung
04 Cách nhận H100
05 Tóm tắt
01.Nền
Cho đến tháng 8 năm 2023, sự phát triển của lĩnh vực trí tuệ nhân tạo đã bị hạn chế do tắc nghẽn nguồn cung cấp GPU.
"Một trong những lý do khiến sự bùng nổ của AI bị đánh giá thấp là sự thiếu hụt GPU/TPU. Sự thiếu hụt GPU và TPU hạn chế tốc độ giới thiệu sản phẩm và tiến độ đào tạo mô hình, nhưng những hạn chế này bị che giấu. Chúng tôi chủ yếu thấy giá cổ phiếu của NVIDIA tăng vọt , chứ không phải là kìm hãm tiến độ R&D, mọi thứ sẽ cải thiện khi cung cầu cân bằng.
—Adam D'Angelo, CEO của Quora, Poe.com, cựu CTO của Facebook
Sam Altman cho rằng sự thiếu hụt GPU đã hạn chế tiến độ của các dự án OpenAI, chẳng hạn như tinh chỉnh, dung lượng chuyên dụng, cửa sổ ngữ cảnh 32K, đa phương thức, v.v.
Các cụm H100 quy mô lớn của các nhà cung cấp đám mây lớn và nhỏ sắp hết dung lượng.
"Mọi người đều muốn NVIDIA tạo ra nhiều A/H100 hơn."
"Do tình trạng thiếu GPU hiện tại, tốt hơn cho OpenAI là ít người sử dụng sản phẩm của chúng tôi hơn";
"Chúng tôi thực sự sẽ rất vui nếu mọi người sử dụng các sản phẩm OpenAI ít hơn vì chúng tôi không có đủ GPU."
—Sam Altman, Giám đốc điều hành, OpenAI
Một mặt, những lời của Sam Altman thể hiện một cách tinh tế rằng các sản phẩm của OpenAI đã được người dùng trên toàn thế giới yêu thích, nhưng đồng thời, nó cũng cho thấy thực tế rằng OpenAI cần nhiều GPU hơn để tiếp tục phát huy và nâng cấp các chức năng của nó.
Azure và Microsoft cũng đang đối mặt với tình huống tương tự, và một người giấu tên đã đề cập:
• Công ty đang hạn chế nhân viên sử dụng GPU, và mọi người phải xếp hàng đăng ký sức mạnh tính toán như sinh viên đại học những năm 1970 để được sử dụng máy tính. Theo quan điểm của tôi, OpenAI hiện đang hút hết tài nguyên GPU;
• Vào tháng 6 năm nay, sự hợp tác giữa Microsoft và CoreWeave về cơ bản là để tăng cường cung cấp năng lượng điện toán/GPU của Microsoft.
CoreWeave:
Các nhà cung cấp dịch vụ điện toán đám mây, theo trang web chính thức của CoreWeave, dịch vụ của họ rẻ hơn 80% so với các nhà cung cấp điện toán đám mây truyền thống. Vào tháng 4 năm 2023, CoreWeave đã nhận được khoản đầu tư vòng B của NVIDIA và thu được một số lượng lớn thẻ H100 mới. Vào tháng 6, Microsoft cũng đã ký một thỏa thuận với CoreWeave, Microsoft sẽ đầu tư hàng tỷ đô la trong vài năm tới để xây dựng cơ sở hạ tầng điện toán đám mây.
Vào tháng 7, CoreWeave đã hợp tác với NVIDIA khởi động dự án siêu máy tính AI nhanh nhất thế giới và Inflection AI đã tạo ra một trong những mô hình ngôn ngữ quy mô lớn phức tạp nhất thế giới trên CoreWeave Cloud bằng cách sử dụng cơ sở hạ tầng hỗ trợ gửi MLPerf. Ngoài ra, CoreWeave đã sử dụng thẻ tăng tốc NVIDIA H100 trong tay làm tài sản thế chấp và thông báo vào tháng 8 rằng họ đã hoàn tất khoản tài trợ nợ 2,3 tỷ USD.
Tóm lại, nguồn cung cấp GPU H100 đã khá ngắn. Thậm chí còn có tin đồn rằng **Azure và GCP trên thực tế đã hết dung lượng và AWS sắp hết dung lượng. **
Nguyên nhân của sự thiếu hụt là do NVIDIA chỉ cung cấp rất nhiều GPU H100 cho các nhà cung cấp đám mây này, do sản lượng GPU H100 của NVIDIA không thể đáp ứng nhu cầu, sức mạnh tính toán mà các nhà cung cấp đám mây này có thể cung cấp đương nhiên sẽ bắt đầu bị thiếu hụt.
Nếu muốn hiểu nút cổ chai của sức mạnh tính toán, bạn có thể tập trung vào các câu hỏi sau:
• Nguyên nhân cụ thể của tình trạng này là gì? :
Nhu cầu lớn như thế nào? Ví dụ, nhu cầu về trí tuệ nhân tạo đang tăng tương đối nhanh trong lĩnh vực nào;
Nguồn cung cấp lớn như thế nào? Năng lực sản xuất của các nhà sản xuất GPU như NVIDIA có đủ đáp ứng nhu cầu hay không;
• Tình trạng thiếu hụt này sẽ kéo dài bao lâu? Khi nào cung và cầu GPU sẽ dần đạt đến điểm cân bằng?
• Có những cách nào để khắc phục tình trạng thiếu hụt này một cách hiệu quả?
02.H100 Phân tích yêu cầu
Phân tích các vấn đề chính về tắc nghẽn năng lượng điện toán từ phía nhu cầu:
Cụ thể, thứ mà mọi người muốn mua nhưng gặp khó khăn trong việc mua là gì?
Nhu cầu GPU trên thị trường hiện tại lớn như thế nào?
Tại sao các doanh nghiệp thích NVIDIA H100 hơn các GPU khác?
Hiện nay trên thị trường có những loại GPU nào?
Doanh nghiệp có thể mua GPU ở đâu? giá của họ là gì?
**Ai là người có nhu cầu về H100? **
Doanh nghiệp có nhu cầu trên 1.000 H100 hoặc A100:
• LLM đào tạo khởi nghiệp:
OpenAI (thông qua Azure), Anthropic, Inflection (thông qua Azure và CoreWeave), Mistral AI;
• Nhà cung cấp dịch vụ đám mây (CSP):
Ngoài ba gã khổng lồ Azure, GCP và AWS, còn có các nhà cung cấp đám mây Oracle và GPU như CoreWeave và Lambda;
• Những gã khổng lồ công nghệ khác:
Ví dụ: Tesla (**chọn ghi chú: **Meta, Apple và những gã khổng lồ khác mà tác giả gốc không đề cập ở đây cũng có nhu cầu rất lớn về GPU, Google chủ yếu sử dụng TPU để xử lý tính toán và nhu cầu về H100 là chủ yếu Nền tảng đám mây của Google).
Ngoài các công ty trên, nếu công ty có nhu cầu tinh chỉnh LLM nhiều thì cũng cần đặt trước ít nhất 100 H100 hoặc A100.
Đối với các công ty áp dụng đám mây riêng (CoreWeave, Lambda) và các công ty có hàng trăm đến hàng nghìn cổ phiếu H100, họ gần như chủ yếu phải đối mặt với công việc của LLM và một số mô hình khuếch tán (Mô hình khuếch tán). Một số công ty chọn cách tinh chỉnh các mô hình hiện có, nhưng nhiều công ty khởi nghiệp AI đang xây dựng các mô hình lớn mới của riêng họ từ đầu. **Các công ty này thường ký hợp đồng với các nhà cung cấp dịch vụ đám mây tư nhân trong khoảng 10-50 triệu USD trong 3 năm và sử dụng vài trăm đến vài nghìn GPU. **
Đối với các công ty chỉ sử dụng một số lượng nhỏ GPU H100 theo yêu cầu, các tác vụ liên quan đến LLM chiếm một phần lớn mức sử dụng GPU của họ và LLM có thể sử dụng hơn 50% GPU.
Hiện tại, private cloud đang được các doanh nghiệp ưa chuộng và mặc dù các doanh nghiệp này thường chọn mặc định là các nhà cung cấp dịch vụ đám mây lớn nhưng họ cũng đứng trước nguy cơ bị đào thải.
**• Các phòng thí nghiệm AI lớn có bị hạn chế hơn bởi các nhiệm vụ suy luận hoặc nhiệm vụ đào tạo không? **
Câu hỏi này phụ thuộc vào mức độ hấp dẫn của sản phẩm của họ. Nói cách khác, sức hấp dẫn của các sản phẩm của công ty là rất quan trọng trong việc xác định phân bổ nguồn lực, trong trường hợp nguồn lực hạn chế, các ưu tiên về lý luận và đào tạo thường có điểm nhấn riêng. Quan điểm của Sam Altman là nếu phải đưa ra lựa chọn, OpenAI thiên về tăng cường khả năng suy luận, nhưng hiện tại OpenAI đang bị hạn chế ở cả hai khía cạnh.
Tại sao chỉ cần H100 để đào tạo LLM
Hầu hết thị trường hiện tại đều sử dụng GPU NVIDIA H100. Điều này là do GPU H100 nhanh nhất về đào tạo và suy luận LLM, đồng thời nó cũng có hiệu suất chi phí suy luận tốt nhất. Cụ thể, hầu hết các doanh nghiệp đều lựa chọn sử dụng máy chủ 8 GPU HGX H100 SXM.
Theo mình phân tích thì cùng 1 công việc thì H100 có lợi thế hơn về giá thành. GPU V100 là một lựa chọn tốt nếu bạn có thể tìm thấy một thiết bị đã qua sử dụng, nhưng điều đó thường không khả thi.
—— một người ẩn danh
Về mặt suy luận, chúng tôi nhận thấy GPU A10G là quá đủ và rẻ hơn nhiều.
—— Giám đốc điều hành đám mây riêng
Chúng tôi nhận thấy rằng Falcon 40b và llama2 70b cũng đang được sử dụng nhiều nên tuyên bố này không còn chính xác nữa. Do đó, tốc độ kết nối là rất quan trọng đối với các nhiệm vụ suy luận.
— (Khác) Giám đốc điều hành đám mây riêng
Chim ưng 40b :
Falcon là một mô hình ngôn ngữ lớn cơ bản với 40 tỷ tham số, Falcon 40b nhằm mục đích sử dụng ít sức mạnh tính toán đào tạo hơn để đạt được kết quả tốt hơn, mô hình chỉ chiếm 75% điện toán đào tạo GPT-3, 40% của Chinchilla và PaLM-62B 80% đào tạo. Vào ngày 25 tháng 5 năm 2023, Viện Đổi mới Công nghệ Các Tiểu vương quốc Ả Rập Thống nhất thông báo rằng họ sẽ mở nguồn Falcon 9 để nghiên cứu và sử dụng cho mục đích thương mại. Sau khi phát hành, nó từng đứng đầu danh sách LLM mã nguồn mở Hugging Face.
**• Nhu cầu chung của các nhóm doanh nhân LLM là gì? **
**Đối với các công ty khởi nghiệp LLM, họ thường chọn GPU H100 với InfiniBand 3,2Tb/giây để đào tạo LLM. Mặc dù hầu hết mọi người thích H100 hơn trong buổi đào tạo, nhưng trong buổi suy luận, các công ty này chú ý nhiều hơn đến hiệu suất chi phí, tức là hiệu suất được tạo ra trên mỗi đô la. **
Vẫn còn một số vấn đề về hiệu suất trên mỗi đô la của GPU H100 so với A100, nhưng H100 vẫn được ưa chuộng hơn vì khả năng mở rộng tốt hơn và thời gian đào tạo nhanh hơn, trong khi tốc độ/nén bắt đầu, đào tạo hoặc cải thiện Thời gian mô hình là rất quan trọng đối với công ty khởi nghiệp.
"Đối với đào tạo nhiều nút, tất cả chúng đều yêu cầu GPU A100 hoặc H100 với kết nối mạng InfiniBand. Yêu cầu duy nhất không phải A/H100 mà chúng tôi quan sát thấy là dành cho suy luận, trong đó khối lượng công việc là một GPU hoặc một nút."
—— Giám đốc điều hành đám mây riêng
Các yếu tố chính ảnh hưởng đến đào tạo LLM là:
**• Băng thông bộ nhớ: **Khi đối mặt với một lượng lớn dữ liệu được tải từ bộ nhớ, băng thông bộ nhớ cao hơn có thể tăng tốc độ tải dữ liệu;
**• Công suất tính toán của mô hình (FLOPS, phép tính dấu phẩy động trên giây): ** Đơn vị nhân ma trận lõi tenor hoặc tương đương, chủ yếu ảnh hưởng đến tốc độ tính toán;
**• Bộ nhớ cache và độ trễ của bộ nhớ cache: **Bộ nhớ cache có thể lưu trữ tạm thời dữ liệu để truy cập nhiều lần, điều này có tác động đáng kể đến hiệu suất;
**• Các tính năng bổ sung: **Chẳng hạn như FP8 (số dấu phẩy động 8 bit), v.v., các định dạng số có độ chính xác thấp có thể tăng tốc độ đào tạo và suy luận;
**• Hiệu suất điện toán: ** liên quan đến số lượng lõi CUDA của GPU và chủ yếu ảnh hưởng đến số lượng tác vụ có thể được thực thi song song;
**• Tốc độ kết nối: **Đối với băng thông kết nối giữa các nút nhanh như InfiniBand, yếu tố này sẽ ảnh hưởng đến tốc độ đào tạo phân tán.
**H100 được ưa chuộng hơn A100 một phần do độ trễ bộ nhớ cache thấp hơn và khả năng tính toán FP8 của H100. **
H100 thực sự là lựa chọn hàng đầu vì hiệu năng gấp 3 lần A100 nhưng giá chỉ bằng 1,5 - 2 lần A100. Xét về giá thành của cả hệ thống thế nào thì hiệu năng trên 1 đồng của H100 cũng cao hơn rất nhiều, nếu xét về hiệu năng của hệ thống thì hiệu suất trên 1 đồng có thể cao gấp 4-5 lần.
—— Một nhà nghiên cứu học sâu
**Tại sao độ chính xác của con số lại quan trọng như vậy? **
Các số dấu phẩy động có độ chính xác thấp có thể cải thiện tốc độ đào tạo và suy luận.Ví dụ: FP16 có dung lượng bộ nhớ bằng một nửa so với FP32 và nhanh hơn FP32 ba lần về tốc độ tính toán. Trong quá trình đào tạo LLM, để đảm bảo sự cân bằng giữa tốc độ và độ chính xác, các phương pháp như độ chính xác hỗn hợp và độ chính xác thích ứng được sử dụng để tăng tốc các mô hình ngôn ngữ lớn. Google đã đề xuất định dạng số BFP16, giúp mở rộng phạm vi số trong khi giảm độ chính xác và hiệu suất tốt hơn FP 32.
**• Bên cạnh GPU, các liên kết chi phí trong đào tạo và vận hành LLM là gì? **
GPU hiện là thành phần đắt nhất trong toàn bộ cơ sở hạ tầng đào tạo LLM, nhưng các khía cạnh khác của chi phí không thấp, điều này cũng ảnh hưởng đến chi phí đào tạo và vận hành của LLM:
Bộ nhớ hệ thống và ổ SSD NVMe đắt tiền: Các mẫu máy lớn cần nhiều bộ nhớ tốc độ cao và ổ SSD tốc độ cao để lưu vào bộ đệm và tải dữ liệu, đồng thời cả hai thành phần đều đắt tiền;
Mạng tốc độ cao rất đắt: Các mạng tốc độ cao như InfiniBand (được sử dụng để liên lạc giữa các nút) rất đắt, đặc biệt là đối với đào tạo phân tán, quy mô lớn.
Có lẽ 10% -15% tổng chi phí vận hành một cụm dành cho điện và lưu trữ, chia đều cho cả hai. Chi phí điện bao gồm điện, chi phí xây dựng trung tâm dữ liệu, chi phí đất đai và nhân viên, v.v., khoảng 5% -8%; chi phí lưu trữ bao gồm đất đai, tòa nhà, nhân viên, v.v., khoảng 5% -10%. **
Mối quan tâm chính của chúng tôi là mạng và trung tâm dữ liệu đáng tin cậy. AWS không phù hợp do hạn chế về mạng và phần cứng không đáng tin cậy.
——Nhà nghiên cứu học sâu
**• Công nghệ GPUDirect hỗ trợ như thế nào trong đào tạo LLM? **
GPUDirect của NVIDIA không bắt buộc đối với đào tạo LLM, nhưng nó cũng có thể giúp nâng cao hiệu suất:
Công nghệ GPUDirect có thể cải thiện hiệu suất, nhưng không nhất thiết phải là sự khác biệt siêu tới hạn. Nó chủ yếu phụ thuộc vào vị trí tắc nghẽn hệ thống của bạn. Đối với một số kiến trúc/triển khai phần mềm, nút cổ chai hệ thống không nhất thiết phải là mạng. **Nhưng trong trường hợp kết nối mạng, GPUDirect có thể cải thiện hiệu suất thêm 10%-20%, đây là một con số đáng kể so với chi phí chạy đào tạo đắt đỏ. **
Tuy nhiên, GPUDirect RDMA giờ đây phổ biến đến mức mức độ phổ biến của nó gần như nói lên điều đó. Tôi nghĩ hỗ trợ GPUDirect yếu đối với các mạng không phải Infiniband, nhưng hầu hết các cụm GPU được tối ưu hóa cho đào tạo mạng thần kinh đều có mạng/thẻ Infiniband. Yếu tố lớn hơn đối với hiệu suất có lẽ là NVLink, vì nó hiếm hơn Infiniband, nhưng nó cũng chỉ quan trọng nếu bạn sử dụng một chiến lược song song hóa cụ thể.
Vì vậy, các tính năng như kết nối mạng mạnh mẽ và GPUDirect có thể giúp phần mềm kém tinh vi hơn hoạt động hiệu quả. Tuy nhiên, GPUDirect không bắt buộc phải có nếu xem xét chi phí hoặc cơ sở hạ tầng kế thừa.
—— Một nhà nghiên cứu học sâu
GPUDirect:
Công nghệ truyền dữ liệu có tên GPUDirect Storage (GPUDirect Storage) do NVIDIA giới thiệu chủ yếu được sử dụng để tăng tốc độ truyền dữ liệu được lưu trữ trong các kho lưu trữ khác nhau sang bộ nhớ GPU, có thể tăng băng thông từ 2 đến 8 lần và cũng có thể giảm tốc độ kết thúc. độ trễ đầu cuối lên tới 3,8 lần. Trước đây, CPU chịu trách nhiệm tải dữ liệu từ bộ nhớ đến GPU, điều này hạn chế rất nhiều hiệu năng của phần cứng.
Đường dẫn tiêu chuẩn để truyền dữ liệu từ đĩa NVMe sang bộ nhớ GPU là sử dụng bộ đệm thoát (Bounce Buffer) trong bộ nhớ hệ thống, đây là một bản sao dữ liệu bổ sung. Cốt lõi của công nghệ lưu trữ GPUDirect là tránh sử dụng bộ nhớ đệm phục hồi để giảm các bản sao dữ liệu bổ sung và sử dụng công cụ truy cập bộ nhớ trực tiếp (Truy cập bộ nhớ trực tiếp, DMA) để đưa dữ liệu trực tiếp vào bộ nhớ GPU.
**Tại sao công ty LLM không thể sử dụng GPU của AMD? **
Giám đốc điều hành của một công ty đám mây tư nhân cho biết, về mặt lý thuyết, việc mua GPU AMD là khả thi, nhưng phải mất một khoảng thời gian nhất định từ khi mua đến khi thiết bị hoạt động thực tế. Do đó, CUDA là con hào hiện tại của NVIDIA.
Một nghiên cứu của MosaicML đã đề cập rằng GPU AMD cũng phù hợp với các nhiệm vụ đào tạo mô hình lớn. Họ đã thử nghiệm một nhiệm vụ đào tạo đơn giản dựa trên PyTorch mà không cần sửa đổi mã so với chạy trên NVIDIA. Các tác giả cho thấy rằng miễn là cơ sở mã được xây dựng trên PyTorch, nó có thể được sử dụng trực tiếp trên AMD mà không cần điều chỉnh bổ sung. Trong tương lai, tác giả có kế hoạch xác minh hiệu suất của hệ thống AMD trên một cụm máy tính lớn hơn.
Đồng thời, cũng có quan điểm cho rằng nếu xét chi phí đào tạo một người mẫu lên tới gần 300 triệu USD, sẽ không ai mạo hiểm trông cậy vào chip của AMD hay các startup khác với quy mô lớn, nhất là khi nhu cầu chip đang rất lớn. trên đơn đặt hàng của hơn 10.000.
Một người đã nghỉ hưu trong ngành bán dẫn cũng đề cập rằng tình hình nguồn cung của AMD không khả quan và năng lực sản xuất CoWoS của TSMC đã bị NVIDIA hấp thụ nên mặc dù MI250 có thể là một giải pháp thay thế khả thi nhưng cũng rất khó để có được.
H100 so với A100
NVIDIA A100:
Bản nâng cấp của NVIDIA V100, so với V100 thì hiệu năng của A100 được cải thiện gấp 20 lần, rất phù hợp cho các tác vụ như AI, phân tích dữ liệu. Bao gồm 54 tỷ bóng bán dẫn, A100 tích hợp lõi Tensor thế hệ thứ ba với khả năng tăng tốc cho các hoạt động ma trận thưa thớt, đặc biệt hữu ích cho đào tạo và lý luận AI. Ngoài ra, nhiều GPU A100 có thể được tận dụng cho khối lượng công việc suy luận AI lớn hơn với công nghệ kết nối NVIDIA NVLink.
NVIDIA H100:
Thế hệ tiếp theo của A100 là chip mới nhất được tối ưu hóa cho các mẫu lớn. Nó dựa trên kiến trúc Hopper, được xây dựng bằng quy trình phiên bản tùy chỉnh 5nm của TSMC (4N) và một con chip chứa 80 tỷ bóng bán dẫn. Cụ thể, NVIDIA đã đề xuất Transformer Engine, tích hợp nhiều tính toán chính xác và khả năng xử lý động của mạng thần kinh Transformer, cho phép GPU H100 giảm đáng kể thời gian đào tạo mô hình. Dựa trên H100, NVIDIA cũng đã tung ra hàng loạt sản phẩm máy trạm và siêu máy tính học máy, chẳng hạn như 8 chiếc H100 và 4 chiếc NVLink kết hợp lại để tạo thành một GPU khổng lồ - DGX H100.
So với A100, tốc độ suy luận 16 bit của H100 nhanh hơn khoảng 3,5 lần và tốc độ đào tạo 16 bit nhanh hơn khoảng 2,3 lần.
Hầu hết mọi người có xu hướng mua H100 để đào tạo và suy luận mô hình, và sử dụng A100 chủ yếu để suy luận mô hình. Tuy nhiên, người ta cũng có thể xem xét các yếu tố sau:
**• Chi phí: **H100 đắt hơn A100;
**• Dung lượng: **A100 và H100 khác nhau về khả năng tính toán và bộ nhớ;
**• Sử dụng phần cứng mới: **Việc áp dụng H100 yêu cầu các điều chỉnh tương ứng về phần mềm và quy trình làm việc;
**• Rủi ro: ** Có nhiều rủi ro chưa biết hơn khi thiết lập H100;
**• PHẦN MỀM ĐƯỢC TỐI ƯU HÓA: **Một số phần mềm đã được tối ưu hóa cho A100.
Nhìn chung, mặc dù H100 có hiệu suất cao hơn, nhưng đôi khi bạn nên chọn A100,** điều này khiến việc nâng cấp từ A100 lên H100 không phải là một quyết định dễ dàng với nhiều yếu tố cần cân nhắc. **
Trên thực tế, A100 sẽ trở thành V100 như ngày nay sau vài năm nữa. Xem xét các hạn chế về hiệu suất, tôi nghĩ rằng hầu như không ai sẽ đào tạo LLM trên V100 ngay bây giờ. Nhưng V100 vẫn đang được sử dụng để suy luận và các tác vụ khác. Tương tự như vậy, giá của A100 có thể giảm khi nhiều công ty AI chuyển sang H100 để đào tạo các mô hình mới, nhưng sẽ luôn có nhu cầu về A100, đặc biệt là để suy luận.
Tôi nghĩ rằng điều đó có thể dẫn đến làn sóng A100 tràn ngập thị trường một lần nữa khi một số công ty khởi nghiệp được tài trợ rất lớn cuối cùng phải phá sản.
— (Khác) Giám đốc điều hành đám mây riêng
Nhưng theo thời gian, mọi người sẽ sử dụng A100 cho nhiều tác vụ suy luận hơn thay vì đào tạo các mô hình mới nhất và lớn hơn. **Hiệu suất của V100 không còn có thể hỗ trợ đào tạo các mô hình lớn và card đồ họa bộ nhớ cao phù hợp hơn cho các mô hình lớn, vì vậy các nhóm tiên tiến thích H100 hoặc A100 hơn.
Lý do chính của việc không sử dụng V100 là thiếu kiểu dữ liệu brainfloat16 (bfloat16, BF16). Không có loại dữ liệu này, rất khó để huấn luyện các mô hình một cách dễ dàng. Lý do chính cho hiệu suất kém của OPT và BLOOM là do không có loại dữ liệu này (OPT được đào tạo trong float16, BLOOM chủ yếu được tạo mẫu trong FP16, điều này khiến không thể khái quát hóa dữ liệu cho các lần chạy đào tạo được thực hiện trong BF16).
——Nhà nghiên cứu học sâu
**• Sự khác biệt giữa GPU của Nvida H100, GH200, DGX GH200, HGX H100 và DGX H100 là gì? **
• H100 = 1x GPU H100;
• HGX H100 = Nền tảng tham chiếu máy chủ NVIDIA. Được các OEM sử dụng để xây dựng máy chủ 4 GPU hoặc 8 GPU, được sản xuất bởi các OEM bên thứ ba như Supermicro;
• DGX H100 = Máy chủ NVIDIA H100 chính thức với 8x H100, NVIDIA là nhà cung cấp duy nhất;
• GH200 = 1x GPU H100 cộng với 1x CPU Grace;
• DGX GH200 = 256x GH200, ra mắt cuối 2023, chắc chỉ của NVIDIA;
• MGX dành cho các công ty điện toán đám mây lớn.
Trong số này, hầu hết các công ty đã chọn mua máy chủ 8-GPU HGX H100 thay vì máy chủ DGX H100 hoặc 4-GPU HGX H100.
**Các GPU này có giá bao nhiêu? **
1x DGX H100 (SXM) với 8x GPU H100 có giá 460.000 USD, bao gồm các dịch vụ hỗ trợ bắt buộc, v.v., khoảng 100.000 USD. Các công ty khởi nghiệp có thể được giảm giá Inception khoảng 50.000 đô la cho tối đa 8 hộp DGX H100, với tổng số 64 H100.
Thông số kỹ thuật cụ thể của GPU như sau:
1x HGX H100 (SXM) với 8x GPU H100 có thể có giá từ 300.000-380.000 USD tùy thuộc vào thông số kỹ thuật (mạng, lưu trữ, bộ nhớ, CPU) cũng như lợi nhuận và mức hỗ trợ của nhà cung cấp. Nếu thông số hoàn toàn giống với DGX H100, doanh nghiệp có thể trả giá cao hơn từ 360.000 USD đến 380.000 USD bao gồm hỗ trợ.
1x HGX H100 (PCIe) với 8x GPU H100 có giá khoảng 300.000 USD bao gồm hỗ trợ, tùy thuộc vào thông số kỹ thuật.
Giá thị trường cho thẻ PCIe là khoảng 30.000 đến 32.000 đô la.
Các card đồ họa SXM không được bán dưới dạng các card đơn nên việc định giá rất khó khăn. Thường chỉ được bán dưới dạng máy chủ 4GPU và 8GPU.
Khoảng 70-80% nhu cầu trên thị trường là SXM H100, còn lại là PCIe H100. Nhu cầu đối với phân khúc SXM đang tăng lên do chỉ có thẻ PCIe trong những tháng trước. Cho rằng hầu hết các công ty đang mua 8GPU HGX H100 (SXM), đó là khoảng $360.000-$380.000 cho mỗi 8 H100, bao gồm các thành phần máy chủ khác.
DGX GH200 chứa 256x GH200 và mỗi GH200 chứa 1x H100 GPU và 1x Grace CPU. Theo ước tính, giá thành của DGX GH200 có thể vào khoảng 15 triệu - 25 triệu đô la Mỹ.
** Nhu cầu thị trường đối với GPU là gì? **
• Đào tạo GPT-4 có thể được thực hiện trên 10.000 đến 25.000 tờ A100;
• Meta có khoảng 21.000 A100, Tesla có khoảng 7.000 A100 và Ổn định AI có khoảng 5.000 A100;
• Huấn luyện Falcon 40B được thực hiện trên 384 chiếc A100;
• Inflection sử dụng 3500 tờ H100 trong mẫu tương đương GPT-3.5.
Chúng tôi sẽ có 22.000 GPU được sử dụng vào tháng 12 và hơn 3.500 đơn vị đang được sử dụng hiện nay.
— Mustafa Suleyman, Giám đốc điều hành, Inflection AI
**Theo Elon Musk, đào tạo GPT-5 có thể sử dụng 30.000-50.000 H100. **Morgan Stanley đã đề xuất vào tháng 2 năm 2023 rằng GPT-5 sẽ sử dụng 25.000 GPU và họ cũng đề xuất vào thời điểm đó rằng GPT-5 đã được đào tạo, nhưng Sam Altman sau đó đã từ chối điều này vào tháng 5 năm nay, nói rằng OpenAI không đào tạo GPT-5 nên thông tin của Morgan Stanley có thể không chính xác.
GCP có khoảng 25.000 H100 và Azure có thể có 10.000-40.000 H100. Nó sẽ tương tự đối với Oracle. Ngoài ra, phần lớn năng lực của Azure sẽ được cung cấp cho OpenAI.
CoreWeave duy trì khoảng 35.000 đến 40.000 chiếc H100, nhưng điều này dựa trên đơn đặt hàng, không phải thực tế.
** Startup đặt hàng bao nhiêu chiếc H100? **Nếu được sử dụng cho nhiệm vụ tinh chỉnh LLM, thường hàng chục hoặc hàng trăm tờ được đặt hàng; nếu được sử dụng cho đào tạo LLM, hàng nghìn tờ được yêu cầu.
**Một công ty trong lĩnh vực LLM có thể cần bao nhiêu H100? **
• OpenAI có thể cần 50.000, Inflection có thể cần 24.000 và Meta có thể cần 25.000 (cũng có ý kiến cho rằng Meta thực sự cần 100.000 hoặc hơn);
• Các nhà cung cấp dịch vụ đám mây lớn, chẳng hạn như Azure, Google Cloud, AWS và Oracle, mỗi nhà cung cấp có thể cần 30.000;
• Các nhà cung cấp dịch vụ đám mây riêng, chẳng hạn như Lambda và CoreWeave và các đám mây riêng khác có thể có tổng số lên tới 100.000;
• Anthropic, Helsing, Mistral, Character có thể có giá 10k mỗi loại.
Các con số ở trên là ước tính và phỏng đoán, và một số trong số chúng có thể được tính hai lần, chẳng hạn như khách hàng thuê đám mây. ** Nhìn chung, theo tính toán hiện tại, số lượng H100 vào khoảng 432.000 chiếc, nếu tính ra khoảng 35.000 USD mỗi chiếc thì đây là GPU có tổng giá trị khoảng 15 tỷ USD. Ngoài ra, con số 432.000 không bao gồm các công ty Trung Quốc như ByteDance (TikTok), Baidu và Tencent yêu cầu rất nhiều H800. **
Ngoài ra, một số công ty tài chính cũng đang triển khai A100/H100 từ hàng trăm đến hàng nghìn như Jane Street, JP Morgan, Two Sigma và Citadel.
**Điều này so với doanh thu của trung tâm dữ liệu NVIDIA như thế nào? **Doanh thu của trung tâm dữ liệu NVIDIA là 4,28 tỷ USD từ tháng 2 đến tháng 4 năm 2023. Từ ngày 25 tháng 5 đến tháng 7 năm 2023, doanh thu của trung tâm dữ liệu có thể vào khoảng 8 tỷ USD. **Điều này chủ yếu dựa trên giả định rằng hướng dẫn doanh thu cao hơn của NVIDIA trong quý chủ yếu là do doanh thu trung tâm dữ liệu cao hơn chứ không phải doanh thu cao hơn từ các lĩnh vực kinh doanh khác. **
Do đó, có thể mất một thời gian để tình trạng thiếu hụt nguồn cung giảm bớt. Nhưng có thể sự thiếu hụt sức mạnh tính toán đã bị phóng đại, trước hết, hầu hết các công ty không mua ngay tất cả H100 họ cần mà nâng cấp dần dần, bên cạnh đó, NVIDIA cũng đang tích cực tăng cường năng lực sản xuất.
Việc có tổng cộng 400.000 chiếc H100 trên thị trường không phải là điều xa vời, đặc biệt khi mọi người đang triển khai những chiếc H100 4 hoặc 5 con số với số lượng lớn hiện nay.
—— Giám đốc điều hành đám mây riêng
Tóm tắt
• Hầu hết các CSP lớn (Azure, AWS, GCP và Oracle) và các đám mây riêng (CoreWeave, Lambda và nhiều loại khác) thích nhiều GPU H100 hơn là chỉ có thể truy cập chúng, hầu hết các dịch vụ AI lớn Công ty cũng đang theo đuổi nhiều GPU H100 hơn .
• Thông thường, các công ty này muốn có khung máy 8GPU HGX H100 với thẻ SXM. Tùy thuộc vào thông số kỹ thuật và hỗ trợ, mỗi máy chủ 8GPU có giá khoảng 3-4 triệu USD. Có thể có nhu cầu dư thừa đối với hàng trăm nghìn GPU H100, với tổng giá trị hơn 15 tỷ USD;
• Với nguồn cung hạn chế, NVIDIA lẽ ra có thể tăng giá để tìm mức giá cân bằng thị trường, và ở một mức độ nào đó, họ đã làm như vậy. Nói chung, quyết định cuối cùng về cách phân bổ GPU H100 phụ thuộc vào việc chính NVIDIA muốn phân bổ GPU cho khách hàng nào.
03.H100 Phân tích bên cung
Thắt cổ chai từ TSMC
H100 do TSMC (TSMC) sản xuất, **Liệu NVIDIA có thể chọn các nhà máy sản xuất chip khác để sản xuất thêm H100 không? Ít nhất là chưa. **
NVIDIA đã từng hợp tác với Samsung trước đây nhưng Samsung không thể đáp ứng nhu cầu của họ về GPU tiên tiến nên hiện tại NVIDIA chỉ có thể sử dụng GPU H100s và các GPU 5nm khác do TSMC sản xuất. **Có thể trong tương lai NVIDIA sẽ hợp tác với Intel, hoặc tiếp tục hợp tác với Samsung về các công nghệ liên quan, nhưng cả hai trường hợp này đều không xảy ra trong ngắn hạn nên tình trạng thiếu hụt nguồn cung H100 sẽ không thể thuyên giảm. **
Công nghệ 5 nanomet (N5) của TSMC sẽ được đưa vào sản xuất hàng loạt vào năm 2020. Công nghệ N5 là công nghệ xử lý EUV thứ hai của TSMC, cung cấp tốc độ nhanh hơn và mức tiêu thụ điện năng thấp hơn so với công nghệ N7 trước đó. Ngoài ra, TSMC cũng có kế hoạch ra mắt công nghệ 4 nanomet (N4), đây là phiên bản nâng cao của công nghệ N5 giúp cải thiện hơn nữa hiệu suất và mức tiêu thụ điện năng, đồng thời có kế hoạch bắt đầu sản xuất hàng loạt vào năm 2022.
H100 được sản xuất dựa trên quy trình TSMC 4N, thuộc 5nm nâng cao trong dòng 5nm chứ không phải quy trình 4nm thực sự. ** Ngoài NVIDIA, Apple cũng đang sử dụng công nghệ này, nhưng họ chủ yếu chuyển sang N3 và giữ phần lớn dung lượng của N3. **Ngoài ra, Qualcomm và AMD là những khách hàng lớn của dòng N5.
A100 sử dụng quy trình N7 của TSMC.
7 nanomet (N7) là nút quy trình mà TSMC sẽ đưa vào sản xuất hàng loạt vào năm 2019. Trên nền tảng của N7, TSMC cũng giới thiệu quy trình N7+, đây là quy trình sản xuất 7nm sử dụng EUV (kỹ thuật in khắc cực tím), giúp tăng mật độ bóng bán dẫn từ 15% đến 20% đồng thời giảm mức tiêu thụ điện năng của chip.
Nói chung, năng lực xử lý mặt trước (Dung lượng Fab) sẽ được lên kế hoạch trước hơn 12 tháng. Người ta chỉ ra rằng TSMC và các khách hàng lớn của họ sẽ cùng nhau lên kế hoạch về nhu cầu sản xuất cho năm tới, vì vậy việc thiếu hụt nguồn cung H100 hiện tại một phần là do TSMC và NVIDIA đã đánh giá sai nhu cầu H100 của năm nay so với năm trước.
Dung lượng Fab:
Trong quy trình xử lý chip bán dẫn, Fab là chữ viết tắt của FABRICATION (gia công, sản xuất) và Fab Capacity có thể coi là công suất dung lượng.
Theo một nguồn tin khác, thông thường H100 sẽ mất 6 tháng để bán cho khách hàng (sản xuất, đóng gói và thử nghiệm) kể từ khi bắt đầu sản xuất, nhưng tình hình này vẫn chưa được xác nhận.
Một chuyên gia đã nghỉ hưu trong ngành công nghiệp bán dẫn chỉ ra rằng năng lực sản xuất tấm bán dẫn không phải là nút thắt cổ chai của TSMC, mà nút thắt thực sự nằm ở CoWoS (xếp chồng ba chiều) đã nói ở trên.
CoWoS (Chip trên wafer trên Chất nền, xếp chồng ba chiều):
Đó là công nghệ sản xuất tích hợp 2.5D của TSMC, đầu tiên chip được kết nối với tấm wafer silicon thông qua quy trình đóng gói CoW (Chip on Wafer), sau đó chip CoW được kết nối với đế (Substrate) và tích hợp vào CoWoS .
Theo DigiTimes, TSMC đã bắt đầu mở rộng năng lực sản xuất CoWoS và có kế hoạch tăng năng lực sản xuất CoWoS từ 8.000 tấm wafer mỗi tháng lên 11.000 tấm wafer mỗi tháng vào cuối năm 2023 và lên khoảng 14.500 đến 16.600 tấm wafer mỗi tháng vào cuối năm 2020. 2024. Những gã khổng lồ công nghệ lớn như NVIDIA, Amazon, Broadcom, Cisco và Xilinx đều có nhu cầu ngày càng tăng đối với bao bì CoWoS tiên tiến của TSMC.
Bộ nhớ H100
**Loại bộ nhớ (Memory Bype), Độ rộng bus bộ nhớ (Memory Bus Width) và Tốc độ xung nhịp bộ nhớ (Memory Clock Speed) cùng ảnh hưởng đến băng thông bộ nhớ của GPU. **NVIDIA đã thiết kế độ rộng bus và tốc độ xung nhịp của H100 như một phần của kiến trúc GPU. Bộ nhớ HBM3 chủ yếu được sử dụng trên H100 SXM và HBM2e chủ yếu được sử dụng trên H100 PCIe.
HBM rất khó sản xuất và nguồn cung rất hạn chế nên việc sản xuất HBM là một cơn ác mộng. Nhưng một khi HBM được sản xuất, phần còn lại của thiết kế trở nên dễ dàng.
——Một nhà nghiên cứu Deepl Learning
**Loại bộ nhớ, độ rộng bus bộ nhớ và tốc độ xung nhịp bộ nhớ là ba chỉ số quan trọng của bộ nhớ máy tính. **
Chiều rộng Bus bộ nhớ:
Nó đề cập đến chiều rộng của kênh truyền dữ liệu giữa mô-đun bộ nhớ và bo mạch chủ. Chiều rộng bus bộ nhớ rộng hơn có thể cung cấp đường dẫn dữ liệu lớn hơn, do đó tăng tốc độ truyền dữ liệu giữa bộ nhớ và bộ xử lý.
Tốc độ xung nhịp bộ nhớ:
Đề cập đến tần số xung nhịp làm việc của mô-đun bộ nhớ. Tốc độ xung nhịp bộ nhớ cao hơn có nghĩa là bộ nhớ có thể thực hiện các thao tác đọc và ghi nhanh hơn, đồng thời cung cấp tốc độ truyền dữ liệu cao hơn.
HBM(Bộ nhớ băng thông cao):
Là công nghệ bộ nhớ băng thông cao được sử dụng để cung cấp tốc độ truy cập bộ nhớ nhanh trong các đơn vị xử lý đồ họa (GPU) và các thiết bị điện toán hiệu suất cao khác. Công nghệ bộ nhớ được sử dụng trong card đồ họa và thiết bị máy tính truyền thống thường dựa trên thiết kế GDDR (Tốc độ dữ liệu kép đồ họa), có sự cân bằng nhất định giữa hiệu suất và mức tiêu thụ điện năng. Công nghệ HBM đạt được băng thông cao hơn và mức tiêu thụ điện năng thấp hơn bằng cách đặt các ngăn xếp bộ nhớ trên chip GPU và xếp chồng nhiều chip DRAM với nhau thông qua các kết nối dọc tốc độ cao (TSV).
Đối với bộ nhớ HBM3, NVIDIA có thể sử dụng tất cả hoặc chủ yếu SK Hynix. Không rõ H100 của NVIDIA có sử dụng bộ nhớ của Samsung hay không, nhưng chắc chắn rằng NVIDIA hiện không sử dụng bộ nhớ của Micron.
Đối với HBM3, nói chung, SK Hynix có sản lượng lớn nhất, tiếp theo là Samsung và Micron xếp thứ ba có khoảng cách sản lượng lớn với hai công ty trước. Có vẻ như SK Hynix đã tăng cường sản xuất, nhưng NVIDIA vẫn muốn họ sản xuất nhiều hơn, trong khi Samsung và Micron vẫn chưa tăng sản lượng.
**Cái gì khác được sử dụng trong sản xuất GPU? **
Ngoài ra, việc sản xuất GPU cũng sẽ liên quan đến rất nhiều vật liệu và linh kiện kim loại, việc thiếu hụt nguyên liệu thô tại các mắt xích này cũng sẽ gây ra tình trạng tắc nghẽn nguồn cung GPU, chẳng hạn như:
**• Kim loại và hóa chất: **Bao gồm silicon (á kim) như đồng, tantalum, vàng, nhôm, niken, thiếc, indium và palladi, được sử dụng trong các giai đoạn sản xuất khác nhau, từ sản xuất vòng silicon đến lắp ráp GPU cuối cùng , chẳng hạn như silicon, đất hiếm, v.v.;
**• Các thành phần và vật liệu đóng gói: **Chẳng hạn như chất nền, bóng hàn và dây điện, hợp chất tản nhiệt, v.v., được sử dụng để hoàn thiện quá trình lắp ráp và liên kết các thành phần khác nhau của GPU, đồng thời rất quan trọng đối với hoạt động của GPU GPU;
**• Tiêu thụ năng lượng:**Do sử dụng các thiết bị cơ khí có độ chính xác cao trong quá trình sản xuất chip GPU nên cần một lượng điện năng lớn.
** NVIDIA giải quyết tình trạng thiếu H100 như thế nào? **
NVIDIA tiết lộ họ sẽ tăng nguồn cung trong nửa cuối năm nay Giám đốc tài chính của NVIDIA cho biết tại buổi báo cáo tài chính rằng công ty đang nỗ lực hết sức để giải quyết vấn đề nguồn cung, ngoài ra họ không truyền đạt thêm bất kỳ thông tin nào, cũng như không họ có số liệu cụ thể nào liên quan đến H100 không. .
"Chúng tôi đang giải quyết các vấn đề về nguồn cung trong quý, nhưng chúng tôi cũng đã mua rất nhiều hàng dự trữ cho nửa cuối năm nay."
"Chúng tôi tin rằng nguồn cung trong nửa cuối năm sẽ cao hơn đáng kể so với nửa đầu năm."
-- Colette Kress, Giám đốc tài chính của Nvidia, trong cuộc gọi thu nhập từ tháng 2 đến tháng 4 năm 2023
Một giám đốc điều hành của công ty đám mây tư nhân tin rằng **một vòng luẩn quẩn có thể xuất hiện trên thị trường tiếp theo, đó là sự khan hiếm khiến năng lực GPU được coi là con hào đối với các công ty AI, dẫn đến việc tích trữ nhiều GPU hơn, điều này càng làm trầm trọng thêm tình trạng khan hiếm của GPU. **
Theo khoảng thời gian lịch sử giữa các lần ra mắt các kiến trúc khác nhau của NVIDIA, mẫu H100 thế hệ tiếp theo có thể không được phát hành cho đến cuối năm 2024 (giữa năm 2024 đến đầu năm 2025). Trước đó, H100 sẽ luôn là sản phẩm cấp cao nhất của GPU NVIDIA (GH200 và DGX GH200 không được tính, chúng không phải là GPU thuần túy và cả hai đều sử dụng H100 làm GPU).
Ngoài ra, dự kiến trong tương lai sẽ có phiên bản 120GB với bộ nhớ lớn hơn.
04. Cách nhận H100
Người bán H100
Các nhà sản xuất thiết bị gốc (OEM) như Dell, HPE, Lenovo, Supermicro và Quanta đang bán H100 và HGX H100, trong khi việc đặt hàng InfiniBand cần được thực hiện thông qua NVIDIA Mellanox.
Mellanox là một trong những nhà cung cấp InfiniBand lớn trên toàn cầu. Năm 2015, thị phần của Mellanox trên thị trường IB toàn cầu đạt 80%. Vào năm 2019, NVIDIA đã mua lại Mellanox với giá 125 USD/cổ phiếu, với tổng giá trị giao dịch khoảng 6,9 tỷ USD. Việc mua lại này cho phép NVIDIA tiếp tục mở rộng thị phần của mình trong các trung tâm dữ liệu và điện toán hiệu suất cao, đồng thời củng cố khả năng cạnh tranh của NVIDIA trong lĩnh vực AI.
Bằng cách kết hợp công nghệ kết nối tốc độ cao của Mellanox với bộ tăng tốc GPU của NVIDIA, NVIDIA có thể cung cấp cho các trung tâm dữ liệu các giải pháp băng thông cao hơn và độ trễ thấp hơn. Ngoài Mellanox, công nghệ IB của QLogic, một nhà cung cấp khác trong lĩnh vực IB, đã được Tập đoàn Intel mua lại vào năm 2012.
Các đám mây GPU như CoreWeave và Lambda mua GPU từ các OEM và cho các Công ty khởi nghiệp thuê chúng. Các trình phát đám mây siêu quy mô (Azure, GCP, AWS, Oracle) có thể mua trực tiếp hơn với NVIDIA, nhưng đôi khi chúng cũng hoạt động với các OEM.
Đối với DGX, việc mua hàng cũng được thực hiện thông qua OEM. Mặc dù khách hàng có thể trao đổi với NVIDIA về các yêu cầu mua hàng, nhưng việc mua hàng được thực hiện thông qua OEM thay vì đặt hàng trực tiếp với NVIDIA.
Thời gian cung cấp cho máy chủ 8 GPU HGX là rất tệ và máy chủ 4 GPU HGX là khá tốt, nhưng thực tế là mọi người đều muốn máy chủ 8 GPU.
***• Từ khi đặt hàng đến khi triển khai H100 mất bao lâu? **
Triển khai là một quá trình theo từng giai đoạn. Giả sử một đơn đặt hàng 5.000 GPU, họ có thể có quyền truy cập vào 2.000 hoặc 4.000 GPU trong 4-5 tháng và sau đó là các GPU còn lại trong 6 tháng hoặc lâu hơn.
**Đối với Startup, nếu bạn muốn mua GPU, bạn không đặt hàng từ OEM hoặc đại lý **, họ thường chọn các dịch vụ đám mây công cộng như Oracle hoặc thuê quyền truy cập vào các đám mây riêng như Lambda và CoreWeave hoặc sử dụng các dịch vụ như FluidStack và các OEM cũng như nhà cung cấp làm việc với trung tâm dữ liệu cho thuê quyền truy cập.
**• Doanh nghiệp có nên xây dựng trung tâm dữ liệu hoặc colocation cho riêng mình? **
Đối với việc thành lập trung tâm dữ liệu, các yếu tố cần được xem xét bao gồm thời gian thành lập trung tâm dữ liệu, liệu có tài năng và kinh nghiệm về phần cứng hay không và quy mô đầu tư vốn.
Thuê và lưu trữ một máy chủ dễ dàng hơn nhiều. Nếu bạn muốn xây dựng trung tâm dữ liệu của riêng mình, bạn phải đặt một đường cáp quang tối đến vị trí của mình để kết nối với Internet và chi phí cáp quang là 10.000 USD mỗi km. Trong thời kỳ bùng nổ Internet, hầu hết cơ sở hạ tầng đã được xây dựng và trả tiền. Bây giờ, bạn chỉ có thể thuê, và nó khá rẻ.
—— Giám đốc điều hành đám mây riêng
Lựa chọn thuê hay xây dựng trung tâm dữ liệu là một trong hai quyết định, tùy theo nhu cầu thực tế mà doanh nghiệp có thể có những lựa chọn khác nhau sau đây:
Đám mây theo yêu cầu: hoàn toàn sử dụng dịch vụ đám mây để cho thuê;
Đám mây dành riêng;
Hosting (mua máy chủ, hợp tác với nhà cung cấp để đặt và quản lý máy chủ);
Tự thuê máy chủ (tự mua và thuê máy chủ).
Hầu hết các Công ty khởi nghiệp cần nhiều H100 sẽ chọn sử dụng dịch vụ đám mây hoặc thuê chỗ đặt máy chủ riêng.
**Doanh nghiệp chọn công ty cung cấp dịch vụ đám mây như thế nào? **
Có quan điểm cho rằng cơ sở hạ tầng của Oracle không đáng tin cậy bằng ba đám mây chính, nhưng hãng sẵn sàng dành nhiều thời gian hơn cho hỗ trợ kỹ thuật của khách hàng. Một số học viên của công ty đám mây tư nhân cho biết 100% trong số họ sẽ có một lượng lớn khách hàng không hài lòng với các dịch vụ dựa trên Oracle và một số CEO của các công ty khác tin rằng khả năng kết nối mạng của Oracle mạnh hơn.
**Thông thường, Startup sẽ chọn công ty có sự kết hợp tốt nhất giữa hỗ trợ dịch vụ, giá cả và năng lực. **
Sự khác biệt chính giữa một số công ty dịch vụ đám mây lớn là:
**• Kết nối mạng: **AWS và Google Cloud đã chậm hơn trong việc áp dụng InfiniBand vì họ có cách tiếp cận riêng, nhưng hầu hết các công ty khởi nghiệp đang tìm kiếm các cụm A100/H100 lớn đều đang tìm kiếm InfiniBand;
**• Tính khả dụng: **Ví dụ: hầu hết sức mạnh tính toán H100 của Azure được sử dụng bởi OpenAI, điều đó có nghĩa là có thể không có nhiều sức mạnh tính toán khả dụng cho các khách hàng khác.
**Mặc dù không có cơ sở thực tế, nhưng có suy đoán rằng NVIDIA có xu hướng ưu tiên cung cấp GPU hơn cho các nhà cung cấp dịch vụ đám mây chưa phát triển chip máy học cạnh tranh. **Cả ba nhà cung cấp dịch vụ đám mây lớn hiện đang phát triển chip máy học của riêng họ, nhưng AWS và các giải pháp thay thế NVIDIA của Google đã có mặt trên thị trường và lấy đi một số thị phần của NVIDIA. Điều này cũng dẫn đến một số đồn đoán trên thị trường rằng NVIDIA sẵn sàng hợp tác với Oracle hơn vì điều này.
Một số công ty đám mây lớn có giá tốt hơn những công ty khác. Như một nhà điều hành đám mây riêng đã lưu ý, "Ví dụ: A100 trên AWS/AZURE đắt hơn nhiều so với GCP."
Oracle nói với tôi rằng họ sẽ có "hàng chục nghìn chiếc H100" được đưa vào sử dụng vào cuối năm nay. Nhưng về giá cả, họ cao hơn các công ty khác. Họ không báo giá cho tôi H100, nhưng đối với A100 80GB, họ báo giá cho tôi gần 4 đô la/giờ, cao hơn gần 2 lần so với mức GCP báo giá, với cùng mức tiêu thụ điện năng và công sức.
— Ẩn danh
Các đám mây nhỏ hơn có lợi thế về giá cả, ngoại trừ một số trường hợp khi một trong những công ty đám mây lớn có thể thực hiện một thỏa thuận kỳ quặc để đổi lấy vốn chủ sở hữu.
Vì vậy, về tổng thể, xét về mức độ hợp tác chặt chẽ với NVIDIA, Oracle và Azure > GCP và AWS, nhưng đây chỉ là phỏng đoán.
Oracle đã đi tiên phong trong A100 và lưu trữ các cụm dựa trên Nvidia với sự hợp tác của Nvidia, đây cũng là một khách hàng của Azure.
***• Công ty đám mây lớn nào có hiệu suất mạng tốt nhất? **
Azure, CoreWeave và Lambda đều sử dụng InfiniBand. Hiệu suất mạng của Oracle tốt ở mức 3200 Gbps, nhưng sử dụng Ethernet thay vì InfiniBand và có thể chậm hơn khoảng 15-20% so với IB đối với các trường hợp sử dụng như đào tạo LLM thông số cao. Mạng của AWS và GCP không tốt bằng.
***• Doanh nghiệp lựa chọn dịch vụ đám mây hiện nay như thế nào? **
Một dữ liệu thống kê đối với 15 công ty cho thấy cả 15 công ty được khảo sát sẽ chọn AWS, GCP hoặc Azure và Oracle không nằm trong số đó.
Hầu hết các doanh nghiệp có xu hướng sử dụng đám mây hiện có của họ. Nhưng đối với các nhóm doanh nhân, lựa chọn của họ dựa trên thực tế nhiều hơn: bất cứ ai có thể cung cấp sức mạnh tính toán sẽ chọn cái nào.
**• NVIDIA hợp tác với ai trên DGX Cloud? **
"Nvidia đang hợp tác với các nhà cung cấp dịch vụ đám mây hàng đầu để lưu trữ Cơ sở hạ tầng đám mây DGX, bắt đầu với Cơ sở hạ tầng đám mây của Oracle" - bán với Nvidia, nhưng cho thuê thông qua các nhà cung cấp đám mây hiện có (đầu tiên là Oracle, sau đó là Azure, tiếp theo là Google Cloud, không hoạt động với AWS).
Giám đốc điều hành NVIDIA Jensen Huang cho biết trong cuộc gọi thu nhập của NVIDIA rằng "sự kết hợp lý tưởng là 10% đám mây NVIDIA DGX và 90% đám mây CSP".
*• Lịch trình H100 của các đại gia điện toán đám mây:
CoreWeave là một trong những người đầu tiên. Với tư cách là nhà đầu tư của CoreWeave và để tăng cường cạnh tranh giữa các công ty đám mây lớn, NVIDIA là công ty đầu tiên hoàn thành việc cung cấp CoreWeave.
Lịch trình H100 của các công ty dịch vụ đám mây khác như sau:
• Azure đã công bố tính khả dụng của H100 để xem trước vào ngày 13 tháng 3;
• Oracle công bố nguồn cung H100 hạn chế vào ngày 21 tháng 3;
• Lambda Labs đã thông báo vào ngày 21 tháng 3 rằng họ sẽ ra mắt H100 vào đầu tháng 4;
• AWS đã thông báo vào ngày 21 tháng 3 rằng H100 sẽ được xem trước sau vài tuần nữa;
• Google Cloud đã thông báo về việc bắt đầu xem trước riêng tư H100 vào ngày 10 tháng 5.
***• Các công ty khác nhau đang sử dụng dịch vụ đám mây nào? **
• OpenAI: Azure
• Sự thay đổi: Azure và CoreWeave
• Anthropic: AWS 和 Google Cloud
• Cohere:AWS 和 Google Cloud
• Ôm mặt: AWS
• AI ổn định: CoreWeave và AWS
• Character.ai: Google Cloud
• X.ai: Oracle
• NVIDIA: Azure
**Làm cách nào để có thêm hạn ngạch GPU? **
Nút cổ chai cuối cùng là liệu có thể nhận được sự phân phối sức mạnh tính toán từ NVIDIA hay không.
***• NVIDIA lựa chọn khách hàng như thế nào? **
NVIDIA thường phân bổ một số lượng GPU nhất định cho mỗi khách hàng và trong quá trình này **NVIDIA quan tâm nhất đến "ai là khách hàng cuối cùng", ví dụ: Azure cho biết "chúng tôi muốn mua 10.000 chiếc H100 để hỗ trợ Inflection" và kết quả tương ứng với Azure cho biết "Chúng tôi đã mua 10.000 chiếc H100 cho Azure" là khác nhau. **Nếu NVIDIA quan tâm đến một khách hàng cuối cụ thể, công ty đám mây có thể nhận thêm hạn ngạch GPU. Do đó, NVIDIA hy vọng sẽ biết càng nhiều càng tốt khách hàng cuối cùng là ai và họ sẽ nghiêng về các doanh nghiệp lớn hoặc công ty khởi nghiệp có sự ủng hộ mạnh mẽ hơn.
Vâng, đó dường như là trường hợp. Nvidia thích cấp quyền truy cập GPU cho các công ty khởi nghiệp AI (nhiều công ty trong số đó có quan hệ chặt chẽ với Nvidia). Inflection, một công ty AI do Nvidia đầu tư, đang thử nghiệm một cụm H100 khổng lồ trên CoreWeave.
—— Giám đốc điều hành đám mây riêng
Nếu một công ty đám mây nào đó đưa một khách hàng cuối đến NVIDIA và bày tỏ rằng họ sẵn sàng mua một lượng H100 nhất định và NVIDIA quan tâm đến khách hàng cuối này, NVIDIA thường sẽ đưa ra một hạn ngạch nhất định, điều này thực sự sẽ làm tăng số lượng mà NVIDIA phân bổ cho khách hàng cuối. Tổng dung lượng của công ty đám mây, vì phân bổ này độc lập với hạn ngạch ban đầu NVIDIA cấp cho công ty đám mây.
Việc NVIDIA phân bổ dung lượng lớn cho các đám mây riêng là một trường hợp đặc biệt: **CoreWeave có nhiều H100 hơn GCP. NVIDIA miễn cưỡng phân bổ các nguồn lực quan trọng cho các công ty cố gắng cạnh tranh trực tiếp với nó (AWS Inferentia và Tranium, Google TPUs, Azure Project Athena). **
Nhưng vào cuối ngày, nếu bạn gửi đơn đặt hàng và tiền cho NVIDIA, cam kết thực hiện một thỏa thuận lớn hơn với nhiều khoản tài trợ trả trước hơn và cho biết hồ sơ rủi ro thấp của mình, thì bạn chắc chắn sẽ nhận được nhiều hạn ngạch GPU hơn bất kỳ ai khác.
05. Tóm tắt
Mặc dù, như Sam Altman đã nói, "kỷ nguyên sử dụng các mô hình lớn sắp kết thúc", nhưng ở thời điểm hiện tại, chúng ta vẫn bị giới hạn bởi GPU. Một mặt, các công ty như OpenAI đã có các sản phẩm PMF tuyệt vời như ChatGPT, nhưng do bị giới hạn bởi GPU nên họ cần mua một lượng lớn sức mạnh tính toán, mặt khác, nhiều nhóm đang nghiên cứu khả năng tham gia trong LLM trong tương lai Tích trữ GPU bất kể tiềm năng của chúng để tạo ra thứ gì đó như ChatGPT.
Nhưng chắc chắn rằng quyền phát biểu của NVIDIA sẽ không bị lung lay.
Ở giai đoạn này, sản phẩm LLM tốt nhất mà PMF sản xuất là ChatGPT. Sau đây sử dụng ChatGPT làm ví dụ để giải thích lý do thiếu GPU:
Vì ChatGPT quá phổ biến với người dùng nên ARR (doanh thu định kỳ hàng năm) của nó có thể vượt quá 500 triệu đô la Mỹ;
ChatGPT chạy trên API của GPT-4 và GPT-3.5;
Các API của GPT-4 và GPT-3.5 yêu cầu GPU để chạy và cần một số lượng lớn GPU. OpenAI hy vọng sẽ phát hành nhiều chức năng hơn cho ChatGPT và API của nó, nhưng điều đó không thể thực hiện được do số lượng hạn chế GPU;
OpenAI đã mua một số lượng lớn GPU NVIDIA thông qua Microsoft (Azure);
Để sản xuất GPU H100 SXM, NVIDIA sử dụng TSMC để sản xuất và sử dụng công nghệ đóng gói CoWoS của TSMC và HBM3 chủ yếu từ SK Hynix.
Ngoài OpenAI, có rất nhiều công ty trên thị trường đang đào tạo các mô hình lớn của riêng họ, hãy tạm gác lại có bao nhiêu bong bóng tồn tại trong LLM và khả năng cuối cùng các sản phẩm PMF xuất hiện là bao nhiêu, nhưng nhìn chung, sự cạnh tranh của LLM có đã đẩy nhu cầu GPU của thị trường lên cao. Ngoài ra, có một số công ty ngay cả khi họ không cần GPU trong thời điểm hiện tại, họ sẽ bắt đầu tích trữ chúng trước vì lo lắng cho tương lai. Vì vậy, nó giống như "kỳ vọng về sự thiếu hụt nguồn cung làm trầm trọng thêm tình trạng thiếu hụt nguồn cung"**.
Vì vậy, một lực lượng khác thúc đẩy nhu cầu về GPU là các công ty doanh nghiệp muốn tạo LLM mới hoặc tham gia vào AI trong tương lai:
Tầm quan trọng của các mô hình lớn đã trở thành một sự đồng thuận: nếu là một doanh nghiệp trưởng thành, họ hy vọng sẽ đào tạo LLM trên dữ liệu của chính mình và hy vọng rằng nó sẽ mang lại nhiều giá trị kinh doanh hơn; sở hữu LLM và biến nó thành giá trị thương mại. GPU chỉ cần thiết để đào tạo các mô hình lớn;
Liên lạc giữa các doanh nghiệp này với các nhà cung cấp đám mây lớn (Azure, Google Cloud, AWS), cố gắng đạt đủ H100;
Trong quá trình này, họ phát hiện ra rằng các nhà cung cấp đám mây không có đủ H100 để phân bổ và một số nhà cung cấp đám mây cũng có cấu hình mạng bị lỗi, vì vậy CoreWeave, Oracle, Lambda và FluidStack cũng đã mua GPU và sở hữu chúng, có thể họ cũng thảo luận với OEM và NVIDIA;
Cuối cùng, họ có rất nhiều GPU;
Bây giờ, họ đang cố gắng đưa sản phẩm của họ phù hợp với thị trường;
Trong trường hợp chưa rõ ràng, con đường sẽ không dễ dàng - hãy nhớ rằng OpenAI đã đạt được sản phẩm phù hợp với thị trường trên một mô hình nhỏ hơn và sau đó mở rộng quy mô. Nhưng bây giờ để đạt được sự phù hợp với thị trường sản phẩm, bạn phải phù hợp với trường hợp sử dụng của người dùng tốt hơn mô hình của OpenAI, vì vậy bạn cần nhiều GPU hơn OpenAI để bắt đầu.
**Ít nhất đến cuối năm 2023, các doanh nghiệp triển khai hàng trăm, hàng nghìn chiếc H100 sẽ thiếu hụt, có thể đến cuối năm 2023 tình hình sẽ rõ ràng hơn, nhưng có vẻ như tình trạng khan hiếm GPU có thể tiếp tục đến năm 2024. **
Thẩm quyền giải quyết
Nhận xét từ một nhà sáng lập khởi nghiệp LLMs dành cho doanh nghiệp tùy chỉnh
Tin nhắn từ một nhà cung cấp dịch vụ đám mây
Cuộc trò chuyện với các công ty đám mây và nhà cung cấp GPU
Tesla Q1 2023 (bao gồm từ ngày 1 tháng 1 năm 2023 đến ngày 31 tháng 3 năm 2023) cuộc gọi thu nhập
Nhận xét từ một công ty điện toán đám mây
Một sân bóng ước tính từ một công ty đám mây
︎