年花1100萬?用H100打造AI超算中心竟這麼燒錢!」 「年花1100萬?用H100打造AI超算中心竟這麼燒錢!

作者:阿中哥 + AI 協助彙整。 【本文約有2,501字】

台灣本地 GPU 算力中心價格參考報告書

2024/11/18 紀錄。

匯率 1 美金 = 32 台幣 (假設)

台灣本地的 GPU 算力租賃業者。(參考)

國外 RunPod GPU 算力租賃業者。(參考)

NVIDIA H100 (SXM5) GPU 配備了 80GB 的 HBM3 記憶體,這使其非常適合需要大量記憶體的應用程序。這款 GPU 的記憶體帶寬達到 1,920 GB/s,這是由於其 5120 位的記憶體介面所支持的。

此外,H100 (SXM5) 的設計旨在優化高性能計算和人工智慧應用,並且其記憶體配置使其能夠有效處理大型數據集和複雜計算任務。

  • 問世年代:2022 年
  • 算力:600 TFLOPS (FP32)
  • TDP:700W
  • 每小時價格:$40.00
    • 一天(24小時):$40.00 * 24 = $960.00 ≈ 30,720 台幣
    • 一週(7天):$960.00 * 7 = $6,720.00 ≈ 215,040 台幣
    • 兩週(14天):$6,720.00 * 2 = $13,440.00 ≈ 429,120 台幣
    • 一個月(30天):$960.00 * 30 = $28,800.00 ≈ 921,600 台幣
    • 三個月(90天):$28,800.00 * 3 = $86,400.00 ≈ 2,764,800 台幣
    • 六個月(180天):$28,800.00 * 6 = $172,800.00 ≈ 5,529,600 台幣
    • 一年(365天):$960.00 * 365 = $350,400.00 ≈ 11,212,800 台幣

NVIDIA H100 PCIe GPU 配備了 80GB 的 HBM2e 記憶體。這款 GPU 的記憶體介面寬度為 5120 位元,並且具有高達 2TB/s 的記憶體帶寬,這使其在處理大型數據集和高性能計算任務時表現出色。

此外,H100 還有其他版本,例如 H100 NVL,這是一種專為大型語言模型設計的加速卡,擁有高達 188GB 的記憶體,但這是由兩張 H100 卡組合而成的。

  • 問世年代:2022 年
  • 算力:500 TFLOPS (FP32)
  • TDP:700W
  • 每小時價格:$4.76
    • 一天(24小時):$4.76 * 24 = $114.24 ≈ 3,655 台幣
    • 一週(7天):$114.24 * 7 = $800.68 ≈ 25,622 台幣
    • 兩週(14天):$800.68 * 2 = $1,601.36 ≈ 51,244 台幣
    • 一個月(30天):$114.24 * 30 = $3,427.20 ≈ 109,670 台幣
    • 三個月(90天):$3,427.20 * 3 = $10,281.60 ≈ 329,011 台幣
    • 六個月(180天):$3,427.20 * 6 = $20,563.20 ≈ 658,022 台幣
    • 一年(365天):$114.24 * 365 = $41,732.60 ≈ 1,335,443 台幣

NVIDIA L40S GPU 配備了 48GB 的 GDDR6 記憶體。這款 GPU 是基於 Ada Lovelace 架構,專為高效能計算和人工智慧應用設計,具有高達 864 GB/s 的記憶體帶寬,適合處理複雜的計算任務和大型數據集。

此外,L40S 的設計使其能夠支持多種工作負載,包括生成式人工智慧和大型語言模型的訓練與推理,並且在性能上相較於前一代的 A100 GPU 提供了顯著的提升。

  • 問世年代:2022 年
  • 算力:20 TFLOPS (FP32)
  • TDP:140W
  • 每小時價格:$1.28
    • 一天(24小時):$1.28 * 24 = $30.72 ≈ 983 台幣
    • 一週(7天):$30.72 * 7 = $215.04 ≈ 6,881 台幣
    • 兩週(14天):$215.04 * 2 = $430.08 ≈ 13,762 台幣
    • 一個月(30天):$30.72 * 30 = $921.60 ≈ 29,488 台幣
    • 三個月(90天):$921.60 * 3 = $2,764.80 ≈ 88,464 台幣
    • 六個月(180天):$921.60 * 6 = $5,529.60 ≈ 176,928 台幣
    • 一年(365天):$30.72 * 365 = $11,223.20 ≈ 359,142 台幣

NVIDIA RTX A5000 GPU 配備了 24GB 的 GDDR6 記憶體。這款顯示卡基於 Ampere 架構,具有 384 位的記憶體介面,並提供高達 768 GB/s 的記憶體帶寬,適合處理高性能計算和專業圖形工作負載。

此外,RTX A5000 的設計使其能夠有效支持各種應用,包括 3D 渲染、視頻編輯和人工智慧任務,並且在多 GPU 配置中可以通過 NVIDIA NVLink 擴展記憶體和性能。

  • 問世年代:2021 年
  • 算力:11.4 TFLOPS (FP32)
  • TDP:230W
  • 每小時價格:$0.80
    • 一天(24小時):$0.80 * 24 = $19.20 ≈ 614 台幣
    • 一週(7天):$19.20 * 7 = $134.40 ≈ 4,299 台幣
    • 兩週(14天):$134.40 * 2 = $268.80 ≈ 8,601 台幣
    • 一個月(30天):$19.20 * 30 = $576.00 ≈ 18,432 台幣
    • 三個月(90天):$576.00 * 3 = $1,728.00 ≈ 55,296 台幣
    • 六個月(180天):$576.00 * 6 = $3,456.00 ≈ 110,592 台幣
    • 一年(365天):$19.20 * 365 = $6,998.40 ≈ 223,949 台幣

NVIDIA RTX A4500 GPU 配備了 20GB 的 GDDR6 記憶體。這款顯示卡基於 Ada Lovelace 架構,具有 320 位的記憶體介面,並提供高達 640 GB/s 的記憶體帶寬,適合處理高性能計算和專業圖形工作負載。

RTX A4500 的設計使其能夠支持各種應用,包括即時光線追蹤、AI 加速計算和高效能圖形渲染,並且在多 GPU 配置中可以通過 NVIDIA NVLink 擴展記憶體和性能,達到更大的數據集和模型處理能力。

  • 問世年代:2021 年
  • 算力:11.4 TFLOPS (FP32)
  • TDP:200W
  • 每小時價格:$0.80
    • 一天(24小時):$0.80 * 24 = $19.20 ≈ 614 台幣
    • 一週(7天):$19.20 * 7 = $134.40 ≈ 4,299 台幣
    • 兩週(14天):$134.40 * 2 = $268.80 ≈ 8,601 台幣
    • 一個月(30天):$19.20 * 30 = $576.00 ≈ 18,432 台幣
    • 三個月(90天):$576.00 * 3 = $1,728.00 ≈ 55,296 台幣
    • 六個月(180天):$576.00 * 6 = $3,456.00 ≈ 110,592 台幣
    • 一年(365天):$19.20 * 365 = $6,998.40 ≈ 223,949 台幣

  • 問世年代:2021 年
  • 算力:11.2 TFLOPS (FP32)
  • TDP:140W
  • 每小時價格:$0.70
    • 一天(24小時):$0.70 * 24 = $16.80 ≈ 538 台幣
    • 一週(7天):$16.80 * 7 = $117.60 ≈ 3,763 台幣
    • 兩週(14天):$117.60 * 2 = $235.20 ≈ 7,526 台幣
    • 一個月(30天):$16.80 * 30 = $504.00 ≈ 16,128 台幣
    • 三個月(90天):$504.00 * 3 = $1,512.00 ≈ 48,384 台幣
    • 六個月(180天):$504.00 * 6 = $3,024.00 ≈ 96,768 台幣
    • 一年(365天):$16.80 * 365 = $6,132.00 ≈ 196,224 台幣

NVIDIA RTX A4000 GPU 配備了 16GB 的 GDDR6 記憶體。這款顯示卡基於 Ampere 架構,具有 256 位的記憶體介面,並提供高達 448 GB/s 的記憶體帶寬,適合處理高性能計算和專業圖形工作負載。

RTX A4000 的設計使其能夠支持各種應用,包括即時光線追蹤、AI 加速計算和高效能圖形渲染,並且在多 GPU 配置中可以通過 NVIDIA NVLink 擴展記憶體和性能。

  • 問世年代:2021 年
  • 算力:11.1 TFLOPS (FP32)
  • TDP:140W
  • 每小時價格:$0.61
    • 一天(24小時):$0.61 * 24 = $14.64 ≈ 468 台幣
    • 一週(7天):$14.64 * 7 = $102.48 ≈ 3,279 台幣
    • 兩週(14天):$102.48 * 2 = $204.96 ≈ 6,559 台幣
    • 一個月(30天):$14.64 * 30 = $439.20 ≈ 14,054 台幣
    • 三個月(90天):$439.20 * 3 = $1,317.60 ≈ 42,163 台幣
    • 六個月(180天):$439.20 * 6 = $2,635.20 ≈ 84,326 台幣
    • 一年(365天):$14.64 * 365 = $5,350.20 ≈ 171,206 台幣
    • 問世年代:2022 年
    • 算力:64 TFLOPS (FP32)
    • TDP:450W
    • Secure Cloud:每小時 $0.69
      • 一天(24小時):$0.69 * 24 = $16.56 ≈ 530 台幣
      • 一週(7天):$16.56 * 7 = $115.92 ≈ 3,709 台幣
      • 兩週(14天):$115.92 * 2 = $231.84 ≈ 7,418 台幣
      • 一個月(30天):$16.56 * 30 = $496.80 ≈ 15,900 台幣
      • 三個月(90天):$496.80 * 3 = $1,490.40 ≈ 47,700 台幣
      • 六個月(180天):$496.80 * 6 = $2,980.80 ≈ 95,400 台幣
      • 一年(365天):$16.56 * 365 = $6,057.40 ≈ 193,837 台幣
    • Community Cloud:每小時 $0.34
      • 一天(24小時):$0.34 * 24 = $8.16 ≈ 261 台幣
      • 一週(7天):$8.16 * 7 = $57.12 ≈ 1,828 台幣
      • 兩週(14天):$57.12 * 2 = $114.24 ≈ 3,655 台幣
      • 一個月(30天):$8.16 * 30 = $244.80 ≈ 7,834 台幣
      • 三個月(90天):$244.80 * 3 = $734.40 ≈ 23,501 台幣
      • 六個月(180天):$244.80 * 6 = $1,468.80 ≈ 46,997 台幣
      • 一年(365天):$8.16 * 365 = $2,980.40 ≈ 95,373 台幣
  • 問世年代:2020 年
  • 算力:35.6 TFLOPS (FP32)
  • TDP:350W
  • Secure Cloud:每小時 $0.43
    • 一天(24小時):$0.43 * 24 = $10.32 ≈ 330 台幣
    • 一週(7天):$10.32 * 7 = $72.24 ≈ 2,311 台幣
    • 兩週(14天):$72.24 * 2 = $144.48 ≈ 4,622 台幣
    • 一個月(30天):$10.32 * 30 = $309.60 ≈ 9,907 台幣
    • 三個月(90天):$309.60 * 3 = $928.80 ≈ 29,722 台幣
    • 六個月(180天):$309.60 * 6 = $1,857.60 ≈ 59,443 台幣
    • 一年(365天):$10.32 * 365 = $3,766.80 ≈ 120,538 台幣
  • Community Cloud:每小時 $0.22
    • 一天(24小時):$0.22 * 24 = $5.28 ≈ 169 台幣
    • 一週(7天):$5.28 * 7 = $36.96 ≈ 1,183 台幣
    • 兩週(14天):$36.96 * 2 = $73.92 ≈ 2,366 台幣
    • 一個月(30天):$5.28 * 30 = $158.40 ≈ 5,069 台幣
    • 三個月(90天):$158.40 * 3 = $475.20 ≈ 15,206 台幣
    • 六個月(180天):$158.40 * 6 = $949.20 ≈ 30,384 台幣
    • 一年(365天):$5.28 * 365 = $1,927.20 ≈ 61,670 台幣

十、FP32 和 FP16 的區別

在推論運算中,FP32(單精度浮點數)並不是必備的,具體需求取決於應用場景和模型的要求。以下是一些關鍵點來幫助你理解 FP32 和 FP16 之間的關係:

FP32 和 FP16 的區別

  • FP32(單精度浮點數):提供較高的精度,適合需要高精度計算的應用,如訓練深度學習模型。
  • FP16(半精度浮點數):提供較低的精度,但計算速度更快且內存使用更少,適合推論運算,特別是在資源受限的環境中。

FP32 和 FP16 的關係

  • FP32 可以包含 FP16:在許多情況下,FP32 和 FP16 可以互相轉換。例如,在訓練模型時使用 FP32 以確保精度,而在推論時使用 FP16 以提高效率。
  • 混合精度訓練:一些深度學習框架支持混合精度訓練,這意味著在訓練過程中可以同時使用 FP32 和 FP16,以平衡精度和效率。

推論運算中的選擇

  • FP16 推論:在許多推論應用中,FP16 已經足夠,特別是在計算資源受限的情況下。FP16 可以顯著提高推論速度和減少內存使用。
  • FP32 推論:如果應用需要高精度,或者模型對精度非常敏感,可能需要使用 FP32。

實際應用

  • 圖像識別和分類:這些任務通常可以使用 FP16 進行推論,因為精度要求相對較低。
  • 自然語言處理(NLP):一些 NLP 模型可能需要 FP32 以確保精度,特別是在處理長序列文本時。
  • 醫療影像:這些應用通常需要高精度,可能需要使用 FP32。

總結

  • FP32 和 FP16 不是完全獨立不相容的:它們可以互相轉換,並且在許多情況下可以混合使用。
  • 選擇精度:選擇使用 FP32 還是 FP16 取決於具體的應用需求和資源限制。

希望這些資訊對你有幫助!如果有任何其他問題,請隨時告訴我。

後記

看完上述價格,想要在地端運作私有大模型,至少已經有了一個簡單明確的參考依據。