go top

在Vertex AI上部署Google Gemma完整指南

產業訊息 | 2025/10/07

在當前快速演進的人工智慧領域,能夠自主部署與管理語言模型 的能力日益關鍵。雖然像 Google Gemini 這類託管服務帶來了便利與即用性,但選擇自行託管模型同樣具備充分理由—例如 更高的掌控權、靈活的客製化能力,以及對資料隱私與合規的保障。本文將帶您深入探討如何在 Google Cloud Vertex AI 上部署 Gemma 模型,協助您構建一個完全由自己掌握的 AI 運行基礎架構。


介紹

Google 近期推出的 Gemma,標誌著人工智慧邁向大眾化應用的重要里程碑。作為 Gemini 託管模型的開源替代方案,Gemma 為企業帶來在自有基礎架構上靈活部署與運行強大語言模型的可能性。在本指南中,我們將逐步說明在 Google Cloud Vertex AI 平台上部署 Gemma 的流程,探索從初始設定到生產部署的各個環節。


為什麼要託管自己的模型?

在深入探討技術細節之前,讓我們先了解為什麼您可能選擇託管自己的模型而不是使用託管解決方案。


資料隱私性與合規性

在處理醫療記錄、法律文件或專有業務資料等敏感資訊時,保持對資料管道的完全控制至關重要。透過託管您自己的模型,您可以確保敏感資料永遠不會離開您的受控環境,從而更輕鬆地遵守 HIPAA、GDPR 等法規或行業特定要求。


負責任的人工智慧實施

組織越來越需要展示其 AI 系統的透明度和控制力。運行您自己的模型實例可以讓您:

•監控和審計所有互動

•實施自訂公平指標

•控制模型行為與輸出

•保持清晰的數據沿襲

•避免與第三方提供者共享潛在的敏感數據


效能最佳化

自託管使您能夠:

•針對特定用例微調延遲

•根據您的工作負載優化硬體分配

•實施自訂快取策略

•控制模型量化與最佳化參數


技術理解

對於投資人工智慧技術的組織來說,了解部署過程可以提供以下方面的寶貴見解:

•模型服務架構

•資源管理

•擴展注意事項

•效能優化技術


先決條件

在開始部署程序之前,請確保您:

1.已啟用結算功能的 Google Cloud 帳戶

2.您的專案中已啟用 Vertex AI API

3.熟悉 Python 和雲端運算概念


為什麼選擇 vLLM?

我們的部署策略採用 vLLM(多功能大型語言模型)服務框架,因為它已經成為服務大型語言模型的領先解決方案,具有以下優點:

1.連續批次處理:透過動態批次有效處理多個要求,最大限度地提高 GPU 利用率。

2.PagedAttention:實現創新的注意力機制,顯著減少記憶體使用量,提高吞吐量。

3.核心融合:透過將多個操作組合到單一 GPU 核心來最佳化運算。

4.量化支援:提供各種量化選項以減少模型尺寸並提高推理速度。


一鍵部署模型

在 Vertex AI 上部署模型對一般使用者很簡單,只要確認模型名稱型號就可輕鬆快速部署。

例如: gemma-3-1b-it 模型 指的是 Google 最新第三代 Gemma 開源模型系列中,一個擁有10億(1 Billion)參數,並且經過「指令微調 (Instruction Tuned)」以專門用於對話和問答的版本。

Vertex AI 會將模型部署至代管端點,並透過 Cloud 控制台或 Vertex AI API 存取該端點,以便執行線上推論或批次推論工作。

請在GCP控制台中搜尋【vertex】關鍵字,如下圖所示。



步驟1:模型搜尋

在 Vertex AI 的 Model Garden 裡直接尋找您要的模型(例如 gemma),如下圖所示。



步驟2:模型部署

將 Gemma 3 模型部署到你專案中的 Vertex AI Endpoint,讓你能用 REST API 或 gcloud/SDK 呼叫進行推論。



部署設定: 這裡的部署選項預設會依選擇的模型已經自動幫你配好設定,模型類型及機器規格是可以自己更改的。例如預設會把最新的 NVIDIA H100 GPU(80GB VRAM)當作 GPU,這張卡雖是最頂級的 GPU,速度超快,但費用也很高。如果只是要小型測試或實驗,建議可調整為較便宜低階的NVIDIA_L4 等級的。決定好後請點選【Deploy】開始進行部署。



步驟3:檢視模型及端點

下圖為已註冊模型。


端點: Vertex AI 會為您自動建立模型提供服務的端點。表示您的 Gemma 模型已經成功部署到 Vertex AI 端點,可以透過 API(REST / Python SDK / gcloud CLI)呼叫這個端點進行推論。API 呼叫可以點選右邊有 「要求範例」,查看範例程式碼。


步驟4:測試/驗證模型推論

在 Cloud 控制台的右上角中,點選啟用【Cloud Shell】。



現在您可以使用指令列介面 (CLI) 進行查詢。

1.請執行下列指令,使用您的 Google 帳戶進行驗證。

gcloud auth application-default login

2.建立 JSON 物件,用以存放資料。

現在準備的 INPUT-JSON 檔案,是要送到 Vertex AI Endpoint 的推論請求。

你的 JSON 格式是這樣的:

{

"instances": [

{

"@requestFormat": "chatCompletions",

"messages": [

{

"role": "user",

"content": "What is machine learning?"

}

],

"max_tokens": 100

}

]

}



說明:

•@requestFormat: "chatCompletions"

→ 指定使用「對話模式」的格式(像 OpenAI ChatGPT 的格式)。

•messages:

→ 對話歷史,每個訊息有 "role"(user/system/assistant)和 "content"(訊息內容)。

→ 這裡只放了一個 user 提問。

•max_tokens: 100

→ 限制輸出的最長字數(大概 100 token,英文大概 70~80 字)。

3.設定環境變數,用以存放端點、專案 ID 及 JSON 物件。

ENDPOINT_ID="mg-endpoint-0ea42442-ce2f-4053-99eb-f75afdb0c3e7"

PROJECT_ID="62xxxxxxxxxx"

INPUT_DATA_FILE="INPUT-JSON"



4.執行 curl 指令進行推論請求。

curl

-X POST

-H "Authorization: Bearer $(gcloud auth print-access-token)"

-H "Content-Type: application/json"

"https://mg-endpoint-0ea42442-ce2f-4053-99eb-f75afdb0c3e7.us-central1-621807211464.prediction.vertexai.goog/v1/projects/${PROJECT_ID}/locations/us-central1/endpoints/${ENDPOINT_ID}:predict"

-d "@${INPUT_DATA_FILE}"



因我們提供的訊息內容是要求詢問” What is machine learning?” 送出 JSON 格式請求後,LLM 模型推論結果後則回覆如下:

Okay, let's break down what machine learning is. It's a really fascinating and rapidly evolving field! Here's a breakdown, aiming for clarity and understanding: **1. At its Core: Learning from Data** At its heart, machine learning is about **teaching computers to learn from data** without being explicitly programmed for every single situation. Instead of writing specific rules for a computer to follow, you give it data and let it figure out the patterns and relationships itself.

如有興趣可以再修改一些參數例如content(訊息內容)What is AI Agent ? 以及調整max_tokens": 200 ,再請模型推論回覆內容如下:



限制和注意事項

在 Vertex AI 上部署 Gemma 模型時,需留意以下幾個限制與資源管理重點:

1. 硬體資源可用性

•地區差異:GPU 資源的供應情況會依據部署區域有所不同。

•GPU 類型限制:部分 GPU 型號可能數量有限,需事先確認可用性。

•成本考量:不同硬體配置(如 GPU 型號、數量)將直接影響推論效能與整體成本。

2. 資源與效能管理

•記憶體需求:大型模型在推論過程中需消耗大量記憶體,需適當配置。

•GPU 利用率最佳化:建議透過批次處理、模型壓縮或混合精度訓練等方式提升效能。

•擴展限制:在高併發或大規模部署情境下,可能受到資源與佈署配額的限制。


最佳實踐

為確保模型部署與運作的穩定性與效能,建議遵循以下最佳實踐:

1. 模型最佳化

•採用合適的量化與壓縮技術,降低延遲與成本

•建立快取機制,提升重複查詢的回應效率

•依據實際工作負載 調整批次大小(batch size),以兼顧效能與穩定性

2. 系統監控

•啟用完整的日誌與追蹤紀錄,利於故障排查與合規需求

•持續監控 GPU/CPU 利用率,確保資源配置合理

•定期追蹤回應時間與錯誤率,確保服務品質

3. 成本與資源管理

•選擇最適合的機器類型,避免過度配置或資源不足

•實施自動擴縮 (autoscaling),因應流量變化

•持續監視資源使用狀況,定期調整以降低成本


結論

在 Vertex AI 上部署 Gemma,讓組織能以自主可控的方式運行專屬語言模型。雖然存在部分限制,但其靈活的客製化能力、嚴謹的資料隱私保護,以及對模型行為的高度掌控,使其成為眾多AI應用的最佳選擇之一。 結合 Vertex AI 的雲端基礎設施 與 vLLM 的高效推理服務,企業可打造一個穩健且可擴展的AI運行環境。

依循本指南中的步驟與最佳實踐,能協助您成功完成Gemma的部署、優化與持續管理。

展望未來,若能持續:

•定期追蹤效能與成本表現

•根據實際需求調整資源配置

•關注 Vertex AI 與相關框架的更新

即可確保部署持續發揮 最大價值與投資效益,並支援組織在AI驅動的競爭環境中保持領先。