AI 會議室專案優化結案報告
成本優化、無伺服器架構遷移與中台擴展策略
問題背景與挑戰
1. 成本結構失衡
專案初期採用常駐型 GPU VM (Compute Engine) 執行核心任務。經長期監測,資源利用率與支出呈現極大落差:
原月度固定支出
NT$ 24,000
年度約 30 萬
2. 技術瓶頸
原系統架構 GPU 資源無法共享,導致「語者辨識」與「Whisper」任務必須排隊執行,且轉換所需時間,可能長達錄音時長的 35~50%。
架構演進 (Architecture Evolution)
優化目標: 導入 Serverless 架構,實現資源解耦與按需計費。
優化前 (Before)
[使用者]
└--> [前端介面]
└--> [Azure Nginx]
└--> [GPU VM (L4)] :: ⚠️ 24h 常駐計費
優化後 (After)
[使用者]
└--> [前端/Azure]
└--> [Cloud Run Service] :: 請求入口與任務調度
│
├--> [GCS Storage] :: 音檔暫存區
│
└--> [Cloud Run Job] :: 🚀 按需啟動 GPU 容器
(Whisper & 語者辨識並行處理)
優化成果與效能實測
1. 系統組件現代化
- Cloud Run Job 負責高負載 AI 運算,任務結束即釋放資源,停止計費。
- Cloud Run Service 負責輕量級 API 響應與儲存管理。
- Artifact Registry 統一管理容器映像檔 (Docker Image)。
2. 處理效能大幅提升
🚀 實測數據:88 分鐘錄音檔
- 運算時間: 僅需 14 分鐘 (約錄音時長的 15%)。
- 關鍵技術: 實現語者辨識與 Whisper 任務並行處理 (Parallel Processing)。
註:Cloud Run Job 啟動需 1~4 分鐘冷啟動時間 (Cold Start),此時段不計費,但需計入總體等待時間。
服務擴展策略 (水平與垂直擴展)
本次架構優化不僅解決了單一專案的成本問題,更建立了可供未來複製的 AI 中台服務,具備以下兩大擴展能力:
水平擴展 (Horizontal Scaling)
同專案多工處理
當同一時間有多個會議需要轉換時,Cloud Run 會自動啟動多個 Job 實例 (Instance) 同時並行處理。
效益:任務不再需要排隊等待,處理量隨需求自動彈性伸縮。
垂直擴展 (Vertical Scaling)
跨專案快速部署與隔離
利用 Artifact Registry 為核心,可將相同的 AI 服務映像檔快速部署至其他 GCP 專案(例如給公路局)。
效益:實現獨立計費與資源隔離,只需複製 Image 與設定檔,無需重新開發。
費用效益分析
| 比較項目 |
原架構 (常駐 VM) |
優化後 (Serverless) |
| 計費模式 |
24 小時不間斷計費 |
用多少算多少 |
| 閒置成本 |
每日約 NT$ 700+ |
NT$ 0 |
| 運算單價 |
固定月費 |
每小時約 NT$ 32.8 |
| 年度預估節省 |
> NT$ 280,000 / 年 |