AI 會議室專案優化結案報告

成本優化、無伺服器架構遷移與中台擴展策略

問題背景與挑戰

1. 成本結構失衡

專案初期採用常駐型 GPU VM (Compute Engine) 執行核心任務。經長期監測,資源利用率與支出呈現極大落差:

每月實際使用
約 1 次

其餘時段皆為閒置

原月度固定支出
NT$ 24,000

年度約 30 萬

2. 技術瓶頸

原系統架構 GPU 資源無法共享,導致「語者辨識」與「Whisper」任務必須排隊執行,且轉換所需時間,可能長達錄音時長的 35~50%。

架構演進 (Architecture Evolution)

優化目標: 導入 Serverless 架構,實現資源解耦與按需計費。

優化前 (Before)

[使用者] └--> [前端介面] └--> [Azure Nginx] └--> [GPU VM (L4)] :: ⚠️ 24h 常駐計費

優化後 (After)

[使用者] └--> [前端/Azure] └--> [Cloud Run Service] :: 請求入口與任務調度 │ ├--> [GCS Storage] :: 音檔暫存區 │ └--> [Cloud Run Job] :: 🚀 按需啟動 GPU 容器 (Whisper & 語者辨識並行處理)

優化成果與效能實測

1. 系統組件現代化

2. 處理效能大幅提升

🚀 實測數據:88 分鐘錄音檔

  • 運算時間: 僅需 14 分鐘 (約錄音時長的 15%)。
  • 關鍵技術: 實現語者辨識與 Whisper 任務並行處理 (Parallel Processing)。

註:Cloud Run Job 啟動需 1~4 分鐘冷啟動時間 (Cold Start),此時段不計費,但需計入總體等待時間。

服務擴展策略 (水平與垂直擴展)

本次架構優化不僅解決了單一專案的成本問題,更建立了可供未來複製的 AI 中台服務,具備以下兩大擴展能力:

水平擴展 (Horizontal Scaling)
同專案多工處理

當同一時間有多個會議需要轉換時,Cloud Run 會自動啟動多個 Job 實例 (Instance) 同時並行處理

效益:任務不再需要排隊等待,處理量隨需求自動彈性伸縮。

垂直擴展 (Vertical Scaling)
跨專案快速部署與隔離

利用 Artifact Registry 為核心,可將相同的 AI 服務映像檔快速部署至其他 GCP 專案(例如給公路局)。

效益:實現獨立計費與資源隔離,只需複製 Image 與設定檔,無需重新開發。

費用效益分析

比較項目 原架構 (常駐 VM) 優化後 (Serverless)
計費模式 24 小時不間斷計費 用多少算多少
閒置成本 每日約 NT$ 700+ NT$ 0
運算單價 固定月費 每小時約 NT$ 32.8
年度預估節省 > NT$ 280,000 / 年