AI 會議室專案優化結案報告

成本優化、無伺服器架構遷移與中台擴展策略

問題背景與挑戰

1. 成本結構失衡

專案初期採用常駐型 GPU VM (Compute Engine) 執行核心任務。經長期監測，資源利用率與支出呈現極大落差：

每月實際使用

約 1 次

其餘時段皆為閒置

原月度固定支出

NT$ 24,000

年度約 30 萬

2. 技術瓶頸

原系統架構 GPU 資源無法共享，導致「語者辨識」與「Whisper」任務必須排隊執行，且轉換所需時間，可能長達錄音時長的 35~50%。

架構演進 (Architecture Evolution)

優化目標： 導入 Serverless 架構，實現資源解耦與按需計費。

優化前 (Before)

[使用者] └--> [前端介面] └--> [Azure Nginx] └--> [GPU VM (L4)] :: ⚠️ 24h 常駐計費

優化後 (After)

[使用者] └--> [前端/Azure] └--> [Cloud Run Service] :: 請求入口與任務調度 │ ├--> [GCS Storage] :: 音檔暫存區 │ └--> [Cloud Run Job] :: 🚀 按需啟動 GPU 容器 (Whisper & 語者辨識並行處理)

優化成果與效能實測

1. 系統組件現代化

Cloud Run Job 負責高負載 AI 運算，任務結束即釋放資源，停止計費。
Cloud Run Service 負責輕量級 API 響應與儲存管理。
Artifact Registry 統一管理容器映像檔 (Docker Image)。

2. 處理效能大幅提升

            🚀 實測數據：88 分鐘錄音檔
            運算時間： 僅需 14 分鐘 (約錄音時長的 15%)。
關鍵技術： 實現語者辨識與 Whisper 任務並行處理 (Parallel Processing)。

        

註：Cloud Run Job 啟動需 1~4 分鐘冷啟動時間 (Cold Start)，此時段不計費，但需計入總體等待時間。

服務擴展策略 (水平與垂直擴展)

本次架構優化不僅解決了單一專案的成本問題，更建立了可供未來複製的 AI 中台服務，具備以下兩大擴展能力：

水平擴展 (Horizontal Scaling)

同專案多工處理

當同一時間有多個會議需要轉換時，Cloud Run 會自動啟動多個 Job 實例 (Instance) 同時並行處理。

效益：任務不再需要排隊等待，處理量隨需求自動彈性伸縮。

垂直擴展 (Vertical Scaling)

跨專案快速部署與隔離

利用 Artifact Registry 為核心，可將相同的 AI 服務映像檔快速部署至其他 GCP 專案(例如給公路局)。

效益：實現獨立計費與資源隔離，只需複製 Image 與設定檔，無需重新開發。

費用效益分析

比較項目	原架構 (常駐 VM)	優化後 (Serverless)
計費模式	24 小時不間斷計費	用多少算多少
閒置成本	每日約 NT$ 700+	NT$ 0
運算單價	固定月費	每小時約 NT$ 32.8
年度預估節省	> NT$ 280,000 / 年