第 3 章 AI 驅動的表情與動作

發布於 2026-03-12 18:25

# 第 3 章 AI 驅動的表情與動作本章聚焦於 **人工智慧** 在虛擬偶像表情、語音與動作三大核心領域的實作與最佳實踐。透過深度學習模型與即時推論，我們可以讓 2D/3D 虛擬形象在直播、短影片或遊戲中呈現自然、同步且具情感的表現。 --- ## 3.1 為何引入 AI？ | 需求 | 傳統方法 | AI 方案的優勢 | |------|----------|----------------| | **嘴型同步** | 手工製作或基於音素的簡易對齊 | 端到端的視訊/音訊驅動嘴形 (Viseme) 自動生成，可即時回應變化的語速與情緒 | | **眼神、眉毛、臉部微表情** | 標準化的 BlendShape 動畫 | 透過 **Facial Capture (Face‑Mesh) + Deep Learning** 捕捉細緻表情，降低手工調整成本 | | **自然舞蹈/動作** | 動作庫 (Mocap) + 手工剪輯 | 使用 **生成式動作模型 (e.g., Diffusion、Transformer)** 直接根據音樂或指令產生流暢舞蹈，提升創作速度 | | **語音合成** | 文字轉語音 (TTS) 工具 | 結合 **情感控制**、語音風格轉換 (Voice‑Style Transfer)，讓偶像聲音更具辨識度 | > **結論**：AI 不僅加速內容產出，更讓虛擬偶像在互動時更貼近真人的即時反應。（以下章節將逐一說明實作方法） --- ## 3.2 臉部捕捉與表情驅動 ### 3.2.1 基礎概念 - **Face‑Mesh**：由 468 個 3D 點組成的臉部拓撲，用於描述每一個細節。 - **Viseme**：語音對應的口形集合，如 /p/, /b/, /m/ 對應閉嘴，/a/ 對應張嘴。 - **BlendShape / Morph Target**：在 3D 軟體中預先設定的變形形態，AI 輸出的係數會驅動這些形態。 ### 3.2.2 常見工具與模型 | 工具 / 框架 | 特色 | 推薦使用情境 | |--------------|------|---------------| | **MediaPipe Face Mesh** (Google) | 輕量級、跨平台、支援 WebAssembly | 桌面或手機即時捕捉，適合直播場景 | | **DeepFaceLive** (PyTorch) | 基於 GAN 的高品質臉部重建 | 高精度直播或 VR/AR 交互 | | **iFacialMocap** (Apple ARKit) | iOS 原生、低延遲 | 手機端或自製硬體腳本 | ### 3.2.3 工作流程（以 MediaPipe + Unity 為例） 1. **資料取得**：利用攝影機或手機取得 2D 顏面影像。 2. **Face‑Mesh 推論**：MediaPipe Python 版或 Web 版輸出 468 點座標。 3. **座標正規化**：將座標由螢幕空間映射至 Unity 世界座標 ([-1,1] 範圍)。 4. **BlendShape 映射表**：建立 `point_index → blendshape_name` 的對應表。 5. **Unity‑C# 驅動**：將推論結果寫入 `SkinnedMeshRenderer.SetBlendShapeWeight`。 #### 3.2.4 示例程式碼 (Python → Unity via WebSocket) python # face_capture.py import cv2, mediapipe as mp, json, asyncio, websockets mp_face = mp.solutions.face_mesh face_mesh = mp_face.FaceMesh(static_image_mode=False, max_num_faces=1, refine_landmarks=True, min_detection_confidence=0.5, min_tracking_confidence=0.5) cap = cv2.VideoCapture(0) async def send_loop(ws): while True: ret, frame = cap.read() if not ret: continue rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB) result = face_mesh.process(rgb) if result.multi_face_landmarks: points = [[l.x, l.y, l.z] for l in result.multi_face_landmarks[0].landmark] await ws.send(json.dumps(points)) await asyncio.sleep(0.01) # 100 FPS 上限 async def main(): async with websockets.connect('ws://localhost:8765') as ws: await send_loop(ws) asyncio.run(main()) csharp // UnitySide.cs using System.Collections; using UnityEngine; using WebSocketSharp; public class FaceReceiver : MonoBehaviour { public SkinnedMeshRenderer avatarRenderer; private WebSocket ws; private readonly int[] blendShapeIdx = {0,1,2,3,4,5}; // 依需求自行對應 void Start(){ ws = new WebSocket("ws://localhost:8765"); ws.OnMessage += (sender, e) => { var points = JsonUtility.FromJson<float[][]>(e.Data); // 只示範範例：將鼻尖高度映射至「嘴巴張開」BlendShape float mouthOpen = Mathf.InverseLerp(0.3f, 0.6f, points[13][1]); // point 13 為鼻尖Y avatarRenderer.SetBlendShapeWeight(blendShapeIdx[0], mouthOpen*100f); }; ws.Connect(); } void OnDestroy(){ ws.Close(); } } > **小技巧**：在正式直播前先將 `BlendShapeWeight` 以 **Cache** 方式寫入，避免頻繁呼叫造成 GC 失效。 --- ## 3.3 語音合成 (Text‑to‑Speech, TTS) 與情感控制 ### 3.3.1 主流模型 | 模型 / 服務 | 語言支援 | 可調情感參數 | 授權方式 | |------------|----------|---------------|----------| | **Google WaveNet** | 100+ | Pitch, Speaking Rate | 商業付費 | | **Microsoft Azure Neural TTS** | 多語系 | Style (cheerful, sad) | 商業付費 | | **Open‑Source: VITS / FastSpeech2** | 中文、日文、英語 | Energy、Duration、Tone | 免費 (自行部署) | | **ElevenLabs** | 英文、日文等 | Emotion (Excited, Whisper) | 商業 / 免費額度 | ### 3.3.2 整合流程（以 VITS 為例） 1. **語音資料準備**：收集角色聲優的 30‑60 分鐘朗讀資料，做 **語者辨識 (Speaker ID)** 與 **語音切片**。 2. **模型訓練**：使用 `nv‑tts` 或 `espnet` 進行 **VITS** 訓練，包含情感標籤 (happy, sad)。 3. **API 包裝**：以 FastAPI 建立 `POST /synthesize` 端點，傳入文字、情感、語速等參數。 4. **Unity 接收**：使用 UnityWebRequest 取得 **wav** 串流，播放於 `AudioSource`。 #### 3.3.3 範例程式碼 (FastAPI + VITS) python # server.py from fastapi import FastAPI, Query from pydantic import BaseModel import torch from vits import VITSModel app = FastAPI() model = VITSModel.load('checkpoints/vits_zh.pth').eval() class TTSRequest(BaseModel): text: str emotion: str = 'neutral' speed: float = 1.0 @app.post('/synthesize') async def synthesize(req: TTSRequest): wav = model.infer(req.text, emotion=req.emotion, speed=req.speed) return {'audio': wav.tolist()} csharp // UnityTTS.cs using UnityEngine; using UnityEngine.Networking; using System.Collections; public class UnityTTS : MonoBehaviour { public AudioSource source; IEnumerator Speak(string txt){ var json = JsonUtility.ToJson(new { text = txt, emotion = "happy", speed = 1.0f }); var uwr = UnityWebRequest.Post("http://localhost:8000/synthesize", json); uwr.uploadHandler = new UploadHandlerRaw(System.Text.Encoding.UTF8.GetBytes(json)); uwr.downloadHandler = new DownloadHandlerBuffer(); uwr.SetRequestHeader("Content-Type", "application/json"); yield return uwr.SendWebRequest(); var arr = JsonUtility.FromJson<float[]>(uwr.downloadHandler.text); var clip = AudioClip.Create("tts", arr.Length, 1, 22050, false); clip.SetData(arr, 0); source.clip = clip; source.Play(); } } > **實務提醒**：為避免突發的語音卡頓，將 TTS 輸出緩存於本地文件系統，並使用 `AudioClip.LoadFromFile` 直接讀取。 --- ## 3.4 動作生成與舞蹈製作 ### 3.4.1 動作來源分類 1. **傳統 Motion Capture**：高精度設備，如 Xsens、OptiTrack。適合關鍵劇情。 2. **AI 生成**：基於 **Diffusion**、**Transformer** 或 **GAN** 的動作合成模型，可直接從音訊、文字指令產生。 3. **混合方式**：先以 AI 生成框架產出大致動作，再用 MoCap 重新校正關節限制。 ### 3.4.2 代表性模型 | 模型 | 輸入類型 | 輸出 | 特色 | |------|----------|------|------| | **DanceDiffusion** (2023) | 音樂波形或節拍 | 30 FPS 3D 骨架 | 風格可切換 (Hip‑Hop, J‑pop) | | **MOTION GPT** | 指令文字 ("做個旋轉") | 動作序列 | 支援長序列、即時控制 | | **DeepMotion Animate 3D** (商業) | 2D 影片 | 3D 動作 | 雲端即時、低延遲 | ### 3.4.3 Unity‑Mecanim 佈局示範 1. **匯入動作**：將 AI 生成的 BVH/FBX 檔案拖入 `Assets/Animations`。 2. **建立 Animator Controller**： - `Idle` → `Blend Tree (Speed)` → `Walk / Run` - `Dance` 狀態使用 **State Machine** 切換至 AI 生成的舞蹈 Clip。 3. **參數驅動**：在程式碼中透過 `Animator.SetFloat("Speed", value)` 控制走路與跑步。 4. **即時切換**：使用 **Playable API** 動態載入新 Clip，實現「觀眾送禮後即時舞蹈」的互動效果。 #### 3.4.4 範例程式碼 (即時舞蹈觸發) csharp using UnityEngine; using UnityEngine.Playables; using UnityEngine.Animations; public class LiveDance : MonoBehaviour { public Animator animator; public AnimationClip[] danceClips; // 事先放入 DanceDiffusion 產出的 Clip private PlayableGraph graph; private AnimationPlayableOutput output; private AnimationClipPlayable currentPlayable; void Start(){ graph = PlayableGraph.Create("LiveDanceGraph"); output = AnimationPlayableOutput.Create(graph, "Animation", animator); output.SetSourcePlayable(AnimatorControllerPlayable.Create(graph, animator.runtimeAnimatorController)); graph.Play(); } // 觀眾送禮時呼叫，index 為 danceClips 陣列索引 public void TriggerDance(int index){ var clip = danceClips[index]; var playable = AnimationClipPlayable.Create(graph, clip); // 若已有舞蹈在播放，先淡出 if(currentPlayable.IsValid()) graph.Connect(currentPlayable, 0, playable, 0); output.SetSourcePlayable(playable); currentPlayable = playable; } void OnDestroy(){ graph.Destroy(); } } > **最佳實踐**：將 AI 產出的動作先於本機做 **IK 校正**（Inverse Kinematics），避免腳部穿模或手部超伸。 --- ## 3.5 Live2D 表情與動作驅動（2D 虛擬偶像） ### 3.5.1 Live2D 基礎概念 - **Parameter**：控制模型屬性的變數，例如 `MouthOpen`, `EyeBlink`。 - **Deformer**：對應 Photoshop PSD 層的變形器，透過 Parameter 調整形狀。 - **Physics**：自動彈性模擬（髮絲、衣服） ### 3.5.2 AI 與 Live2D 的結合方式 | 需求 | AI 輸出 | Live2D 參數映射 | |------|--------|-----------------| | **即時嘴型** | Viseme 預測 (0‑1) | `MouthA`, `MouthI`, `MouthU`… | | **眼睛注視點** | 2D 目標座標 (x, y) | `EyeX`, `EyeY` | | **情緒切換** | 情感分類 (happy, sad) | `Smile`, `BrowRaise` | #### 3.5.3 示例：使用 MediaPipe + Live2D Cubism SDK for Unity csharp using UnityEngine; using Live2D.Cubism.Core; using Live2D.Cubism.Framework.Parameter; using Mediapipe; // 假設已有 C# 包裝 public class Live2DFaceSync : MonoBehaviour { public CubismParameter mouthOpen; public CubismParameter eyeX, eyeY; private MediaPipeFaceMesh detector; void Start(){ detector = new MediaPipeFaceMesh(); } void Update(){ var frame = webcamTexture.GetPixels32(); var landmarks = detector.Process(frame); if(landmarks != null){ // mouth open: distance between upper/lower lip landmarks (indices 13 & 14) float open = Vector3.Distance(landmarks[13], landmarks[14]); mouthOpen.Value = Mathf.InverseLerp(0.02f, 0.12f, open) * 100f; // eye direction: relative to eye centre (33) Vector3 eyeCenter = landmarks[33]; eyeX.Value = (landmarks[33].x - eyeCenter.x) * 30f; eyeY.Value = (landmarks[33].y - eyeCenter.y) * 30f; } } } > **小技巧**：為減少抖動，可在參數變更前加入 **Moving Average Filter (窗口 5)**。 --- ## 3.6 ChatGPT API 與互動式腳本生成 ### 3.6.1 為什麼要結合 LLM？ - **即時對話**：觀眾提問 → 直接呼叫 ChatGPT 生成回答文字。 - **情境劇本**：依據當前主題自動生成即興對白或「情境任務」 - **情緒推論**：LLM 判斷觀眾文字的情緒，回傳給表情系統調整表情參數。 ### 3.6.2 基本呼叫流程（OpenAI GPT‑4o） 1. **建立 Prompt**：包含角色背景、語氣限制（如「甜美、充滿活力」）。 2. **發送 API 請求**（POST `/v1/chat/completions`），附上 `temperature`、`max_tokens`。 3. **解析回覆**：抽取文字與情緒標籤（使用簡易正則或情緒模型）。 4. **驅動表情 & TTS**：情緒 → 表情參數 + TTS 的 `emotion` 參數。 #### 3.6.3 範例程式碼（Node.js 中繼服務） javascript // llm_server.js const express = require('express'); const { Configuration, OpenAIApi } = require('openai'); const app = express(); app.use(express.json()); const cfg = new Configuration({ apiKey: process.env.OPENAI_API_KEY }); const openai = new OpenAIApi(cfg); const SYSTEM_PROMPT = `You are a virtual idol named 星瀾·曦夢. Respond in Traditional Chinese, friendly, lively, and keep each reply under 30 characters.`; app.post('/chat', async (req, res) => { const { userMessage } = req.body; const completion = await openai.createChatCompletion({ model: 'gpt-4o-mini', messages: [ { role: 'system', content: SYSTEM_PROMPT }, { role: 'user', content: userMessage } ], temperature: 0.7, max_tokens: 60 }); const reply = completion.data.choices[0].message.content; // 簡單情緒偵測：若含有「開心」「快樂」則為 happy const emotion = /開心|快樂|嗨/.test(reply) ? 'happy' : /難過|傷心|哭/.test(reply) ? 'sad' : 'neutral'; res.json({ text: reply, emotion }); }); app.listen(3001, () => console.log('LLM server listening on 3001')); csharp // UnityChat.cs using UnityEngine; using UnityEngine.Networking; using System.Collections; public class UnityChat : MonoBehaviour { public AudioSource voice; // 連接 TTS AudioSource IEnumerator SendMessage(string msg){ var json = JsonUtility.ToJson(new { userMessage = msg }); var uwr = UnityWebRequest.Post("http://localhost:3001/chat", json); uwr.uploadHandler = new UploadHandlerRaw(System.Text.Encoding.UTF8.GetBytes(json)); uwr.downloadHandler = new DownloadHandlerBuffer(); uwr.SetRequestHeader("Content-Type","application/json"); yield return uwr.SendWebRequest(); var resp = JsonUtility.FromJson<LLMResp>(uwr.downloadHandler.text); // 呼叫 TTS StartCoroutine(TTS(resp.text, resp.emotion)); } [System.Serializable] class LLMResp { public string text; public string emotion; } IEnumerator TTS(string txt, string emo){ /* 同前述 TTS API 呼叫 */ } } > **經驗分享**：將 LLM 回覆緩存 5 秒內的相同輸入，降低 API 次數與延遲。 --- ## 3.7 效能與部署最佳實踐 1. **模型選型**：在服務端使用 **ONNX Runtime** 或 **TensorRT** 加速推論，桌面端可考慮 **CoreML** / **MediaPipe** 原生。 2. **資源分配**： - **CPU**：適用於低解析度臉部捕捉（30 FPS） - **GPU**：必須的動作生成 (Diffusion) 與高品質 TTS (VITS) 3. **異步管線**：將 **Capture → 推論 → 渲染** 分成三條獨立執行緒，使用 **ConcurrentQueue** 傳遞資料，避免 UI 卡頓。 4. **網路延遲**：若 AI 服務部署於雲端，建議使用 **Edge Computing** (如 AWS G4i、Google Cloud Vertex AI) 並在地區 DNS 做最近路由。 5. **容錯機制**：當 AI 服務失效時，回退至「預錄」BlendShape Clip」或「Placeholder 音訊」確保直播不中斷。 --- ## 3.8 小結與行動清單 | 步驟 | 目標 | 推薦工具/資源 | |------|------|----------------| | 1. 建立臉部捕捉管線 | 即時 3D Face‑Mesh | MediaPipe (Python/JS) 或 iFacialMocap (iOS) | | 2. 設計 BlendShape / Parameter 表 | 30‑50 項常用表情 | Blender Shape Keys、Live2D Parameter 設計表格 | | 3. 部署 TTS 服務 | 角色專屬聲音 (情感) | VITS 開源模型 + FastAPI | | 4. 整合 ChatGPT 互動腳本 | 觀眾即時對話 | OpenAI GPT‑4o + Node.js 中繼服務 | | 5. 準備 AI 動作模型 | 自動產生舞蹈/表演 | DanceDiffusion (github) 或 DeepMotion Cloud | | 6. 在 Unity/Live2D 中連接 API | 完整即時表情、語音、動作 | Unity C#、Cubism SDK、WebSocket | | 7. 性能測試 | 30 FPS 以上，延遲 < 150 ms | Unity Profiler、Perfetto、ONNX Runtime Bench | | 8. 部署與監控 | 高可用雲端或 Edge | Docker、Kubernetes、Prometheus Alert | > **下篇預告**：第 4 章將深入即時渲染與跨平台雲端推流技術，教您如何打造低延遲、可擴展的虛擬直播系統，讓偶像在任何裝置上都能即時與粉絲互動。

第 2 章角色設計與 3D 建模基礎

第 4 章虛擬直播與互動技術