Spaces:
Runtime error
Runtime error
A newer version of the Gradio SDK is available:
5.42.0
metadata
title: TalkingAvater Bgk
emoji: ⚡
colorFrom: red
colorTo: purple
sdk: gradio
sdk_version: 5.38.0
app_file: app_optimized.py
pinned: false
DittoTalkingHead - Talking Head Generation (Phase 3 最適化版)
音声とソース画像から、リアルなTalking Headビデオを生成します。
🚀 Phase 3 最適化機能
- 解像度320×320固定: 処理速度を約50%向上
- GPU最適化: Mixed Precision、torch.compile対応
- アバターキャッシュ: 画像を事前アップロードして高速化
- Cold Start最適化: モデルロード時間を短縮
使い方
Web UI
- 音声ファイル(WAV形式)をアップロード
- ソース画像(PNG/JPG形式)をアップロード
- 生成ボタンをクリック
API経由での使用
Python クライアント
pip install "gradio_client>=1.11.0"
from gradio_client import Client, handle_file
client = Client("O-ken5481/talkingAvater_bgk")
result = client.predict(
audio_file=handle_file("path/to/audio.wav"),
source_image=handle_file("path/to/image.png"),
api_name="/process_talking_head"
)
高度なクライアント(タイムスタンプ付き保存)
from test_api_client import TalkingHeadAPIClient
client = TalkingHeadAPIClient()
saved_path, status = client.process_with_save(
audio_path="example/audio.wav",
image_path="example/image.png"
)
テストの実行
# 基本的なAPIテスト
python test_api.py
# カスタムテストクライアント
python test_api_client.py
技術仕様
- モデル: DittoTalkingHead (PyTorch版)
- GPU: NVIDIA A100推奨
- 初回実行時: モデルのダウンロード(約2.5GB)
- 処理速度: 16秒の音声を約15秒で処理(Phase 3最適化により50-65%高速化)
ドキュメント
- 📁 APIドキュメント - リアルタイムを超える動画生成APIの全ドキュメント
- 🚀 統合ガイド - 完全なAPIインテグレーションガイド
- ⚡ クイックリファレンス - 5分で実装できるクイックスタート
- 📝 API仕様書 - 詳細なAPI仕様とサンプルコード
- 💻 統合サンプル集 - 実装例とベストプラクティス
- 📋 Phase2実装仕様 - API実装の詳細
- 🔧 Phase3最適化ガイド - パフォーマンス最適化の詳細
Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference