Spaces:

Duplicated from O-ken5481/talkingAvater_bgk

Athagi
/

talkingAvater_bgk

Runtime error

App Files Files Community

talkingAvater_bgk / README.md

oKen38461's picture

`.gitignore`に`tests/`を追加し、`README.md`のAPIドキュメントセクションを更新しました。また、`test_api_client.py`、`test_api.py`、`test_performance_optimized.py`、`test_performance.py`のテストスクリプトを削除しました。

0f839d2 29 days ago

|

history blame contribute delete

2.74 kB

A newer version of the Gradio SDK is available: 5.42.0

Upgrade

metadata

title: TalkingAvater Bgk
emoji: ⚡
colorFrom: red
colorTo: purple
sdk: gradio
sdk_version: 5.38.0
app_file: app_optimized.py
pinned: false

DittoTalkingHead - Talking Head Generation (Phase 3 最適化版)

音声とソース画像から、リアルなTalking Headビデオを生成します。

🚀 Phase 3 最適化機能

解像度320×320固定: 処理速度を約50%向上
GPU最適化: Mixed Precision、torch.compile対応
アバターキャッシュ: 画像を事前アップロードして高速化
Cold Start最適化: モデルロード時間を短縮

使い方

Web UI

音声ファイル（WAV形式）をアップロード
ソース画像（PNG/JPG形式）をアップロード
生成ボタンをクリック

API経由での使用

Python クライアント

pip install "gradio_client>=1.11.0"

from gradio_client import Client, handle_file

client = Client("O-ken5481/talkingAvater_bgk")
result = client.predict(
    audio_file=handle_file("path/to/audio.wav"),
    source_image=handle_file("path/to/image.png"),
    api_name="/process_talking_head"
)

高度なクライアント（タイムスタンプ付き保存）

from test_api_client import TalkingHeadAPIClient

client = TalkingHeadAPIClient()
saved_path, status = client.process_with_save(
    audio_path="example/audio.wav",
    image_path="example/image.png"
)

テストの実行

# 基本的なAPIテスト
python test_api.py

# カスタムテストクライアント
python test_api_client.py

技術仕様

モデル: DittoTalkingHead (PyTorch版)
GPU: NVIDIA A100推奨
初回実行時: モデルのダウンロード（約2.5GB）
処理速度: 16秒の音声を約15秒で処理（Phase 3最適化により50-65%高速化）

ドキュメント

📁 APIドキュメント - リアルタイムを超える動画生成APIの全ドキュメント
- 🚀 統合ガイド - 完全なAPIインテグレーションガイド
- ⚡ クイックリファレンス - 5分で実装できるクイックスタート
- 📝 API仕様書 - 詳細なAPI仕様とサンプルコード
- 💻 統合サンプル集 - 実装例とベストプラクティス
📋 Phase2実装仕様 - API実装の詳細
🔧 Phase3最適化ガイド - パフォーマンス最適化の詳細

Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference