talkingAvater_bgk / README.md
oKen38461's picture
`.gitignore`に`tests/`を追加し、`README.md`のAPIドキュメントセクションを更新しました。また、`test_api_client.py`、`test_api.py`、`test_performance_optimized.py`、`test_performance.py`のテストスクリプトを削除しました。
0f839d2

A newer version of the Gradio SDK is available: 5.42.0

Upgrade
metadata
title: TalkingAvater Bgk
emoji: 
colorFrom: red
colorTo: purple
sdk: gradio
sdk_version: 5.38.0
app_file: app_optimized.py
pinned: false

DittoTalkingHead - Talking Head Generation (Phase 3 最適化版)

音声とソース画像から、リアルなTalking Headビデオを生成します。

🚀 Phase 3 最適化機能

  • 解像度320×320固定: 処理速度を約50%向上
  • GPU最適化: Mixed Precision、torch.compile対応
  • アバターキャッシュ: 画像を事前アップロードして高速化
  • Cold Start最適化: モデルロード時間を短縮

使い方

Web UI

  1. 音声ファイル(WAV形式)をアップロード
  2. ソース画像(PNG/JPG形式)をアップロード
  3. 生成ボタンをクリック

API経由での使用

Python クライアント

pip install "gradio_client>=1.11.0"
from gradio_client import Client, handle_file

client = Client("O-ken5481/talkingAvater_bgk")
result = client.predict(
    audio_file=handle_file("path/to/audio.wav"),
    source_image=handle_file("path/to/image.png"),
    api_name="/process_talking_head"
)

高度なクライアント(タイムスタンプ付き保存)

from test_api_client import TalkingHeadAPIClient

client = TalkingHeadAPIClient()
saved_path, status = client.process_with_save(
    audio_path="example/audio.wav",
    image_path="example/image.png"
)

テストの実行

# 基本的なAPIテスト
python test_api.py

# カスタムテストクライアント
python test_api_client.py

技術仕様

  • モデル: DittoTalkingHead (PyTorch版)
  • GPU: NVIDIA A100推奨
  • 初回実行時: モデルのダウンロード(約2.5GB)
  • 処理速度: 16秒の音声を約15秒で処理(Phase 3最適化により50-65%高速化)

ドキュメント

Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference