Spaces:

ThanhDT127
/

DATN

Sleeping

App Files Files Community

ThanhDT127 commited on Jun 16

Commit

eb16c9f

1 Parent(s): c7afc09

update model

Browse files

Files changed (9) hide show

.gitattributes copy +35 -0
Dockerfile +22 -0
README copy.md +10 -0
__pycache__/main.cpython-311.pyc +0 -0
init.py +7 -0
main.py +160 -0
models/best_model_1.pth +3 -0
requirements.txt +7 -0
templates/index.html +60 -0

.gitattributes copy ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

Dockerfile ADDED Viewed

	@@ -0,0 +1,22 @@

+FROM python:3.10-slim
+ENV HF_HOME=/app/hf_cache
+RUN apt-get update && \
+    apt-get install -y git curl && \
+    rm -rf /var/lib/apt/lists/*
+WORKDIR /app
+RUN mkdir -p /app/hf_cache /app/models \
+    && chmod -R 777 /app/hf_cache
+COPY requirements.txt /app/
+RUN pip install --no-cache-dir -r /app/requirements.txt
+COPY . /app
+CMD ["sh", "-c", "uvicorn main:app --host 0.0.0.0 --port=${PORT:-7860}"]

README copy.md ADDED Viewed

	@@ -0,0 +1,10 @@

+---
+title: DATN
+emoji: 👁
+colorFrom: green
+colorTo: yellow
+sdk: docker
+pinned: false
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

__pycache__/main.cpython-311.pyc ADDED Viewed

Binary file (8.42 kB). View file

init.py ADDED Viewed

	@@ -0,0 +1,7 @@

+from transformers import AutoTokenizer, AutoModel
+model = AutoModel.from_pretrained("vinai/phobert-base")
+tokenizer = AutoTokenizer.from_pretrained("vinai/phobert-base", use_fast=False)
+model.save_pretrained("D:/ktlt/python/thuchanh/DATN/DATN/tokenizer/phobert-base-fixed")
+tokenizer.save_pretrained("D:/ktlt/python/thuchanh/DATN/DATN/tokenizer/phobert-base-fixed")

main.py ADDED Viewed

	@@ -0,0 +1,160 @@

+import os
+os.environ.setdefault("HF_HOME", "/app/hf_cache")
+import logging
+from fastapi import FastAPI, Request
+from fastapi.templating import Jinja2Templates
+from pydantic import BaseModel
+import torch
+import torch.nn as nn
+from transformers import AutoModel, AutoTokenizer
+import uvicorn
+from huggingface_hub import hf_hub_download
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+app = FastAPI()
+templates = Jinja2Templates(directory="templates")
+HF_TOKEN = os.getenv("HUGGINGFACEHUB_API_TOKEN")
+HF_REPO = "ThanhDT127/pho-bert-bilstm"
+HF_FILE = "best_model_1.pth"
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+MODEL_DIR = "models"
+os.makedirs(MODEL_DIR, exist_ok=True)
+MODEL_PATH = os.path.join(MODEL_DIR, HF_FILE)
+try:
+    if not os.path.isfile(MODEL_PATH):
+        logger.info("Downloading model from Hugging Face Hub")
+        MODEL_PATH = hf_hub_download(
+            repo_id=HF_REPO,
+            filename=HF_FILE,
+            cache_dir=os.environ["HF_HOME"],
+            force_filename=HF_FILE,
+            token=HF_TOKEN
+        )
+    logger.info("Loading model from %s", MODEL_PATH)
+    model_state_dict = torch.load(MODEL_PATH, map_location=device)
+    logger.info("Model loaded successfully")
+except Exception as e:
+    logger.error("Error loading model: %s", str(e))
+    raise
+class TextInput(BaseModel):
+    text: str
+class BertBiLSTMClassifier(nn.Module):
+    def __init__(self, bert_model_name, num_emotion_classes, binary_cols, lstm_hidden_size=256, dropout=0.3):
+        super().__init__()
+        self.bert = AutoModel.from_pretrained(bert_model_name)
+        self.lstm = nn.LSTM(
+            input_size=self.bert.config.hidden_size,
+            hidden_size=lstm_hidden_size,
+            num_layers=1,
+            batch_first=True,
+            bidirectional=True
+        )
+        self.dropout = nn.Dropout(dropout)
+        self.emotion_fc = nn.Linear(lstm_hidden_size * 2, num_emotion_classes)
+        self.binary_fcs = nn.ModuleDict({
+            col: nn.Linear(lstm_hidden_size * 2, 1)
+            for col in binary_cols
+        })
+    def forward(self, input_ids, attention_mask):
+        bert_out = self.bert(input_ids=input_ids, attention_mask=attention_mask)
+        seq_out = bert_out.last_hidden_state
+        lstm_out, _ = self.lstm(seq_out)
+        last_hidden = lstm_out[:, -1, :]
+        dropped = self.dropout(last_hidden)
+        emo_logits = self.emotion_fc(dropped)
+        bin_logits = {
+            col: self.binary_fcs[col](dropped).squeeze(-1)
+            for col in self.binary_fcs
+        }
+        return emo_logits, bin_logits
+tokenizer = AutoTokenizer.from_pretrained(
+    "vinai/phobert-base",
+    use_fast=False,
+    cache_dir=os.environ["HF_HOME"]
+)
+binary_cols = [
+    'sản phẩm', 'giá cả', 'vận chuyển',
+    'thái độ và dịch vụ khách hàng', 'khác'
+]
+model = BertBiLSTMClassifier(
+    bert_model_name="vinai/phobert-base",
+    num_emotion_classes=3,
+    binary_cols=binary_cols,
+    lstm_hidden_size=256
+).to(device)
+# Load model state dict
+model.load_state_dict(model_state_dict)
+model.eval()
+threshold_dict = {
+    'sản phẩm': 0.6,
+    'giá cả': 0.4,
+    'vận chuyển': 0.45,
+    'thái độ và dịch vụ khách hàng': 0.35,
+    'khác': 0.4
+}
+def predict(text: str):
+    logger.info("Starting prediction for text: %s", text)
+    try:
+        enc = tokenizer(
+            text, add_special_tokens=True, max_length=128,
+            padding='max_length', truncation=True, return_tensors='pt'
+        )
+        input_ids = enc['input_ids'].to(device)
+        attention_mask = enc['attention_mask'].to(device)
+        with torch.no_grad():
+            emo_logits, bin_logits = model(input_ids, attention_mask)
+            emo_pred = torch.argmax(emo_logits, dim=1).item()
+            bin_pred = {
+                col: (torch.sigmoid(bin_logits[col]) > threshold_dict[col]).float().item()
+                for col in binary_cols
+            }
+        emo_label = ['tiêu cực', 'trung tính', 'tích cực'][emo_pred]
+        bin_labels = {col: ('có' if bin_pred[col] == 1 else 'không') for col in binary_cols}
+        logger.info("Prediction completed: emotion=%s, binary=%s", emo_label, bin_labels)
+        return emo_label, bin_labels
+    except Exception as e:
+        logger.error("Error during prediction: %s", str(e))
+        raise
+@app.get("/")
+async def read_root(request: Request):
+    logger.info("Received GET request for /")
+    try:
+        response = templates.TemplateResponse("index.html", {"request": request})
+        logger.info("Successfully rendered index.html")
+        return response
+    except Exception as e:
+        logger.error("Error rendering index.html: %s", str(e))
+        raise
+@app.post("/predict")
+async def predict_text(input: TextInput):
+    logger.info("Received POST request for /predict with input: %s", input.text)
+    try:
+        emotion, binary = predict(input.text)
+        logger.info("Sending prediction response: emotion=%s, binary=%s", emotion, binary)
+        return {"emotion": emotion, "binary": binary}
+    except Exception as e:
+        logger.error("Error in predict_text endpoint: %s", str(e))
+        raise
+if __name__ == "__main__":
+    port = int(os.getenv("PORT", 8000))
+    logger.info("Starting Uvicorn server on port %d", port)
+    uvicorn.run("main:app", host="0.0.0.0", port=port)

models/best_model_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0cbff8d51a18ef563326782917ec30e9c143343914a632f7f5db0695bddf2fa8
+size 543768578

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+fastapi
+uvicorn[standard]
+torch
+transformers
+jinja2
+pydantic
+huggingface_hub

templates/index.html ADDED Viewed

	@@ -0,0 +1,60 @@

+<!DOCTYPE html>
+<html lang="vi">
+<head>
+  <meta charset="UTF-8">
+  <title>Phân loại văn bản</title>
+  <script src="https://cdn.tailwindcss.com"></script>
+</head>
+<body class="bg-gray-100 min-h-screen flex flex-col items-center justify-center p-6">
+  <div class="bg-white shadow-xl rounded-lg p-8 w-full max-w-xl">
+    <h1 class="text-2xl font-bold text-center text-blue-600 mb-6">Phân loại văn bản cảm xúc & khía cạnh</h1>
+    <label for="textInput" class="block mb-2 text-sm font-medium text-gray-700">Nhập văn bản:</label>
+    <textarea id="textInput" rows="4" placeholder="Nhập văn bản cần phân loại..."
+      class="w-full p-3 border border-gray-300 rounded-lg focus:outline-none focus:ring-2 focus:ring-blue-400 resize-none"></textarea>
+    <button onclick="classifyText()"
+      class="mt-4 w-full bg-blue-500 hover:bg-blue-600 text-white font-semibold py-2 px-4 rounded-lg transition duration-200">
+      Phân loại
+    </button>
+    <div id="result" class="mt-6 text-sm text-gray-800"></div>
+  </div>
+  <script>
+    async function classifyText() {
+      const text = document.getElementById("textInput").value;
+      if (!text) {
+        alert("Vui lòng nhập văn bản!");
+        return;
+      }
+      try {
+        const response = await fetch("/predict", {
+          method: "POST",
+          headers: { "Content-Type": "application/json" },
+          body: JSON.stringify({ text })
+        });
+        if (!response.ok) {
+          throw new Error(`HTTP error! status: ${response.status}`);
+        }
+        const data = await response.json();
+        const resultDiv = document.getElementById("result");
+        resultDiv.innerHTML = `
+          <p><strong>Cảm xúc:</strong> <span class="text-blue-600">${data.emotion}</span></p>
+          <p><strong>Sản phẩm:</strong> ${data.binary["sản phẩm"]}</p>
+          <p><strong>Giá cả:</strong> ${data.binary["giá cả"]}</p>
+          <p><strong>Vận chuyển:</strong> ${data.binary["vận chuyển"]}</p>
+          <p><strong>Thái độ và dịch vụ khách hàng:</strong> ${data.binary["thái độ và dịch vụ khách hàng"]}</p>
+          <p><strong>Khác:</strong> ${data.binary["khác"]}</p>
+        `;
+      } catch (error) {
+        console.error("Error:", error);
+        alert("Có lỗi xảy ra khi phân loại văn bản!");
+      }
+    }
+  </script>
+</body>
+</html>