Model Card for YEOPHYEONG/qwen2.5-bdi-lora

이 모델은 Qwen/Qwen2.5-3B-Instruct를 기반으로, 한국어 보이스피싱 문장을 대상으로 BDI(Belief, Desire, Intention) 추론을 수행할 수 있도록 LoRA 방식으로 파인튜닝된 모델입니다.
발화자의 신념(Belief), 욕구(Desire), 의도(Intention)를 윤리성 점수로 분석해 종합 BDI 점수를 계산합니다.


Model Details

Model Description

  • Developed by: YEOPHYEONG
  • Model type: Causal Language Model with LoRA Adapter
  • Language(s) (NLP): Korean
  • License: Apache-2.0
  • Finetuned from model: Qwen/Qwen2.5-3B-Instruct

Model Sources


Uses

Direct Use

  • 발화문의 윤리성 판단
  • BDI 기준에 따른 한국어 보이스피싱 탐지
  • 콜센터·금융상담 시스템 내 보조 분석

Downstream Use

  • 다중 모델 시스템에서 BDI 감지 모듈로 통합 가능
  • 윤리성 평가 기반 대화형 필터링에 활용 가능

Out-of-Scope Use

  • 다국어 발화 분석
  • 법적 판단 도구로의 직접적 활용
  • 창작형 텍스트 생성 (creative writing)

Bias, Risks, and Limitations

모델은 OpenAI API로 생성된 BDI 기준 데이터를 기반으로 하며, 허위/조작된 발화에 대해 민감하게 반응하도록 설계되었습니다. 그러나 다음의 제한점이 존재합니다:

  • 허위 탐지 기준의 완전한 보편성 부족
  • 윤리성 기준의 문화적 차이 반영 어려움
  • 보이스피싱이 아닌 발화에 대해 과도한 점수 부여 가능성

Recommendations

  • 사용자는 점수 해석 시 **"비윤리적" vs "범죄적"**이라는 혼동을 주의해야 합니다.
  • BDI 점수는 판단 보조 도구일 뿐이며, 최종 판단은 인간 검토자에 의해 수행되어야 합니다.

How to Get Started with the Model

from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, TextStreamer
from peft import PeftModel
import torch

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)

base_model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen2.5-3B-Instruct",
    trust_remote_code=True,
    quantization_config=bnb_config,
    device_map="auto"
)
model = PeftModel.from_pretrained(base_model, "YEOPHYEONG/qwen2.5-bdi-lora").eval()
tokenizer = AutoTokenizer.from_pretrained("YEOPHYEONG/qwen2.5-bdi-lora", trust_remote_code=True)

prompt = """다음 문장을 BDI 이론에 따라 점수로 분석하라:

문장: "지금 피해자 분의 계좌를 동결처리해야될 거 같아요. 동의 하시죠?"

답변:"""
streamer = TextStreamer(tokenizer)
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

with torch.no_grad():
    model.generate(**inputs, max_new_tokens=400, do_sample=False, streamer=streamer)

Training Details

Training Data

  • 약 300개의 보이스피싱 문장을 기반으로 OpenAI GPT-4 API를 통해 생성된 BDI 분석 데이터
  • 각 항목(Belief, Desire, Intention)과 종합 점수가 포함됨

Training Procedure

  • LoRA r=32, alpha=16, dropout=0.1
  • bf16 mixed precision
  • 3 epochs
  • batch size: 2 (gradient_accumulation_steps=2)
  • Trainer 사용, 4bit 양자화로 학습

🧠 BDI 점수 기준

BDI 점수는 발화자의 의도와 윤리성에 따라 다음 기준으로 평가됩니다:

  • 0~3점 (사기 / 협박 / 조작)

    • 허위 진술
    • 신분 사칭
    • 개인정보/금전 요구
    • 공포심 유발
  • 4~6점 (혼란 / 중립 / 애매함)

    • 혼란스러운 진술
    • 명확하지 않은 요구나 응답
    • 모호한 정보
  • 7~10점 (도움 / 정직 / 피해 호소)

    • 피해자 진술
    • 정직한 설명
    • 선의의 목적

Evaluation

Testing Data

  • 약 15개 문장으로 구성된 hold-out 평가 세트 사용 (비공개)

Metrics

  • 인간 평가자의 일치율 (agreement) 기반 수동 검증
  • 악성 탐지 민감도, 거짓 탐지 비율에 대한 질적 평가 수행

Environmental Impact

  • Hardware Type: Google Colab (T4 / A100)
  • Hours Used: 약 1.5시간
  • Cloud Provider: Google
  • Carbon Emitted: 미측정 (Colab 기준 소규모)

Technical Specifications

Model Architecture and Objective

  • Qwen2.5-3B Instruct 구조
  • Causal Language Modeling
  • LoRA Adapter Fine-tuning

Compute Infrastructure

  • Google Colab Pro (T4 GPU 기반)

Citation

@misc{qwen2024,
  title={Qwen 2.5: A Stronger Multilingual Instruction-tuned Language Model},
  author={Alibaba Cloud},
  howpublished = {\url{https://huggingface.co/Qwen/Qwen2.5-3B-Instruct}},
  year={2024}
}

Model Card Authors

  • @YEOPHYEONG

Model Card Contact

Downloads last month
3
Safetensors
Model size
3.09B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support