Model Card for `YEOPHYEONG/qwen2.5-bdi-lora`

이 모델은 Qwen/Qwen2.5-3B-Instruct를 기반으로, 한국어 보이스피싱 문장을 대상으로 BDI(Belief, Desire, Intention) 추론을 수행할 수 있도록 LoRA 방식으로 파인튜닝된 모델입니다.
발화자의 신념(Belief), 욕구(Desire), 의도(Intention)를 윤리성 점수로 분석해 종합 BDI 점수를 계산합니다.

Model Details

Model Description

Developed by: YEOPHYEONG
Model type: Causal Language Model with LoRA Adapter
Language(s) (NLP): Korean
License: Apache-2.0
Finetuned from model: Qwen/Qwen2.5-3B-Instruct

Model Sources

Repository: https://huggingface.co/YEOPHYEONG/qwen2.5-bdi-lora

Uses

Direct Use

발화문의 윤리성 판단
BDI 기준에 따른 한국어 보이스피싱 탐지
콜센터·금융상담 시스템 내 보조 분석

Downstream Use

다중 모델 시스템에서 BDI 감지 모듈로 통합 가능
윤리성 평가 기반 대화형 필터링에 활용 가능

Out-of-Scope Use

다국어 발화 분석
법적 판단 도구로의 직접적 활용
창작형 텍스트 생성 (creative writing)

Bias, Risks, and Limitations

모델은 OpenAI API로 생성된 BDI 기준 데이터를 기반으로 하며, 허위/조작된 발화에 대해 민감하게 반응하도록 설계되었습니다. 그러나 다음의 제한점이 존재합니다:

허위 탐지 기준의 완전한 보편성 부족
윤리성 기준의 문화적 차이 반영 어려움
보이스피싱이 아닌 발화에 대해 과도한 점수 부여 가능성

Recommendations

사용자는 점수 해석 시 **"비윤리적" vs "범죄적"**이라는 혼동을 주의해야 합니다.
BDI 점수는 판단 보조 도구일 뿐이며, 최종 판단은 인간 검토자에 의해 수행되어야 합니다.

How to Get Started with the Model

from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, TextStreamer
from peft import PeftModel
import torch

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)

base_model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen2.5-3B-Instruct",
    trust_remote_code=True,
    quantization_config=bnb_config,
    device_map="auto"
)
model = PeftModel.from_pretrained(base_model, "YEOPHYEONG/qwen2.5-bdi-lora").eval()
tokenizer = AutoTokenizer.from_pretrained("YEOPHYEONG/qwen2.5-bdi-lora", trust_remote_code=True)

prompt = """다음 문장을 BDI 이론에 따라 점수로 분석하라:

문장: "지금 피해자 분의 계좌를 동결처리해야될 거 같아요. 동의 하시죠?"

답변:"""
streamer = TextStreamer(tokenizer)
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

with torch.no_grad():
    model.generate(**inputs, max_new_tokens=400, do_sample=False, streamer=streamer)

Training Details

Training Data

약 300개의 보이스피싱 문장을 기반으로 OpenAI GPT-4 API를 통해 생성된 BDI 분석 데이터
각 항목(Belief, Desire, Intention)과 종합 점수가 포함됨

Training Procedure

LoRA r=32, alpha=16, dropout=0.1
bf16 mixed precision
3 epochs
batch size: 2 (gradient_accumulation_steps=2)
Trainer 사용, 4bit 양자화로 학습

🧠 BDI 점수 기준

BDI 점수는 발화자의 의도와 윤리성에 따라 다음 기준으로 평가됩니다:

0~3점 (사기 / 협박 / 조작)
- 허위 진술
- 신분 사칭
- 개인정보/금전 요구
- 공포심 유발
4~6점 (혼란 / 중립 / 애매함)
- 혼란스러운 진술
- 명확하지 않은 요구나 응답
- 모호한 정보
7~10점 (도움 / 정직 / 피해 호소)
- 피해자 진술
- 정직한 설명
- 선의의 목적

Evaluation

Testing Data

약 15개 문장으로 구성된 hold-out 평가 세트 사용 (비공개)

Metrics

인간 평가자의 일치율 (agreement) 기반 수동 검증
악성 탐지 민감도, 거짓 탐지 비율에 대한 질적 평가 수행

Environmental Impact

Hardware Type: Google Colab (T4 / A100)
Hours Used: 약 1.5시간
Cloud Provider: Google
Carbon Emitted: 미측정 (Colab 기준 소규모)

Technical Specifications

Model Architecture and Objective

Qwen2.5-3B Instruct 구조
Causal Language Modeling
LoRA Adapter Fine-tuning

Compute Infrastructure

Google Colab Pro (T4 GPU 기반)

Citation

@misc{qwen2024,
  title={Qwen 2.5: A Stronger Multilingual Instruction-tuned Language Model},
  author={Alibaba Cloud},
  howpublished = {\url{https://huggingface.co/Qwen/Qwen2.5-3B-Instruct}},
  year={2024}
}

Model Card Authors

@YEOPHYEONG

Model Card Contact

Hugging Face: https://huggingface.co/YEOPHYEONG

Model Card for YEOPHYEONG/qwen2.5-bdi-lora