在自定义数据集上微调Alpaca和LLaMA

[复制链接]
查看530 | 回复0 | 2023-8-11 14:02:00 | 显示全部楼层 |阅读模式
本文将介绍使用LoRa在本地机器上微调Alpaca和LLaMA,我们将介绍在特定数据集上对Alpaca LoRa进行微调的整个过程,本文将涵盖数据处理、模型训练和使用流行的自然语言处理库(如Transformers和hugs Face)进行评估。此外还将介绍如何使用grado应用程序部署和测试模型。

配置

首先,alpaca-lora1 GitHub存储库提供了一个脚本(finetune.py)来训练模型。在本文中,我们将利用这些代码并使其在Google Colab环境中无缝地工作。
首先安装必要的依赖:
  1. !pip install -U pip
  2. !pip install accelerate==0.18.0
  3. !pip install appdirs==1.4.4
  4. !pip install bitsandbytes==0.37.2
  5. !pip install datasets==2.10.1
  6. !pip install fire==0.5.0
  7. !pip install git+https://github.com/huggingface/peft.git
  8. !pip install git+https://github.com/huggingface/transformers.git
  9. !pip install torch==2.0.0
  10. !pip install sentencepiece==0.1.97
  11. !pip install tensorboardX==2.6
  12. !pip install gradio==3.23.0
复制代码
安装完依赖项后,继续导入所有必要的库,并为matplotlib绘图配置设置:
  1. import transformers
  2. import textwrap
  3. from transformers import LlamaTokenizer, LlamaForCausalLM
  4. import os
  5. import sys
  6. from typing import List
  7. from peft import (
  8.      LoraConfig,
  9.      get_peft_model,
  10.      get_peft_model_state_dict,
  11.      prepare_model_for_int8_training,
  12. )
  13. import fire
  14. import torch
  15. from datasets import load_dataset
  16. import pandas as pd
  17. import matplotlib.pyplot as plt
  18. import matplotlib as mpl
  19. import seaborn as sns
  20. from pylab import rcParams
  21. %matplotlib inline
  22. sns.set(rc={'figure.figsize':(10, 7)})
  23. sns.set(rc={'figure.dpi':100})
  24. sns.set(style='white', palette='muted', font_scale=1.2)
  25. DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
  26. DEVICE
复制代码
数据

我们这里使用BTC Tweets Sentiment dataset4,该数据可在Kaggle上获得,包含大约50,000条与比特币相关的tweet。为了清理数据,删除了所有以“转发”开头或包含链接的推文。
使用Pandas来加载CSV:
  1. df = pd.read_csv("bitcoin-sentiment-tweets.csv")
  2. df.head()
复制代码

通过清理的数据集有大约1900条推文。
情绪标签用数字表示,其中-1表示消极情绪,0表示中性情绪,1表示积极情绪。让我们看看它们的分布:
  1. df.sentiment.value_counts()
  2. # 0.0    860
  3. # 1.0    779
  4. # -1.0    258
  5. # Name: sentiment, dtype: int64
复制代码
数据量差不多,虽然负面评论较少,但是可以简单的当成平衡数据来对待:
  1. df.sentiment.value_counts().plot(kind='bar');
复制代码

构建JSON数据集

原始Alpaca存储库中的dataset5格式由一个JSON文件组成,该文件具有具有指令、输入和输出字符串的对象列表。
让我们将Pandas的DF转换为一个JSON文件,该文件遵循原始Alpaca存储库中的格式:
  1. def sentiment_score_to_name(score: float):
  2.      if score > 0:
  3.          return "Positive"
  4.      elif score < 0:
  5.          return "Negative"
  6.      return "Neutral"
  7. dataset_data = [
  8.      {
  9.          "instruction": "Detect the sentiment of the tweet.",
  10.          "input": row_dict["tweet"],
  11.          "output": sentiment_score_to_name(row_dict["sentiment"])
  12.      }
  13.      for row_dict in df.to_dict(orient="records")
  14. ]
  15. dataset_data[0]
复制代码
结果如下:
  1. {
  2.    "instruction": "Detect the sentiment of the tweet.",
  3.    "input": "@p0nd3ea Bitcoin wasn't built to live on exchanges.",
  4.    "output": "Positive"
  5. }
复制代码
然后就是保存生成的JSON文件,以便稍后使用它来训练模型:
  1. import json
  2. with open("alpaca-bitcoin-sentiment-dataset.json", "w") as f:
  3.     json.dump(dataset_data, f)
复制代码
模型权重

虽然原始的Llama模型权重不可用,但它们被泄露并随后被改编用于HuggingFace Transformers库。我们将使用decapoda-research6:
  1. BASE_MODEL = "decapoda-research/llama-7b-hf"
  2. model = LlamaForCausalLM.from_pretrained(
  3.      BASE_MODEL,
  4.      load_in_8bit=True,
  5.      torch_dtype=torch.float16,
  6.      device_map="auto",
  7. )
  8. tokenizer = LlamaTokenizer.from_pretrained(BASE_MODEL)
  9. tokenizer.pad_token_id = (
  10.      0  # unk. we want this to be different from the eos token
  11. )
  12. tokenizer.padding_side = "left"
复制代码
这段代码使用来自Transformers库的LlamaForCausalLM类加载预训练的Llama 模型。load_in_8bit=True参数使用8位量化加载模型,以减少内存使用并提高推理速度。
代码还使用LlamaTokenizer类为同一个Llama模型加载标记器,并为填充标记设置一些附加属性。具体来说,它将pad_token_id设置为0以表示未知的令牌,并将padding_side设置为“left”以填充左侧的序列。
数据集加载

现在我们已经加载了模型和标记器,下一步就是加载之前保存的JSON文件,使用HuggingFace数据集库中的load_dataset()函数:
  1. data = load_dataset("json", data_files="alpaca-bitcoin-sentiment-dataset.json")
  2. data["train"]
复制代码
结果如下:
  1. Dataset({
  2.      features: ['instruction', 'input', 'output'],
  3.      num_rows: 1897
  4. })
复制代码
接下来,我们需要从加载的数据集中创建提示并标记它们:
  1. def generate_prompt(data_point):
  2.      return f"""Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.  # noqa: E501
  3. ### Instruction:
  4. {data_point["instruction"]}
  5. ### Input:
  6. {data_point["input"]}
  7. ### Response:
  8. {data_point["output"]}"""
  9. def tokenize(prompt, add_eos_token=True):
  10.      result = tokenizer(
  11.          prompt,
  12.          truncation=True,
  13.          max_length=CUTOFF_LEN,
  14.          padding=False,
  15.          return_tensors=None,
  16.      )
  17.      if (
  18.          result["input_ids"][-1] != tokenizer.eos_token_id
  19.          and len(result["input_ids"]) < CUTOFF_LEN
  20.          and add_eos_token
  21.      ):
  22.          result["input_ids"].append(tokenizer.eos_token_id)
  23.          result["attention_mask"].append(1)
  24.      result["labels"] = result["input_ids"].copy()
  25.      return result
  26. def generate_and_tokenize_prompt(data_point):
  27.      full_prompt = generate_prompt(data_point)
  28.      tokenized_full_prompt = tokenize(full_prompt)
  29.      return tokenized_full_prompt
复制代码
第一个函数generate_prompt从数据集中获取一个数据点,并通过组合指令、输入和输出值来生成提示。第二个函数tokenize接收生成的提示,并使用前面定义的标记器对其进行标记。它还向输入序列添加序列结束标记,并将标签设置为与输入序列相同。第三个函数generate_and_tokenize_prompt结合了前两个函数,生成并标记提示。
数据准备的最后一步是将数据集分成单独的训练集和验证集:
  1. train_val = data["train"].train_test_split(
  2.      test_size=200, shuffle=True, seed=42
  3. )
  4. train_data = (
  5.      train_val["train"].map(generate_and_tokenize_prompt)
  6. )
  7. val_data = (
  8.      train_val["test"].map(generate_and_tokenize_prompt)
  9. )
复制代码
我们还需要数据进行打乱,并且获取200个样本作为验证集。generate_and_tokenize_prompt()函数应用于训练和验证集中的每个示例,生成标记化的提示。
训练

训练过程需要几个参数,这些参数主要来自原始存储库中的微调脚本:
  1. LORA_R = 8
  2. LORA_ALPHA = 16
  3. LORA_DROPOUT= 0.05
  4. LORA_TARGET_MODULES = [
  5.      "q_proj",
  6.      "v_proj",
  7. ]
  8. BATCH_SIZE = 128
  9. MICRO_BATCH_SIZE = 4
  10. GRADIENT_ACCUMULATION_STEPS = BATCH_SIZE // MICRO_BATCH_SIZE
  11. LEARNING_RATE = 3e-4
  12. TRAIN_STEPS = 300
  13. OUTPUT_DIR = "experiments"
复制代码
下面就可以为训练准备模型了:
  1. model = prepare_model_for_int8_training(model)
  2. config = LoraConfig(
  3.      r=LORA_R,
  4.      lora_alpha=LORA_ALPHA,
  5.      target_modules=LORA_TARGET_MODULES,
  6.      lora_dropout=LORA_DROPOUT,
  7.      bias="none",
  8.      task_type="CAUSAL_LM",
  9. )
  10. model = get_peft_model(model, config)
  11. model.print_trainable_parameters()
  12. #trainable params: 4194304 || all params: 6742609920 || trainable%: 0.06220594176090199
复制代码
我们使用LORA算法初始化并准备模型进行训练,通过量化可以减少模型大小和内存使用,而不会显着降低准确性。
LoraConfig7是一个为LORA算法指定超参数的类,例如正则化强度(lora_alpha)、dropout概率(lora_dropout)和要压缩的目标模块(target_modules)。
然后就可以直接使用Transformers库进行训练:
  1. training_arguments = transformers.TrainingArguments(
  2.      per_device_train_batch_size=MICRO_BATCH_SIZE,
  3.      gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS,
  4.      warmup_steps=100,
  5.      max_steps=TRAIN_STEPS,
  6.      learning_rate=LEARNING_RATE,
  7.      fp16=True,
  8.      logging_steps=10,
  9.      optim="adamw_torch",
  10.      evaluation_strategy="steps",
  11.      save_strategy="steps",
  12.      eval_steps=50,
  13.      save_steps=50,
  14.      output_dir=OUTPUT_DIR,
  15.      save_total_limit=3,
  16.      load_best_model_at_end=True,
  17.      report_to="tensorboard"
  18. )
复制代码
这段代码创建了一个TrainingArguments对象,该对象指定用于训练模型的各种设置和超参数。这些包括:


  • gradient_accumulation_steps:在执行向后/更新之前累积梯度的更新步数。
  • warmup_steps:优化器的预热步数。
  • max_steps:要执行的训练总数。
  • learning_rate:学习率。
  • fp16:使用16位精度进行训练。
DataCollatorForSeq2Seq是transformer库中的一个类,它为序列到序列(seq2seq)模型创建一批输入/输出序列。在这段代码中,DataCollatorForSeq2Seq对象用以下参数实例化:
  1. data_collator = transformers.DataCollatorForSeq2Seq(
  2.      tokenizer, pad_to_multiple_of=8, return_tensors="pt", padding=True
  3. )
复制代码
pad_to_multiple_of:表示最大序列长度的整数,四舍五入到最接近该值的倍数。
padding:一个布尔值,指示是否将序列填充到指定的最大长度。
以上就是训练的所有代码准备,下面就是训练了
  1. trainer = transformers.Trainer(
  2.      model=model,
  3.      train_dataset=train_data,
  4.      eval_dataset=val_data,
  5.      args=training_arguments,
  6.      data_collator=data_collator
  7. )
  8. model.config.use_cache = False
  9. old_state_dict = model.state_dict
  10. model.state_dict = (
  11.      lambda self, *_, **__: get_peft_model_state_dict(
  12.          self, old_state_dict()
  13.      )
  14. ).__get__(model, type(model))
  15. model = torch.compile(model)
  16. trainer.train()
  17. model.save_pretrained(OUTPUT_DIR)
复制代码
在实例化训练器之后,代码在模型的配置中将use_cache设置为False,并使用get_peft_model_state_dict()函数为模型创建一个state_dict,该函数为使用低精度算法进行训练的模型做准备。
然后在模型上调用torch.compile()函数,该函数编译模型的计算图并准备使用PyTorch 2进行训练。
训练过程在A100上持续了大约2个小时。我们看一下Tensorboard上的结果:

训练损失和评估损失呈稳步下降趋势。看来我们的微调是有效的。
如果你想将模型上传到Hugging Face上,可以使用下面代码,
  1. from huggingface_hub import notebook_login
  2. notebook_login()
  3. model.push_to_hub("curiousily/alpaca-bitcoin-tweets-sentiment", use_auth_token=True)
复制代码
推理

我们可以使用generate.py脚本来测试模型:
  1. !git clone https://github.com/tloen/alpaca-lora.git
  2. %cd alpaca-lora
  3. !git checkout a48d947
复制代码
我们的脚本启动的gradio应用程序
  1. !python generate.py \
  2.      --load_8bit \
  3.      --base_model 'decapoda-research/llama-7b-hf' \
  4.      --lora_weights 'curiousily/alpaca-bitcoin-tweets-sentiment' \
  5.      --share_gradio
复制代码
简单的界面如下:

总结

我们已经成功地使用LoRa方法对Llama 模型进行了微调,还演示了如何在Gradio应用程序中使用它。
如果你对本文感兴趣,请看原文:
https://avoid.overfit.cn/post/34b6eaf7097a4929b9aab7809f3cfeaa

来源:https://blog.csdn.net/m0_46510245/article/details/131759494
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则