株洲市网站建设_网站建设公司_Tailwind CSS_seo优化
2026/1/16 6:36:13 网站建设 项目流程

论文信息

论文标题:Analysis of Disinformation and Fake News Detection Using Fine-Tuned Large Language Model

论文翻译:使用微调大语言模型的虚假信息与假新闻检测分析

论文作者:博赫丹·M·帕夫利申科

论文来源:aRxiv 2023

发布时间:2023

论文地址:https://arxiv.org/abs/2309.04704

论文代码:

总结

  1. 研究核心:探讨微调 Llama 2 大型语言模型(LLM)在虚假信息分析与假新闻检测领域的应用可能性。

  2. 微调方法:采用基于 PEFT/LoRA 的技术方案对模型进行微调。

  3. 微调任务:模型针对 5 类任务优化,包括文本虚假信息与宣传叙事揭露、事实核查、假新闻检测、操纵分析、命名实体及其情感提取。

  4. 研究结果

    • 微调后的 Llama 2 模型可对文本开展深度分析,识别其中复杂风格与叙事。

    • 提取的命名实体情感,能作为有监督机器学习模型的预测特征。

1 方法

LLM 监督指令微调的超参数

  结合文档中 Llama 2 的 PEFT/LoRA 微调实践及补充搜索资源,监督指令微调的核心超参数可分为模型适配参数训练过程参数优化器相关参数三类,具体如下:

超参数类别 具体参数 文档中 Llama 2 微调配置 补充建议(来自搜索资源)
模型适配参数 基础模型 ID meta-llama/Llama-2-7b-chat-hf 需根据任务选择适配模型(如 Qwen/Qwen2.5-7B、GPT-3)
  量化精度 load_in_4bit=True(nf4 类型) 低资源场景用 4bit,高资源场景可尝试 8bit/16bit
  PEFT/LoRA 配置 未明确 r 值,用 LoRA 注入低秩矩阵 参考摘要 5:r=16、lora_alpha=32、lora_dropout=0.05,目标模块含 q_proj/k_proj 等
训练过程参数 学习率 5e-4 摘要 2/5:分类任务建议 5e-6~2e-5,DPO 任务需更小(5e-6)
  训练轮次(num_train_epochs) 10 摘要 2:需根据数据集大小调整,小数据集可适当增加轮次
  最大序列长度(max_seq_length) 2048 摘要 5:建议不超过模型最大上下文窗口(如 Llama 2 默认 4096)
  梯度累积步数(gradient_accumulation_steps) 2 摘要 5:显存不足时可增大(如 16),模拟大批次训练
  验证集比例 0.25(训练:验证 = 3:1) 摘要 2:建议用交叉验证(如 5 折)确保泛化性
优化器相关参数 学习率调度器(lr_scheduler_type) linear(线性衰减) 摘要 5:DPO 任务常用线性调度,普通 SFT 可尝试 cosine
  批次大小(未明确) - 摘要 5:单设备建议 1~4,多设备用 FSDP/Deepspeed 扩展

训练数据集的 Prompt 设计

  文档中 Llama 2 微调的训练数据集 Prompt 遵循指令监督微调(Instruct Tuning)范式,结合任务需求(虚假信息分析、实体提取等)和搜索资源中的模板规范,具体格式及示例如下:

1. Prompt 核心结构

  采用「系统指令(SYS)+ 任务指令(Instruction)+ 输入数据(Input)+ 输出指示」的四组件结构,与摘要 1 中 “数据集提示技术” 的核心要素一致,具体拆解:

  • 系统指令(SYS):定义模型角色,明确任务背景(如 “虚假信息分析专家”),确保模型定位一致;

  • 任务指令(Instruction):明确具体任务(如文本分析、实体提取、情感标注);

  • 输入数据(Input):待分析的原始文本(如虚假新闻、政治人物言论);

  • 输出指示:指定输出格式(如结构化文本、JSON),便于后续处理。

2. 训练数据集的 Prompt 示例

  以 “虚假信息叙事分析” 和 “命名实体提取” 两个核心任务为例,Prompt 格式如下:

示例 1:虚假信息叙事分析任务

<s>[INST] <<SYS>>
You are an expert in fake news and disinformation revealing and analytics.
<</SYS>>
Please analyse the following text from the perspective of revealing disinformation narratives.
Input text: {此处插入训练数据中的虚假新闻文本,如“Ukraine has no chance of winning the war against Russia. We missed the historic opportunity to admit Ukraine to NATO.”}
[/INST]
{此处为标注好的输出(模型期望生成的内容):
1. Narrative 1: "Ukraine cannot win the war against Russia" — manipulative, no factual basis, subjective claim.
2. Narrative 2: "Missed opportunity to admit Ukraine to NATO" — misleading, ignores NATO consensus requirements.
3. Sentiment of entities: Ukraine (negative), Russia (positive), NATO (negative).
}

示例 2:命名实体提取任务

<s>[INST] <<SYS>>
You are an expert in fake news and disinformation revealing and analytics.
<</SYS>>
Please extract named entities from the following text and label their sentiments (positive/negative/neutral), output in JSON format.
Input text: {此处插入训练数据中的文本,如“Hillary Clinton was reportedly drunk at a rally in New Jersey, according to several sources.”}
[/INST]
{此处为标注好的JSON格式输出:
[{"entity":"Hillary Clinton", "sentiment":"negative", "comment":"Portrayed negatively with alcohol abuse allegations"},
{"entity":"New Jersey", "sentiment":"neutral", "comment":"Geographical location, no emotional bias"}]
}

3. 训练数据集的来源与扩展

  • 基础数据集:Kaggle 假新闻数据集([17,18])+ Vox Ukraine 的俄罗斯宣传叙事数据([19]),覆盖虚假新闻、政治宣传两类核心场景;

  • Prompt 扩展方法:参考摘要 1 的 “数据增强提示技术”,可通过以下方式扩充 Prompt 数量:

    1. 用 ChatGPT/GPT-4 基于种子样本生成相似 Prompt(如 “基于‘乌克兰生物武器’主题,生成 5 条类似虚假叙事文本及分析标注”);

    2. 对原始文本进行句式转换(主动 / 被动句互换)、同义词替换,保持语义不变但丰富数据多样性;

    3. 采用 “对比提示”(摘要 1),将 “真实新闻 - 虚假新闻” 成对作为 Input,强化模型对差异的识别能力。

 

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询