【论文笔记】STORYWRITER: A Multi-Agent Framework for Long Story Generation

论文信息

论文标题:StoryWriter: A Multi-Agent Framework for Long Story Generation
论文作者:Haotian Xia, Hao Peng et al. (Tsinghua University)
论文链接:https://arxiv.org/abs/2506.16445
代码链接:https://github.com/THU-KEG/StoryWriter 未提供运行代码


研究背景与动机

核心挑战: 现有大语言模型(LLMs)生成长篇故事(>1000词)存在两大瓶颈:

  • 语篇连贯性(Discourse Coherence):长文本中难以维持情节一致性、逻辑连贯性与完整性(如角色/事件关系丢失)。
  • 叙事复杂性(Narrative Complexity):LLM生成故事同质化严重,缺乏人类叙事的交织结构与吸引力。

现有方法局限: 传统基于LLM的提纲生成方法缺乏细粒度事件控制,导致生成内容单一且逻辑松散。


核心贡献

  1. 提出了一种多智能体框架 STORYWRITER ,用于高质量长篇故事生成。
  2. 构建了一个高质量的长篇故事数据集 LONGSTORY ,包含约6000个平均长度为8000词的故事。
  3. 基于 LONGSTORY 对 Llama3.1-8B 和 GLM4-9B 进行监督微调,训练出性能优越的长篇故事生成模型 STORYWRITERLLAMA 和 STORYWRITERGLM 。
  4. 在多个评估指标上验证了 STORYWRITER 的有效性,并通过消融实验分析各模块的作用。

StoryWriter

在这里插入图片描述

StoryWriter 框架在 Auto-Gen 框架下实现 ,其 Agent 网络由以下三个主要模块组成:

Outline Agent

  • 该模块负责生成基于事件的大纲,其中包含丰富的事件情节、人物和事件-事件关系 。
  • 它由两个专门的Agent构成:EventSeedEventValidator
  • EventSeed 负责根据给定的前提(premise)顺序生成事件,为每个事件提供时间、地点和关系等基本信息 。
  • EventValidator 持续监控和评估生成的大纲,提供反馈以确保每个事件的合理性和叙事连贯性 。
  • 与传统的大纲生成方法不同,该方法将大纲构建为一系列事件元组,从而增强了可控性和逻辑一致性 。

Planning Agent

  • 该模块进一步细化事件,并全局规划每个章节应包含哪些事件,以保持故事的交织性和吸引力 。
  • 它引入了“非线性叙事”(Non-Linear Narration, NLN)策略,将事件分解为子事件,并有策略地将它们分布在不同的章节中 。
  • 该模块由 SubTaskerWeaver 组成 。
  • SubTasker 负责将高级别事件分解为更细粒度的叙事单元,即子事件 。
  • Weaver 则将这些子事件分配到不同的章节中,即使它们以非时间顺序呈现,也能保持整体叙事结构的连贯性 。
  • 这种方法克服了线性叙事的单调性,增强了叙事的多样性和读者的参与度 。

Writing Agent

  • 该模块根据历史上下文生成和完善具体的故事内容 。
  • 它采用了一个名为“重写输入和输出”(Re-write Input and Output, ReIO)的机制,由 CoordinatorFinalWriter 两个Agent协作完成 。
  • 在输入处理阶段,Coordinator 动态地压缩历史叙事上下文,只保留与当前子事件相关的信息,从而有效减少输入长度并保持关键上下文 。
  • 在输出处理阶段,Coordinator 会评估生成的文本,并在必要时对其进行重写,以确保其与预定叙事结构和风格要求的一致性 。
  • 这种分工确保了宏观结构连贯性和微观叙事流畅性 。

实验部分

实验设置

  • 数据集: 评估采用 MoPS 数据集 。
  • 评估方法: 采用人工评估和基于GPT-4o的自动评估,涵盖六个维度:相关性(Relevance)、连贯性(Coherence)、同理心(Empathy)、意外性(Surprise)、创造性(Creativity)和复杂性(Complexity)。
  • 基线模型: DOC、Agents’ Room 和 GPT-4o-mini 。

实验结果

主要实验

StoryWriter 在人工和自动评估中均显著优于所有基线模型 。它在保持高质量的同时,显著超越了以往基线模型的生成长度 。在内容多样性和创造性方面 StoryWriter 表现突出 。

在这里插入图片描述

消融实验

  • 移除大纲Agent: 故事大纲缺乏深度和结构,导致所有评估指标显著下降 。
  • 移除规划Agent: 子事件严格按时间顺序排列,导致复杂性得分显著降低 。
  • 移除ReIO-Input: 输入文本长度大幅增加,导致计算成本上升和整体性能下降 。
  • 移除ReIO-Output: 生成文本的相关性得分显著下降,因为该模块对于维持结构连贯性至关重要。

在这里插入图片描述


LONGSTORY 数据集与模型训练

  • 数据集构建: LONGSTORY 数据集是使用 StoryWriter 框架,从 MoPS 训练集中收集的6000个故事前提生成而成的 。经过数据清洗,最终包含5500个平均长度约8000字的高质量长篇故事 。
  • 模型微调: 使用 LONGSTORY 数据集,通过监督微调(SFT)训练了基于 Llama3.1-8B 和 GLM-4-9B 的模型 。
  • 评估指标: 采用 LongBench-Write 评估方法,包括内容质量分数 SqS_qSqSlS_lSl,和综合分数 Sˉ\bar{S}Sˉ
  • 结果:
    • StoryWriter-GLM 在故事质量 SqS_qSq 上显著优于其基础模型,尤其是在生成超过 4000 字的故事时。
    • StoryWriter-Llama 和 StoryWriter-GLM 在长度分数 SlS_lSl 也远优于 Llama3.1-8B-Instruct 和 GPT-4o,这表明即使训练中没有明确的长度约束增强,训练长文本也能提高模型遵循长度约束的能力 。

在这里插入图片描述


总结

  1. 研究只考虑了英文,并不支持多语言生成
  2. 只关注了小说故事生成,并未考虑其他艺术风格
  3. 该文章中的复杂叙事结构,其实就是把 生成的 Outline 在扩写后,交给 LLM 重构了 Outline 的顺序,这样不能解决实际问题,只是表面上的工作,该处可以参考 Multi-Agent Based Character Simulation for Story Writing 中对于复杂叙事结构的描述,或许有参考价值。
  4. 生成长度为 4000 字,并不能很好的解决小说的故事生成,还是个 toy。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/93318.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/93318.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Cohere 开发企业级大型语言模型(LLM)

Cohere 是一家专注于开发企业级大型语言模型(LLM)的公司。该公司推出了一系列名为 “Command” 的模型,其中最强大的 “Command A” 于今年三月首次亮相 Cohere 还提供嵌入模型,这是一种将文件转化为神经网络可以理解的紧凑数值形…

Rust Web框架Axum学习指南之入门初体验

一、准备阶段 确保已经安装 rust,开发环境使用 vscode 或者 rustrover 都可以。接着就可以创建项目,通过编辑器创建或者命令行创建都可以: cargo new axum-admin二、添加依赖 添加依赖如下: [package] name "axum-admin&quo…

autofit.js: 自动调整HTML元素大小的JavaScript库

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 🍚 蓝桥云课签约作者、…

RocketMQ 命名服务器(NameServer)详解

🚀 RocketMQ 命名服务器(NameServer)详解 NameServer 是 RocketMQ 架构中的轻量级路由发现服务,它不参与消息的收发,但承担着整个集群的“地址簿”和“导航系统”的关键角色。 理解 NameServer 的设计与工作原理&#…

代码随想录算法训练营四十三天|图论part01

深度优先搜索(dfs)理论基础 dfs就是可一个方向去搜直到尽头再换方向,换方向的过程就涉及到了回溯。 代码框架 因为dfs搜索可一个方向,并需要回溯,所以用递归的方式来实现是最方便的。 先来回顾一下回溯法的代码框架…

飞算JavaAI金融风控场景实践:从实时监测到智能决策的全链路安全防护

目录一、金融风控核心场景的技术突破1.1 实时交易风险监测系统1.1.1 高并发交易数据处理1.2 智能反欺诈系统架构1.2.1 多维度欺诈风险识别1.3 动态风控规则引擎1.3.1 风控规则动态管理二、金融风控系统效能升级实践2.1 风控模型迭代加速机制2.1.1 自动化特征工程结语&#xff1…

Vue 组件二次封装透传slots、refs、attrs、listeners

最近写了一个开源项目,有些地方需要二次封装,需要透传一些数据,需要注意的是ref,我这里使用俩种方式间接传递ref,具体如下: 使用: import VideoPlayer from ./index.jsVue.use(VideoPlayer)inde…

介绍大根堆小根堆

文章目录一、核心定义与结构特性示例(以“数组存储堆”为例)二、堆的两个核心操作1. 插入操作(以小根堆为例)2. 删除极值操作(以小根堆为例,删除根节点的最小值)三、小根堆 vs 大根堆&#xff1…

【Html网页模板】赛博朋克数据分析大屏网页

目录专栏导读✨ 项目概述🎨 设计理念🛠️ 技术架构核心技术栈设计模式🎯 核心功能1. 视觉效果系统🌈 色彩体系2. 数据可视化模块📊 主图表系统📈 性能监控面板3. 实时数据流系统⚡ 数据流动画📊…

【经典上穿突破】副图/选股指标,双均线交叉原理,对价格波动反应灵敏,适合捕捉短期启动点

【经典上穿突破】副图/选股指标,双均线交叉原理,对价格波动反应灵敏,适合捕捉短期启动点 这是一款结合短线与中线信号的趋势跟踪指标,通过双均线交叉原理捕捉股价突破时机,适用于个股分析和盘中选股。 核心功能模块&…

RK3568 NPU RKNN(四):RKNN-ToolKit2性能和内存评估

文章目录1、前言2、目标3、完整的测试程序4、运行测试程序5、程序拆解6、总结1、前言 本文仅记录本人学习过程,不具备教学指导意义。 2、目标 使用野火提供的示例程序,体验 RKNN-ToolKit2 在PC端使用连板推理,进行性能和内存评估。 3、完…

ASP.NET 上传文件安全检测方案

一、前端初步过滤&#xff08;防误操作&#xff09;<!-- HTML部分 --><input type"file" id"fileUpload" accept".jpg,.png,.pdf,.docx" /><button onclick"validateFile()">上传</button><script>func…

Nacos Server 3.0.x安装教程

前言 注&#xff1a; 1.Nacos Server 3.0.x 要求 JDK版本不低于17。 2.Nacos 2.2.0 及以上版本需要 Java 11 或更高版本。 3.Java 8&#xff0c;需要下载 Nacos 2.1.x 及以下版本 JDK17安装 JDK官方下载地址&#xff1a;Oracle官网JDK下载地址 JDK17&#xff1a;JDK17下载地…

【数据库干货】六大范式速记

1NF、2NF、3NF、BCNF、4NF、5NF都是数据库设计中的范式&#xff08;Normalization&#xff09;&#xff0c;用于确保数据库中的数据结构尽可能地减少冗余&#xff0c;避免更新异常、插入异常、删除异常等问题&#xff0c;从而提高数据的存储效率和一致性。 本篇文章简单讲解下各…

Java开发主流框架搭配详解及学习路线指南

文章目录一、前言&#x1f517;二、主流Java框架搭配2.1 Spring Boot MyBatis-Plus Spring Cloud2.2 Spring Boot Spring Data JPA Spring Cloud2.3 Quarkus/Vert.x (响应式编程栈)三、技术选型建议四、Java学习路线指南阶段1&#xff1a;Java基础 (4-6周)阶段2&#xff1a…

flutter-使用device_info_plus获取手机设备信息完整指南

文章目录1. 概述2. 安装与配置3. 基本使用方法3.1. 创建实例3.2. 区分平台获取信息4. 详细信息获取4.1. Android 设备信息4.2. iOS 设备信息4.3. Web 浏览器信息4.4. Windows 设备信息5. 实战示例6. 注意事项6.1. 权限问题6.2. 隐私保护6.3. 平台差异处理6.4. 性能考虑7. 常见问…

Java 时间处理 API 全解析:从 JDK7 到 JDK8 的演进

个人主页-爱因斯晨 友友们&#xff0c;互三咯~ 目录 个人主页-爱因斯晨 ​编辑 前言 一、JDK7 时间处理基石 ——Date 类 &#xff08;一&#xff09;Date 类基本功能 &#xff08;二&#xff09;Date 类的局限性 二、格式化时间好帮手 ——SimpleDateFormat 类 &#…

duiLib 实现鼠标拖动标题栏时,窗口跟着拖动

1、布局文件&#xff0c;窗口需设置可拖动的标题栏区域&#xff1a;2、HandleMessage函数中&#xff0c;处理WM_LBUTTONDOWN消息&#xff0c;判断鼠标在标题栏&#xff0c;让系统处理窗口移动。代码片段如下&#xff1a;else if (uMsg WM_LBUTTONDOWN) {// 获取鼠标点击坐标PO…

图解嵌入式硬件知识库体系

构建一个嵌入式硬件知识库体系需要涵盖嵌入式系统设计、开发和应用的各个方面,内容全面且系统化,适合不同层次的用户。本文是一个结构化的嵌入式硬件知识库体系,包含主要内容模块及其详细说明。 @startmindmap * 嵌入式硬件知识库体系 ** 1. 嵌入式系统基础 *** 概述与定义 …

机器学习的特征工程(特征构造、特征选择、特征转换和特征提取)详解

特征工程是机器学习中至关重要的一步&#xff0c;它直接影响模型的性能和泛化能力。特征构造、特征选择、特征转换和特征提取——构成了特征工程的核心流程。下面我来系统地梳理一下它们的定义、方法和应用场景&#xff1a; 整理 by Moshow郑锴https://zhengkai.blog.csdn.net/…