晋江文学城
下一章 上一章  目录  设置

11、第 11 章 ...

  •   私密马赛还差几千字没写完……勿看🥲如果有看到这里的uu很抱歉把你们骗进来
      这章是拿来凑字数的呃啊啊啊……凑下字数啊啊啊啊啊啊

      从图中可以看到,大部分特征对应的相关系数多集中在 - 0.1~0.1 之间,说明绝大多数变量之间的线性相关度很低,属于弱相关或无明显关联。图中 “tag_journey_” 系列变量之间出现深红色单元格,对应的相关系数较高,说明这些变量间存在较强的正相关。但相关性高仅代表变量间线性关联强,变量的分布特征有差异且在实际业务场景中的含义属于独立维度,因此即使相关度高,保留这些变量也是合理的,无需降维强行合并。
      (二)划分训练集和测试集
      为确保模型评估的可靠性与泛化能力,本研究采用严格的时间序列原则与分层抽样策略进行数据划分,具体步骤如下:
      1.总体划分策略
      将预处理后的完整数据集(9515条记录)按80%:20%的比例划分为训练验证集和独立测试集。采用分层抽样(stratify=y)以确保训练集与测试集中爆款作品(is_hit=1)的比例与原始数据集保持一致,避免因类别分布差异导致的评估偏差。
      2.时间序列原则
      考虑到网络文学作品的热度随时间演变,数据划分严格遵循"用过去预测未来"的原则。训练集仅包含历史数据信息,测试集应用训练集已学习的特征映射,符合实际业务场景中基于历史数据预测未来爆款的逻辑。
      3.训练集与验证集划分
      为进一步优化模型参数和避免过拟合,将训练验证集再次划分为训练子集(75%)和验证子集(25%),同样采用分层抽样策略。验证集用于模型调参与阈值优化,不参与模型训练过程。
      4.分层交叉验证
      在模型训练阶段,采用5折分层交叉验证(StratifiedKFold)对训练集进行评估。每一折内部,仅用训练部分计算统计特征(work_type历史爆款率),再用训练部分概率对验证部分编码,确保验证集编码不利用自身标签信息,有效防止数据泄漏。
      五、模型构建
      (一)模型选择与评估
      基于"尽量不错过爆款"的核心业务目标,本研究构建了以高召回率为核心的模型评估框架。考虑到网络文学作品数据的特点(特征维度有限、存在类别不平衡),采用多层次、渐进式的模型构建策略:
      1.基线模型与多样化模型验证
      表 8 基线模型
      模型
      Fold1
      Fold2
      Fold3
      Fold4
      Fold5
      平均AUC
      标准差
      逻辑回归
      0.672
      0.646
      0.626
      0.664
      0.669
      0.655
      0.017
      随机森林
      0.781
      0.742
      0.753
      0.730
      0.785
      0.758
      0.022
      梯度提升
      0.776
      0.745
      0.741
      0.717
      0.779
      0.751
      0.023
      首先构建强正则化的逻辑回归模型作为性能基准,随后,引入了梯度和随机森林,结果发现随机森林与梯度提升模型的平均AUC值均高于逻辑回归模型,即非线性模型比线性模型性能更好,因此可进一步引入不同学习范式的模型以全面探索数据模式:
      表 9 多样化模型
      模型类别
      具体模型
      算法特点
      测试集AUC
      适用场景
      线性模型
      逻辑回归
      强正则化C=0.01
      0.6698
      基准对比
      树集成
      随机森林
      100棵树,深度5
      0.7758
      非线性关系
      提升方法
      梯度提升
      100棵树,学习率0.1
      0.8173
      序贯优化
      决策树
      决策树
      最大深度5
      0.7523
      规则提取
      实例学习
      KNN
      k=10,距离加权
      0.7107
      局部模式
      概率模型
      朴素贝叶斯
      高斯假设
      0.6514
      概率预测
      核方法
      SVM
      RBF核,概率输出
      0.7378
      高维分类
      深度集成
      XGBoost
      优化参数,权重9
      0.8163
      不平衡处理
      2.集成学习策略
      为克服单一模型的局限性,综合各模型优势,提升预测稳定性,采用两种集成方法:
      2.1软投票集成:
      基于交叉验证AUC对表现最优的3个模型(梯度提升、随机森林、决策树)进行加权概率(0.8173, 0.7758, 0.7523)融合。
      测试集AUC:0.7831
      优势:通过概率平均减少个别模型的预测偏差
      2.2堆叠集成:
      采用元学习器学习基模型预测结果的最优组合方式:以梯度提升、随机森林、决策树为基学习器,以强正则化的逻辑回归作为元学习器,通过3折交叉验证训练以学习最优组合方式。
      测试集AUC:0.7858
      优势:元学习器能够学习不同模型的互补性
      2.3集成效果对比

      图 36 集成效果对比
      堆叠集成(AUC=0.7858)略优于软投票(AUC=0.7831),两种集成方法均未超过最佳单一模型(梯度提升AUC=0.8173),但集成模型在召回率优化场景下表现更稳定。
      3. 初步性能对比
      在五折交叉验证中,梯度提升与随机森林表现最佳(平均AUC分别达0.751与0.758),显著优于线性模型,证实了数据中非线性关系的重要性。集成模型虽未超越最佳单一模型,但表现出更稳定的性能。
      (二)模型优化
      1.应对类别不平衡
      在所有支持该功能的模型中设置 class_weight='balanced',提高模型对少数类(爆款)的关注度。
      对XGBoost特殊处理,设置 scale_pos_weight=9.0,使损失函数向召回率优化倾斜。
      2.控制模型复杂度与过拟合
      对逻辑回归及堆叠集成的元学习器应用强L2正则化(C=0.01),严格控制随机森林、梯度提升等模型的树深度、最小分裂样本数等。在XGBoost中启用早停,防止过拟合。
      (三)模型性能评估
      1. 综合性能对比分析

      图 37 所有模型ROC曲线综合对比图
      完整展示10个模型的ROC曲线,实线表示集成模型,虚线表示单一基础模型,红色粗线标注最佳模型(召回率优先)。
      2. 阈值优化详细分析
      阈值敏感性分析结果:针对业务目标“尽量不错过爆款”,对每个模型进行阈值寻优,目标是实现100%或接近100%的召回率。
      表 10:模型阈值分析
      模型
      最优阈值
      召回率
      精确率
      F1分数
      真阳性
      假阳性
      随机森林
      0.080
      100%
      10.43%
      0.1890
      190
      1,631
      朴素贝叶斯
      0.010
      99.47%
      10.12%
      0.1837
      189
      1,679
      决策树
      0.010
      98.42%
      10.31%
      0.1866
      187
      1,627
      梯度提升
      0.010
      100%
      10.12%
      0.1838
      190
      1,688
      逻辑回归
      0.130
      100%
      10.02%
      0.1821
      190
      1,707
      发现多个模型均可实现100%召回率,但需将阈值降至0.01-0.13区间,随机森林在实现100%召回率时精确率最高(10.43%)极低阈值会导致大量假阳性,但符合业务优先级
      3. 业务影响分析
      收益:彻底避免了因漏检导致的潜在爆款损失,完全满足核心业务目标。
      成本:编辑团队需要复核大量预警,其中大部分为误报。但考虑到一个爆款作品的潜在商业价值远超复核成本,该策略在业务上具备可行性。

      图 38:业务影响分析
      (四)最优模型选择
      1.决策依据
      在满足召回率≥90%(理想100%)的前提下,选择精确率最高、AUC表现优异且稳定性强的模型。
      2.最优选择
      随机森林模型(阈值=0.08)
      3.选择理由
      随机森林模型成功实现100%召回率,确保“不错过爆款”。在同等召回率水平的模型中,随机森林模型10.43%的精确率最高,有助于提升编辑复核效率。对噪声和异常值不敏感,泛化能力强于复杂的深度集成模型,并且可以提供特征重要性排序,为编辑和作者提供有价值的业务洞察。
      六、结论
      (一)研究成果总结
      本研究基于晋江文学城10,000部作品数据,构建了一套以“尽量不错过爆款”为核心目标的小说爆款预测系统。通过系统性的数据预处理、特征工程和模型优化,主要取得以下成果:
      1.特征体系构建
      成功识别并构建了四大维度的特征体系,涵盖作者历史表现、时间特征、作品特征和竞争环境特征,其中作者历史爆款率、作品类型-标签交互热度等特征被证明对爆款预测具有显著价值。
      2.数据泄漏识别与处理
      通过深入分析发现并处理了competition_percentile特征的数据泄漏问题,确保了模型的真实泛化能力,为后续模型评估的可靠性奠定了基础。
      3.以召回率为核心的模型优化策略
      针对业务目标,通过类别不平衡处理、阈值优化(寻优至0.01-0.13区间)等方法,使多个模型(如随机森林、梯度提升)在独立测试集上实现了100%的召回率,完全满足了“不错过爆款”的首要需求。
      4.模型对比与最优方案选定
      对比了逻辑回归、随机森林、梯度提升、XGBoost等8种单一模型及软投票、堆叠两种集成方法。结果表明,随机森林在实现100%召回率的同时,取得了相对最高的精确率(10.43%),且具有良好的稳定性和可解释性,因此被选为最终业务模型。
      (二)实践意义与业务应用价值
      本研究不仅验证了数据驱动方法在爆款预测中的可行性,更在实践中展现出多方面的应用价值:
      对平台而言,平台能够更早识别潜力作品,并围绕其量身定制运营策略,包括协调平台推荐策略、社交媒体预热、联动衍生开发(如影视、动漫改编)等资源,最大化作品的商业价值。
      对作者而言,能够帮助中尾部作者清晰了解自身作品的市场定位、优势与短板,优化呈现策略(标签、简介等的设置)。这不仅能提升单个作者的成长效率,更能为市场持续注入优质新生力量,激发市场活力。
      对读者而言,模型选用不同“类型”与“标签”交互作用来预判潜力,不再只是推荐总榜上的热门文章,而能像一个兴趣预测雷达,发现那些尚未大火但大概率合读者胃口的作品。或许可以在此基础上,进一步构建个性化推荐机制。
      (三)局限性与挑战
      1.数据广度与深度的限制
      本研究的数据集基于有限的爬虫技术获取,数据量较少(仅10000条),在时间跨度、作品覆盖范围与字段完整性上存在局限。例如,数据可能未能完全覆盖所有潜在爆款样本或关键的用户实时交互行为(如段评、章说)。这可能影响模型的泛化能力,使其对特定时期或特定类型外的作品预测稳定性下降。未来希望拓展学习相关知识,持续更新模型。
      2.平台风格迁移的普适性挑战
      模型完全基于晋江文学城的数据进行训练与验证。晋江以女性向、言情等题材为显著特色,其读者偏好、标签体系与“爆款”定义与起点中文网(男频、玄幻)、番茄小说(免费、快节奏)等平台存在系统性差异。直接将本模型应用于其他平台,预测效果很可能因“数据分布不同”而显著衰减。未来的研究可探索领域自适应或迁移学习方法,利用晋江数据学到的底层规律,结合少量目标平台数据进行微调,以增强模型的跨平台适用性。
      3.特征工程对内容深层次语义捕捉不足
      当前模型主要依赖表层

  • 本文当前霸王票全站排行,还差 颗地雷就可以前进一名。[我要投霸王票]
  • [灌溉营养液]
    • 昵称:
    • 评分: 2分|鲜花一捧 1分|一朵小花 0分|交流灌水 0分|别字捉虫 -1分|一块小砖 -2分|砖头一堆
    • 内容:
    •             注:1.评论时输入br/即可换行分段。
    •                 2.发布负分评论消耗的月石并不会给作者。
    •             查看评论规则>>