当前位置：首页>学习笔记>文献学习笔记《整合城市污水监测与互联网搜索行为以强化传染病早期预警》

文献学习笔记《整合城市污水监测与互联网搜索行为以强化传染病早期预警》

2026-05-17 15:07:39

红色字体和补充说明部分为本文作者自身观点，仅供参考。

本篇内容均为作者个人学习笔记，不代表原文观点，仅供参考。

题目与作者:

期刊来源与发表时间:

Engineering，Accepted 28 February 2026

DOI/链接：

https://doi.org/10.1016/j.eng.2026.02.022

摘要:污水监测（Wastewater-based surveillance, WBS）已成为监测传染病的有效工具。然而，其更广泛的应用往往受到操作资源和数据复杂性的制约。在此，我们以新型冠状病毒肺炎（COVID-19）为案例，开发了一个将污水监测与中国领先的在线搜索查询平台——百度搜索指数（Research Index）协同整合的集成框架，以增强传染病的早期预警能力。在为期一年（2023年2月至2024年1月）的时间里，我们从中国南宁市的12座污水处理厂采集了1164份进水污水样本，并使用逆转录定量聚合酶链反应（RT-qPCR）对RNA进行了定量分析。我们计算了7天流量加权移动平均浓度（7-day flow-weighted moving average concentration, FWMAC），并将其与16项人群监测指标和126个百度搜索词进行了关联分析。值得注意的是，7天FWMAC比临床指标提前1–7天，并与多项流行病学指标呈现强相关性，包括报告病例数（决定系数R²=0.92）、发热门诊确诊数（R²=0.72）、发热门诊阳性数（R²=0.86）以及住院人数（R²=0.78）。我们采用分布滞后非线性模型（distributed lag nonlinear models, DLNM）来定义可操作的、具有临床意义的风险阈值。随后，我们识别出三个关键的百度搜索词（“二次阳性”、“新冠肺炎临床进展四阶段”和“布洛芬”）。其整合后的搜索指数提升了模型性能（发热门诊确诊数的 R2R2 从0.72提升至0.78，住院人数的 R2R2 从0.78提升至0.82）。在另外三个中国主要城市（长沙、厦门和南京）进行的外部验证进一步证实了该模型的稳健性和泛化能力，在随机森林模型中，R²分别提升了36.4%、30.0%和4.9%。这一集成的“污水-数字”框架代表了一种变革性的、成本效益高的早期预警策略，可实现主动式的公共卫生响应。

一、研究背景与问题提出

污水监测（WBS）的局限

1. 水质参数波动影响检测准确性

污水在管网中传输时，会受到稀释、pH值变化、温度等因素影响
这些因素会破坏病毒生物标志物（如新冠病毒RNA）的稳定性，导致检测到的病毒浓度无法准确反映实际排毒量
例如：同样的病毒载量，在稀释度高的情况下检测值会偏低，可能误判为疫情缓解

2. 服务区域的人口动态使数据解读复杂化

每个污水监测点覆盖的是一个汇水区（catchment area），其中的人口不是固定的人口会因通勤、周末流动、旅游、封控措施等发生动态变化
即使病毒浓度不变，人口流入或流出也会改变人均病毒负荷，干扰对真实感染水平的判断
通俗理解：污水监测就像用一条河流的水位来判断上游降雨量——但这条河可能有人开闸放水、有人引水灌溉、中间还有支流汇入，所以你测到的水位变化不一定都是降雨造成的。

3. 污水模型的局限：单一指标

目前大多数基于污水的模型只使用病毒载量这一个单一指标，这会导致预测区间宽（即预测结果的不确定性很大），进而削弱了流行病学推断的稳健性——难以准确反推实际感染人数
通俗理解：只用病毒浓度一个数据来预测疫情，就像只用体温来判断一个人得了什么病——虽然有关联，但不够精确，误差范围很大。

4. 缺乏明确的公共卫生行动阈值

即使污水监测发现了病毒载量上升，公共卫生部门也不知道“升到多少才算需要采取行动”。没有明确的、可操作的风险阈值，WBS就难以独立发挥早期预警功能，只能作为参考信息。

互联网搜索数据的局限

易受媒体报道、政策变化等外部噪声干扰
不能直接代表真实感染水平

研究切入点

两类数据各有优劣，但既往缺乏有效的整合框架。本研究旨在将污水监测与百度搜索指数融合，构建一个更精准、可操作、可推广的早期预警系统。

二、研究方法

1. 研究设计与数据来源

数据类别	具体内容	来源
污水监测	2023年2月—2024年1月，南宁市12座污水处理厂，1164份进水样本，RT-qPCR定量SARS-CoV-2 RNA	南宁市CDC
人口监测	16项流行病学指标（发热门诊确诊、住院、报告病例等）	医疗机构
互联网搜索	126个新冠相关百度搜索词，分13类	百度搜索指数
气象数据	降水、温度等	Climate Data Online

2. 核心变量构建

污水指标：7天流量加权移动平均浓度（7-day FWMAC），与报告病例相关性最高（r = 0.95）
搜索指标：通过MLR、随机森林、XGBoost三种模型筛选出三个关键搜索词：

“second positive”（二次阳性）
“four stages of COVID-19 clinical progression”（新冠临床进展四阶段）
“ibuprofen”（布洛芬）
三者构建综合搜索指数，与7-day FWMAC相关性达R² = 0.78

3. 模型构建与验证

单指标模型：仅用7-day FWMAC预测人口指标
双指标模型：7-day FWMAC + 综合搜索指数
验证城市：长沙、厦门、南京（外部验证）

三、主要发现

1. 污水数据与人口指标的强关联

时间提前量：污水信号比临床指标提前1–7天（DLNM分析）
风险阈值：

134 copies/mL → 报告病例相对风险达5倍
539 copies/mL → 住院相对风险达10倍

2. 搜索指数对模型的提升效果

长沙提升最显著：可能与其年轻、数字化程度高的人口结构有关
南京提升较小：可能因为原有监测系统完善、公众依赖官方信息渠道

学习笔记：

在建模之前，数据准备的共同的前置步骤


步骤	做什么	在本研究中的具体体现
定义Y（预测目标）	确定要预测什么	住院人数、发热门诊确诊人数、报告病例数
定义X（预测因子）	确定用哪些数据来预测	7-day FWMAC（污水浓度）、126个百度搜索词
数据清洗	处理缺失值、异常值	污水样本全部阳性，质量合格
数据划分	分出训练集和测试集	南宁数据做训练，长沙/厦门/南京做外部验证
特征工程	将原始数据转换成模型可用的形式	污水浓度做log转换、流量加权、7天移动平均

1. MLR（多元线性回归，Multiple Linear Regression）：

本质:线性模型。假设因变量（预测目标）与自变量（预测因子）之间存在直线关系。

数学形式:Y=β0+β1X1+β2X2+...+βnXn+εY=β0+β1X1+β2X2+...+βnXn+ε

Y：预测目标（如住院人数）
X：预测因子（如污水病毒浓度、搜索指数）
β：系数，表示每个因子对结果的影响方向和大小

特点

优点	缺点
高度可解释：每个系数直接告诉你“搜索指数每增加1单位，住院人数预计增加多少”	只能捕捉线性关系：如果真实关系是U形或更复杂，模型会漏掉
计算快、稳定	对异常值敏感
结果容易呈现给非技术决策者	难以处理变量间的复杂交互作用

2. RF（随机森林，Random Forest）

本质:集成学习模型。通过构建多棵决策树并综合它们的预测结果来提高准确性。

工作原理

从原始数据中随机抽取多个样本子集（有放回抽样）
对每个子集随机选择部分特征，构建一棵决策树（每棵树像一个“专家”）
最终预测结果由所有树的“投票”或平均决定

优点	缺点
能捕捉非线性关系和复杂交互	可解释性差（“黑箱”）
对异常值不敏感	计算量较大
自动评估特征重要性（告诉研究者哪个搜索词最重要）	在数据量小或线性关系占主导时，优势不明显
不容易过拟合

3. XGBoost（极端梯度提升，Extreme Gradient Boosting）

本质：梯度提升树模型。与RF“并行”构建多棵树不同，XGBoost是串行的——

每棵新树都专门纠正前一棵树的错误。

工作原理

先建一棵初始树，做出预测
计算预测值与真实值的残差（误差）
下一棵树专门学习这些残差，试图弥补上一棵的不足
重复这个过程，多棵树“接力”优化

优点	缺点
预测精度通常很高，在结构化数据竞赛中常胜出	计算成本高
能处理缺失值、非线性、交互作用	可解释性差
自带正则化，控制过拟合	参数调优复杂
能输出特征重要性

其他思考：1.是否可以利用上时间信息，比如加入的时间序列专用模型。2.搜索词可能随时间失效，如何面对这种情况。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

文献学习笔记《整合城市污水监测与互联网搜索行为以强化传染病早期预警》

最新文章

热门文章

随机文章

文献学习笔记《整合城市污水监测与互联网搜索行为以强化传染病早期预警》

学习笔记002——2026年第一季度设计及项目管理复盘

心理咨询师学习笔记58:带练—四领域的跨文化问卷

最新文章

热门文章

随机文章