红色字体和补充说明部分为本文作者自身观点,仅供参考。本篇内容均为作者个人学习笔记,不代表原文观点,仅供参考。题目与作者:
期刊来源与发表时间:
Engineering,Accepted 28 February 2026
DOI/链接:
https://doi.org/10.1016/j.eng.2026.02.022
摘要:污水监测(Wastewater-based surveillance, WBS)已成为监测传染病的有效工具。然而,其更广泛的应用往往受到操作资源和数据复杂性的制约。在此,我们以新型冠状病毒肺炎(COVID-19)为案例,开发了一个将污水监测与中国领先的在线搜索查询平台——百度搜索指数(Research Index)协同整合的集成框架,以增强传染病的早期预警能力。在为期一年(2023年2月至2024年1月)的时间里,我们从中国南宁市的12座污水处理厂采集了1164份进水污水样本,并使用逆转录定量聚合酶链反应(RT-qPCR)对RNA进行了定量分析。我们计算了7天流量加权移动平均浓度(7-day flow-weighted moving average concentration, FWMAC),并将其与16项人群监测指标和126个百度搜索词进行了关联分析。值得注意的是,7天FWMAC比临床指标提前1–7天,并与多项流行病学指标呈现强相关性,包括报告病例数(决定系数R2=0.92)、发热门诊确诊数(R2=0.72)、发热门诊阳性数(R2=0.86)以及住院人数(R2=0.78)。我们采用分布滞后非线性模型(distributed lag nonlinear models, DLNM)来定义可操作的、具有临床意义的风险阈值。随后,我们识别出三个关键的百度搜索词(“二次阳性”、“新冠肺炎临床进展四阶段”和“布洛芬”)。其整合后的搜索指数提升了模型性能(发热门诊确诊数的 R2R2 从0.72提升至0.78,住院人数的 R2R2 从0.78提升至0.82)。在另外三个中国主要城市(长沙、厦门和南京)进行的外部验证进一步证实了该模型的稳健性和泛化能力,在随机森林模型中,R2 分别提升了36.4%、30.0%和4.9%。这一集成的“污水-数字”框架代表了一种变革性的、成本效益高的早期预警策略,可实现主动式的公共卫生响应。
一、研究背景与问题提出
污水监测(WBS)的局限
1. 水质参数波动影响检测准确性
污水在管网中传输时,会受到稀释、pH值变化、温度等因素影响
这些因素会破坏病毒生物标志物(如新冠病毒RNA)的稳定性,导致检测到的病毒浓度无法准确反映实际排毒量
例如:同样的病毒载量,在稀释度高的情况下检测值会偏低,可能误判为疫情缓解
2. 服务区域的人口动态使数据解读复杂化
每个污水监测点覆盖的是一个汇水区(catchment area),其中的人口不是固定的人口会因通勤、周末流动、旅游、封控措施等发生动态变化
即使病毒浓度不变,人口流入或流出也会改变人均病毒负荷,干扰对真实感染水平的判断
通俗理解:污水监测就像用一条河流的水位来判断上游降雨量——但这条河可能有人开闸放水、有人引水灌溉、中间还有支流汇入,所以你测到的水位变化不一定都是降雨造成的。
3. 污水模型的局限:单一指标
4. 缺乏明确的公共卫生行动阈值
互联网搜索数据的局限
易受媒体报道、政策变化等外部噪声干扰
不能直接代表真实感染水平
研究切入点
二、研究方法
1. 研究设计与数据来源
数据类别 | 具体内容 | 来源 |
污水监测 | 2023年2月—2024年1月,南宁市12座污水处理厂,1164份进水样本,RT-qPCR定量SARS-CoV-2 RNA | 南宁市CDC |
人口监测 | 16项流行病学指标(发热门诊确诊、住院、报告病例等) | 医疗机构 |
互联网搜索 | 126个新冠相关百度搜索词,分13类 | 百度搜索指数 |
气象数据 | 降水、温度等 | Climate Data Online |
2. 核心变量构建
- 污水指标:7天流量加权移动平均浓度(7-day FWMAC),与报告病例相关性最高(r = 0.95)
- 搜索指标:通过MLR、随机森林、XGBoost三种模型筛选出三个关键搜索词:
- “second positive”(二次阳性)
- “four stages of COVID-19 clinical progression”(新冠临床进展四阶段)
- “ibuprofen”(布洛芬)
- 三者构建综合搜索指数,与7-day FWMAC相关性达R² = 0.78
3. 模型构建与验证
- 单指标模型:仅用7-day FWMAC预测人口指标
- 双指标模型:7-day FWMAC + 综合搜索指数
- 验证城市:长沙、厦门、南京(外部验证)
三、主要发现
1. 污水数据与人口指标的强关联
- 时间提前量:污水信号比临床指标提前1–7天(DLNM分析)
- 风险阈值:
- 134 copies/mL → 报告病例相对风险达5倍
- 539 copies/mL → 住院相对风险达10倍
2. 搜索指数对模型的提升效果
- 长沙提升最显著:可能与其年轻、数字化程度高的人口结构有关
- 南京提升较小:可能因为原有监测系统完善、公众依赖官方信息渠道
学习笔记:
步骤 | 做什么 | 在本研究中的具体体现 |
定义Y(预测目标) | 确定要预测什么 | 住院人数、发热门诊确诊人数、报告病例数 |
定义X(预测因子) | 确定用哪些数据来预测 | 7-day FWMAC(污水浓度)、126个百度搜索词 |
数据清洗 | 处理缺失值、异常值 | 污水样本全部阳性,质量合格 |
数据划分 | 分出训练集和测试集 | 南宁数据做训练,长沙/厦门/南京做外部验证 |
特征工程 | 将原始数据转换成模型可用的形式 | 污水浓度做log转换、流量加权、7天移动平均 |
1. MLR(多元线性回归,Multiple Linear Regression):
本质:线性模型。假设因变量(预测目标)与自变量(预测因子)之间存在直线关系。
数学形式:Y=β0+β1X1+β2X2+...+βnXn+εY=β0+β1X1+β2X2+...+βnXn+ε
- Y:预测目标(如住院人数)
- X:预测因子(如污水病毒浓度、搜索指数)
- β:系数,表示每个因子对结果的影响方向和大小
特点
优点 | 缺点 |
高度可解释:每个系数直接告诉你“搜索指数每增加1单位,住院人数预计增加多少” | 只能捕捉线性关系:如果真实关系是U形或更复杂,模型会漏掉 |
计算快、稳定 | 对异常值敏感 |
结果容易呈现给非技术决策者 | 难以处理变量间的复杂交互作用 |
2. RF(随机森林,Random Forest)
本质:集成学习模型。通过构建多棵决策树并综合它们的预测结果来提高准确性。
工作原理
- 从原始数据中随机抽取多个样本子集(有放回抽样)
- 对每个子集随机选择部分特征,构建一棵决策树(每棵树像一个“专家”)
- 最终预测结果由所有树的“投票”或平均决定
优点 | 缺点 |
能捕捉非线性关系和复杂交互 | 可解释性差(“黑箱”) |
对异常值不敏感 | 计算量较大 |
自动评估特征重要性(告诉研究者哪个搜索词最重要) | 在数据量小或线性关系占主导时,优势不明显 |
不容易过拟合 | |
3. XGBoost(极端梯度提升,Extreme Gradient Boosting)
本质:梯度提升树模型。与RF“并行”构建多棵树不同,XGBoost是串行的——
每棵新树都专门纠正前一棵树的错误。
工作原理
- 先建一棵初始树,做出预测
- 计算预测值与真实值的残差(误差)
- 下一棵树专门学习这些残差,试图弥补上一棵的不足
- 重复这个过程,多棵树“接力”优化
优点 | 缺点 |
预测精度通常很高,在结构化数据竞赛中常胜出 | 计算成本高 |
能处理缺失值、非线性、交互作用 | 可解释性差 |
自带正则化,控制过拟合 | 参数调优复杂 |
能输出特征重要性 | |
其他思考:1.是否可以利用上时间信息,比如加入的时间序列专用模型。2.搜索词可能随时间失效,如何面对这种情况。