英语轻松读发新版了,欢迎下载、更新

地球化学集成的机器学习方法预测欧洲和中国表土中镉形成的分布

2025-07-11 22:05:37 英文原文

作者:Wang, Yujun

介绍

在联合国设定的2030年的17年可持续发展目标(SDG)中,有8个依赖于维持健康的土壤环境。但是,重金属(HMS)的土壤污染构成了对全球可耕地资源的巨大威胁1。由于有毒HMS的持续性,不足和生物蓄积性质,因此受HM污染的土壤对全球食品安全和人类健康具有长期的有害影响。根据估计,超过900万的过早死亡可归因于HM污染2,强调准确评估土壤HMS环境风险并制定适当的土壤修复策略的重要重要性3

直到最近,农业土壤中HM分布的区域或大陆图一直缺乏。在1990年代后期,只进行了足够大的采样覆盖范围的大陆尺度土壤地球化学调查,以评估HMS的表层土壤分布。值得注意的是,中国于1959年,1979年和2022年进行了三项主要的国家土壤调查4。此外,2012年,中国进行了首次针对农业土壤污染的国家调查,尤其是HM内容5。在欧盟(EU)中,每隔几年进行一次重复采样:欧洲地质调查论坛(Foregs)进行三项主要土壤地球化学调查。61997年,农业和放牧土壤的地球化学图(Gemas)72008年,土地使用/土地覆盖区框架调查(LUCAS)8,,,,92009年。卢卡斯表土调查与其他两项调查相比,采样了更多的土地使用类别和土壤类型,具有更多的土壤特性和更高的采样密度(平均为1个地点/5000 km2在锻造中,1个地点/2500公里2在Gemas和1个网站/200公里2在卢卡斯)。这些数据和派生的地图已被证明是在区域或大陆尺度上的环境和资源管理的有用工具。例如,总HG的空间评估10,Cu11,Zn12和CD13在欧洲土壤中,利用其在卢卡斯中的总内容进行了,这促进了确定确定土壤中HMS空间变异性的关键特性。虽然总HM内容通常用于评估土壤污染风险,但不足以评估HM活动能力,生物利用度和土壤中的毒性14。

HMS对土壤成分的相互作用和吸附会引起不同土壤基质的生物利用度的显着差异15因此,已经提出,HMS的生物利用部分代表植物和土壤生物可以占用的部分16。已经开发了各种方法,包括化学提取和建模方法,以确定土壤中HMS的生物利用度17,,,,18其中,多表面模型(MSMS)在预测不同土壤类型的CD,Ni和Zn等HMS的生物利用度方面显示出令人鼓舞的结果19。MSM认为土壤溶液中的HMS处于具有不同固体相的热力学平衡中,包括有机物(OM),氧化铁和粘土矿物质19因此,使用地球化学表面络合模型来捕获HMS和土壤基质之间具有更大概括性的复杂相互作用和吸附机制。但是,MSM需要大量的模型参数20,,,,21,,,,22,并且由于不同的简化和假设而与各种地球化学表面络合模型的不同反应参数产生了困难23因此,迫切需要一种可靠且方便的建模方法,以准确预测较大尺度的土壤中HMS的机械吸附分布和生物利用度。机器学习(ML)由于其稳健性和高预测准确性,已成为环境科学和地球科学的必不可少的工具,这为直接利用文献中不断扩大的科学数据提供了新的途径

24该技术在高分辨率土壤特性映射中表现出了成功。一种应用涉及估算土壤有机碳(SOC)分解速率的全球模式,通过融合多源数据以发现地球化学因素之间隐藏的非线性关系25。此外,通过嵌入基本的物理或化学法律知识,ML技术已成为处理多物理或化学过程的有希望的替代方法25。最近,已经提出了混合ML地球化学模型来确定地下环境中铀阴离子的命运和运输,这有可能解决限制自洽地球化学表面络合模型的发展的问题,以及用于大规模应用的MSMS26

在这项研究中,我们开发了一个地球化学集成的ML框架,以评估土壤中HMS的CD形成分布。我们的方法迅速预测了土壤CD的生物利用部分,它在大陆规模上提供了机械的地球化学解释。它有助于促进风险评估,指导政策制定以及实施针对土壤HM污染的有针对性的补救措施,这反过来促进了可持续的农业实践,并在各种规模上为长期的环境健康做出了重大贡献,涵盖了从区域到大陆至全球水平。

结果与讨论

基于ML的框架

我们的地球化学综合ML框架利用了区域土壤调查,作物吸收和MSM建模来预测与土壤界面相关的CD以及在大陆尺度上的非工业土壤CD的溶解分数(图图。 1)。The overall structure of the work can be broadly divided into five sections (details on the ML framework and validation procedures are described in “Methods”): (1) To predict the amorphous ferrihydrite content (represented by hydrous ferric oxides and abbreviated as HFO) and Cd speciation distribution (abbreviated as dist) in the EU and China, four datasets (EUHFO,欧盟,CNHFO和CN被编译;(2)在欧盟开发了ML算法HFO和CNHFO预测欧盟每个站点的HFO内容和CN(方法和文本 S1S2);(3)CD数据集由拉丁超立方体采样技术形成,并与MSM输出变量结合使用以训练ML模型(方法和文本 S3)。最佳表现的ML算法用于预测欧盟每个地点的固体/液体分布区和CN区,对CD的总和溶解分数之间的差异进行了比较分析,并且(4)在ML框架内建立了知识转移(KT)模型,以估计小麦晶粒和根中CD的积累。图1:建模框架的流程图。管道集成了数据收集,数据库构建,模型开发和空间可视化。

土壤特性与CD分布模式之间的关系
figure 1

基于先前关于土壤中CD保留的研究,土壤中可生物可利用的CD含量主要通过吸附到四个主要的反应性土壤成分上:土壤有机物(SOM),溶解有机物(DOM),粘土和HFO。

描述了CD吸附到SOM和DOM上的吸附,其比率不同的腐殖酸(HA)和富毒酸(FA)。

HA-CD,FA-CD,CLAY-CD和HFO-CD代表吸附在这些表面上的CD的量(方法和文本 S7)。通过验证MSM计算的平衡溶解CD(MSMS-CD)与植物摄取和提取CD的经验数据,证明了MSM在欧盟和中国的可靠性。强大的线性相关表明,MSM计算的溶解CD有效地表明了土壤CD的生物利用度(文本 S4),并用于评估CD的生物利用度。在地球化学集成的ML框架中,在CD上训练的梯度提升回归树(GBRT)模型数据集实现了令人满意的r2内部和外部测试集的值分别为0.998和0.989,因此被选为最终算法,以预测每个位置的CD固体液体分布(文本 S3)。GBRT预测的溶解的CD浓度称为ML-CD。

以ML-CD为例的预测,利用三种不同的特征分析技术来评估不同特征的重要性(图。 S1S2)。CD含量,pH和SOC总数(占OM的58%27)含量被确定为预测ML-CD的三个最重要特征,其中SOC是土壤中的主要吸附剂。如图所示 S1A,用于预测ML-CD的Shapley添加说明(SHAP)分析(一种特征重要的方法,在方法中详细介绍)表明,pH,SOC,粘土和HFO与ML-CD的含量负相关。相反,较高的总CD浓度与ML-CD的更大预测有关。观察到总CD含量的明显模式,其中一个具有小且正质量值的高cd浓度实例(红点)的密集簇,而CD浓度较低的浓度(蓝点)的实例向左延伸,这表明低总CD浓度对ML-CD产生了更大的负面影响。有关相互作用效果的更多详细信息可以在依赖图,相互作用图和热图中找到,并且在文本中给出了细节。 S5和图 S3

HFO被确定为CD的重要接口,因为它可以在土壤氧化还原周期期间增强CD固定28。此外,它在某些地区,尤其是SOC含量较低的领域,在某些地方起着至关重要的作用29。例如,Ibârian半岛上的pH值从北向南增加,并伴随着SOC和HFO的内容的减少(图。 S430,,,,31。选择了该区域内的三个代表性区域,在这些区域内为每个土壤地点计算了各种土壤成分的CD物种的相应分布,以及HFO-CD比例最高的25个地点(HFO-CD的百分比相对于总土壤CD的百分比)显示。 2。结果表明,这三个区域中HFO吸附的CD比例从北向南增加,平均值为1.5±2.9%,15.5±±10.5%和30.7±4.0%。同样,沿着意大利东海岸,土壤表现出较高的pH值,低SOC含量和相对较高的HFO水平,HFO的吸附能力更为明显,平均HFO-CD比例为33.3±6.0%。在四个选定区域中,HFO上CD的比例为总CD的0%至53.1%。

图2:在不同土壤性质条件下与不同土壤相相关的CD的分布。一个
figure 2

pH的欧盟插值图(改编自Ballabio等。30根据CC的许可。),研究区域显示为黑色插图,并且b)四个热点体现了HFO-CD部分的不同意义。比较欧盟和中国土壤CD的总和溶解分数的空间分布

土壤中的CD含量不仅受人类活动(例如工业活动,采矿过程和受精投入)的影响

13),还通过区域地质背景和面向土壤的过程。具体而言,碳酸盐基岩上的土壤通过自调节周期积累CD:碳酸盐岩具有释放CD的高潜力,而OM和Fe/Mn氧化物通过吸附/络合物将其固定32。动员和保留之间的这种平衡解释了欧盟和中国高CD地区和富含碳酸盐区域的一致空间重叠(图。 3一个,b33。如表中所示 S1S2,欧盟中的总CD含量在0.11至1.55毫克之间变化1,平均为0.37毫克1和0.17毫克的标准偏差1,而中国的CD含量为0.01至14.22毫克1,平均为0.41,标准偏差为1.03。中国表土的总CD含量比欧盟大约10.8%。

图3:总和CD的空间插值图。一个
figure 3

欧洲总CD地图13,,,,b总CD的中国地图;c欧洲溶解CD的地图,d中国溶解CD的地图。使用地球化学集成的ML框架(在CD上训练的GBRT)进行了每个位点CD固体分布的预测

数据集),预测结果的主要统计数据总结在表格中 S3图 3c,dS5目前的分布图说明了欧盟或中国不同土壤反应性成分的ML-CD和吸附-CD浓度。特别是,欧盟非工业表土内的ML-CD的预测范围为0.3â971.2âgoul1,平均值为96.9¼gâl1和116.5â¼gâl的标准偏差1。在中国,相应的范围为0.064151.2âgâgâl1,平均为113.2¼gâl1和337.3âg的标准偏差1。ML-CD平均比欧盟高16.8%。桌子 S4和图 S6介绍了各种CD形式的统计结果和分布图分别与中国和欧盟的总CD含量分别。平均而言,ML-CD与欧盟和中国总CD的比例分别为26.3±22.9%和24.6±±18.0%。此外,SOM结合CD(HA-CD + FA-CD)的百分比分别为61.1±20.0%和65.4±19.3%,超过了与其他接口相关的CD百分比(Clay-cd,clay-cd,强度为3.5±3.3%和5.3%和5.3%和5.6%&cond and and and and and&; cond and and;9.1±11.7%和4.3±分别占欧盟和中国总CD的6.8%)。基于表格 S1S2,在中国表土中,相对较高的OC和HFO的总CD和较低的含量被认为是导致更大生物利用度的主要土壤成分。中国的平均pH值接近平均pH值(欧盟为6.33,在中国为6.64),中国的平均OC含量(14.76gâkg1)明显低于欧盟(36.53 g kg)1),并且对于平均HFO含量也观察到了类似的模式(2.6gâkg1在欧盟和1.6 g kg中1在CN)。因此,如表所示 S3,中国HA和HFO上CD的平均吸附量小于欧盟的平均吸附量(148.6âgoul1和7.2âgâgâl1在中国,分别与194.3â¼gâl相比1和28.1â¼gâl1在欧盟)。

如图所示 3a在非工业表土中,在爱尔兰发现了最高的CD,其次是西班牙北部,瑞典北部,芬兰和波兰。立陶宛,斯洛文尼亚,中部罗马尼亚和希腊西海岸也表现出相对较高的CD内容物。然而,图 3C描绘了北瑞典,芬兰和波兰北部的一幅不同的情况,表现出最高的生物利用度,而不是爱尔兰。另一方面,意大利的总CD水平较高,但CD的生物利用度非常低。英格兰,爱沙尼亚,拉脱维亚,匈牙利和保加利亚的CD和MSM-CD总体风险较低。通过结合形状分析和pH的地图30,Soc31和粘土31,确定pH和SOC含量是总体和ML-CD空间分布差异背后的主要驱动因素(图。 S6)。通常,低土壤pH是总CD含量较低但CD生物利用度较高的地区的主要驱动力,例如瑞典和波兰。这与图中描述的方案一致。 S6,其中ML-CD比例很高的区域与pH值较低的区域紧密保持一致。另一方面,尽管爱尔兰的CD总含量很高,但爱尔兰的SOC含量很高,HA和FA导致CD的大量吸附,因此CD的生物利用度相对较低。

与欧盟中的CD,ML-CD和中国ML-CD的比例的分布相比,中国的分布与总CD的分布相似。如图所示 3b,d,在台湾省,广西省以及云南和吉州省的交界处都发现了较高水平和ML-CD水平的地区。这种现象可以归因于中国土壤特性分布的明显模式。具体而言,北部和南部的土壤pH往往更大5,而SOC和粘土含量在北部往往较低,南部较高5,,,,34

知识转移用于生物利用度预测

土壤CD的大多数区域或大陆风险评估仅依赖于总内容13,尽管可生物利用的CD测量内容对于风险评估仍然有问题,因为有不同类型的生物利用CD含量,如不同的提取程序所定义。因此,我们使用知识转移(KT)将上述地球化学吸附过程与土壤植物系统中的作物CD的吸收相结合。通过合并从表现最佳的GBRT模型获得的CD形成分布的预测结果来建立KT模型(表 S5),并与中国小麦数据的非机械数据驱动(DD)模型一起训练。尽管比较性能指标(表格得分 S6;图中所示的DD的形状 4a,c,图中所示的KT的形状 4b,d)在模型之间证明了相似的精度,KT模型通过编码控制CD分布的地球化学相互作用来区分自身。特征重要性分析(图 4b,d)确认ML-CD和粘土CD在KT模型中表现出主要的影响,超过所有其他土壤特性。从物理上来说,可溶性和静电粘土结合的C可以归因于可交换的部分35。这些发现也与该CD生物利用度不仅由ML-CD馏分确定,而且还受到动态CD摄取过程中其他接口的存在的影响。36。因此,KT模型通过利用端到端范式中不同但相关的任务传递的知识有效地解决了这种复杂性。因此,我们的地球化学集成的ML框架通过将地球化学过程的知识整合到作物摄取过程中,成功地弥合了知识差距,从而更好地理解了预测小麦根和谷物中CD的积累。它在各种物种和复杂情景中的潜在应用正在等待进一步的验证。

图4:在预测CD植物摄取时,知识传递和非机械数据驱动模型的比较。
figure 4

小麦CD积累的预测模型的性能和形状值,一个谷物中的数据驱动(DD)模型,b谷物中的知识转移(KT)模型,croot中的KT模型,droot中的KT模型。结论

农业土壤中HMS的生物利用度和HMS的风险仍然是实现全球食品安全和保障的重要障碍之一。

先前的研究集中在特定的案例研究上,而对CD生物利用度和风险的准确区域和大陆规模评估已经缺乏。这项研究提出了一种整合地球化学络合过程的机械方面的方法,以预测土壤中的CD形成分布和作品吸收,从而弥合了实验室研究和现场应用之间的差距。端到端地球化学集成的ML框架仅使用地理位置,少数土壤特性(pH,粘土分数和SOC含量)大大降低了准确估计可生物可利用CD所需的成本和时间。通过利用现有的调查数据,该框架生成了地图,描绘了欧盟和中国各个阶段的CD内容,从而在监视成本中节省了大量节省。通过扩展的KT模型,还可以通过机械解释的形成CD吸收,从而为环境风险评估,可持续的粮食安全政策和有效的土壤修复策略提供了宝贵的见解。我们的发现强调了仅依靠CD总含量的总体可能会低估风险,这突出了在风险评估中考虑不同CD物种的重要性。尽管对生物利用铅(PB)和汞(HG)的预测,由于其复杂的行为和土壤中的转变,开发的框架也很容易扩展到涵盖大多数其他HMS,尽管对生物利用铅(PB)和汞(HG)的预测将仍然具有挑战性。19,,,,37。如果将更复杂的土壤-HM相互作用机制考虑到框架中,则可以对HM相互作用及其在土壤中相关的风险有全面的了解。

预测的准确性受到多种数据和方法论的约束。首先,最重要的是,MSM理想地需要化学反应性CD(通常为0.43 m hno3 - 可提取的)作为输入,我们依赖Aqua Regia可提取的总CD,遍布数据集的唯一一致可用的度量可能会高估MSMS-CD38未来的改进应优先考虑依赖pH依赖性的经验功能以将总C为反应性分数,或者合并衰老模型39更好地限制了MSMS的化学可用CD输入。对于欧洲的预测,有73%的卢卡斯土壤CD浓度低于检测极限(0.07 mg kg1)。虽然预测性r2插值地图的分辨率达到0.4513与源数据相比,与插值数据相关的固有不确定性。同样,中国估计将40年历史的国家调查数据与异质文献来源结合在一起,并可能歪曲了当前的污染模式。尽管HMS的风险评估倾向于优先考虑HM含量高的热点,但重要的是要确认这些局限性,并在未来的研究中努力改善数据收集和数据质量。方法学的近似值,包括平衡状态假设(尽管土壤过程的非平衡性质)和插值土壤特性,进一步引入了不确定性。诸如碳酸盐风化之类的地质过程将CD释放到土壤中,而诸如OM和FE/MN氧化物之类的教学因素则可以驱动其重新磨损,从而集体塑造了可用的CD池。结合这些耦合机制可以提高CD生物利用度的预测精度。

尽管ML框架预测中存在已知偏见,但在区域和大陆尺度上的决策仍然很有价值40。通过提高数据准确性,可以实现对土壤CD污染的增强预测和风险评估,从而促进了可持续的环境保护的明智的决策。

方法

数据集

土壤特性:土壤有机碳(SOC),粘土矿物质和无定形铁岩(HFO)被选为负责MSMS以及地球化学综合机器学习框架土壤中CD吸附的主要实心阶段。HFO对于在碱性土壤中保留CD特别重要19,,,,41。但是,在大多数文献或Lucas调查系列中尚未确定HFO内容(Tableâ S7)除了卢卡斯(Lucas)2018。要解决这一差距,我们建立了两个数据集,以预测欧洲和中国的HFO内容:(1)欧盟HFO来自2510 Lucas 2018采样位点的HFO测量的数据集,具有11种土壤特性的完全表征,以及(2)CNHFO由于数据可用性限制,包含来自中国的132个文献衍生的HFO测量值的数据集限制为三个常见参数(pH,OC和粘土含量)。然后将所得的HFO汇编到数据集中,以及其他土壤特性,以预测土壤界面的CD形成分布(欧盟和CN区)。所有数据均严格从表土层(0英厘米深度)收集。表中给出了这四个数据集的主要统计数据和概率密度分布直方图 S1S2S8S9和图 S7S10。这些数据集的数据处理的详细过程可在文本中获得 S6

环境协变量:HFO的形成与土壤特性,植被,气候,母体材料,陆地表面水分和热条件以及随着时间的推移活动之间的相互作用密切相关。跟随Liu等。5,我们将14个环境协变量(气候,地形和土地表面特征)作为欧盟预测变量的一部分。HFO和CNHFO用于建模HFO内容。这些环境协变量来自卫星数据,例如MODI和其他全局数据集(表格中的详细信息 S10和随附的笔记)。

空间协变量:要考虑特征值之间HFO含量的空间关联,经度,纬度和6个空间插值协变量在随机森林空间空间插值(RFSI)中使用,其中包括在目标点附近和目标点之间获得的值获得的值42引入了携带有关空间相关信息的协变量。

多面模型描述和验证

欧盟和CN然后在MSMS中使用预测的HFO填充,以预测这两个区域中溶解的CD分数和物种分布。MSM是基于热力学平衡的地球化学模型19其中包括四个用于CD吸附的反应性表面,即土壤有机物(SOM),溶解有机物(DOM),氧化铁和粘土矿物质(<0.002毫米)。因此,在两个欧盟中的每个数据点的总CD,SOM,DOM,HFO和粘土分数和CN用作输入变量,以计算MSMS通过MSMS计算平衡溶解的CD(MSMS-CD)和CD形成(CD吸附在各个固体相位)。通过与EC衍生的背景电解质浓度相比,0.001 M CaCl2建议代表共存离子41。土壤溶剂比率设置为10gâl1基于其表现的性能,用于预测毛水和农作物吸收中的CD23,,,,43。使用乐团计划进行计算44。详细的模型设置和计算过程在文本中描述 S7,,,,S8。对植物摄取的验证表明,MSMS-CD是CD在土壤中生物利用度的有效指标(文本 S443,,,,45

机器学习模型开发和选择

基于拉丁高管抽样的数据集:拉丁超立方体采样(LHS)及其变体是广泛使用的随机抽样技术,可以更有效地重现输入分布,而从多维分布中较少采样(可以在文本中可以找到更多的详细信息,并且可以在文本中找到更多的详细信息。 S9)。在本研究中应用了采样方法,以确定哪种ML模型需要最小的训练集以实现最佳的预测性能。LHS被反复使用来生成一系列土壤特性和总CD含量的组合,以重建欧盟中土壤特性的分布区(比CN具有更大的体积和更一致的测量标准区)使用更少的数据点并扩展ML模型的预测能力(文本 S10)。在数据集上使用MSM来计算这些组合的CD的固体/液体分布(配对的土壤特性 - total-tot-tot-tot-tot-tot-tot-tot-tot-tot-tot-tot-tot cd含量)。These combinations served as descriptors, while the outputs of the MSMs served as targets, collectively forming the LSH-based dataset (labeled LSH-N based on the sampling repetitions (N)).Various ML models were trained and compared on LSH-N to choose the optimal ML model within the smallest dataset.As a supplement, LSH-4000 was eventually chosen as the final training set and was given the name Cd区(Text S3)。Machine learning model development: Ten ML algorithms were used in this study, including five traditional learning methods (ridge regression (Ridge), Lasso regression (Lasso), Elastic Net regression (ElasticNet), K-Nearest Neighbors (KNN) and Support Vector Regression (SVR)), four ensemble models (random forest (RF), extremely randomized trees (ERT), Gradient Boosting Regression Tree (GBRT), and

eXtreme Gradient Boosting (XGBoost)), and one deep learning model (Multi-Layer Perceptron (MLP)).The hyperparameters to be adjusted for these algorithms were listed in Table S11。All models were employed in constructing geochemical-integrated ML models (More detailed procedure in Text S3)。

To obtain the best model for predicting HFO, ten ML models were trained on the EUHFOand CNHFO数据集。To select the optimal ML model that can mimic MSMs computations with minimal training data, the LSH technique was applied repeatedly to draw different numbers (N) of subsets (LSH-N) in EUto form LSH-N.Then, the distribution of Cd(II) at solid‒liquid interfaces in the LSH datasets was calculated using the ORCHESTRA program.Finally, the four ensemble models and MLP were trained and compared using soil properties in LSH-N as features and the outputs of ORCHESTRA as targets.

Feature importance evaluation: To evaluate the importance of different descriptors and interpret the predicted model, three feature importance analysis methods, namely, permutation feature importance analysis, impurity feature importance analysis, and the SHapley Additive exPlanation (SHAP) method, were applied.Compared to common feature importance methods, SHAP estimates not only how much but also how each feature contributes to model prediction, providing a fresh perspective for interpreting the interplay between soil properties and HMs46。Moreover, the results can also be used to simplify the ML model, and the most valuable features can be identified by combining the feature importance and correlation results46

Knowledge transfer: Transfer learning based on neural networks has made considerable progress in the field of processing large amounts of image and text data due to its advantages of faster speed, better performance, and cost savings47。However, it is a challenge to effectively transfer knowledge in small datasets in the environmental field.Therefore, a knowledge transfer (KT) algorithm based on tree algorithms and tabular data has been proposed48。Specifically, the Cd speciation distribution results predicted by the best-performing GBRT model were used as additional features to predict plant adsorption.We compare the performance of the models after KT with that of the standalone nonmechanistic data-driven (DD) models trained solely on the absorption data of Chinese wheat.

数据可用性

The European data and maps of this study will be made available in the European Soil Data Centre (ESDAC,https://esdac.jrc.ec.europa.eu/31。Data for this manuscript are available at Zenodo with the following link:https://doi.org/10.5281/zenodo.15667161。代码可用性

Code for this manuscript is available at Zenodo with the following link:

https://doi.org/10.5281/zenodo.15667161参考

Hou, D. et al.

  1. Metal contamination and bioremediation of agricultural soils for food safety and sustainability.纳特。Rev. Earth Environ。 1, 366–381 (2020).

    Google Scholar一个 

  2. Fuller, R. et al.Pollution and health: a progress update.Lancet Planet.健康 6, e535–e547 (2022).

    Google Scholar一个 

  3. Han, R. et al.Bibliometric overview of research trends on heavy metal health risks and impacts in 1989–2018.J.清洁。产品。 276, 123249 (2020).

    CAS一个 Google Scholar一个 

  4. Li, M. et al.National multi-purpose regional geochemical survey in China.J. Geochem.Explor. 139, 21–30 (2014).

    CAS一个 Google Scholar一个 

  5. Liu, F. et al.Mapping high resolution national soil information grids of China.科学。公牛。 67, 328–340 (2022).

    Google Scholar一个 

  6. Salminen, R., De Vos, W. & Tarvainen, T.Geochemical atlas of Europe。(Geological survey of Finland Espoo, 2005).

  7. Reimann, C., Birke, M., Demetriades, A., Filzmoser, P. & O’Connor, P.Chemistry of Europe’s agricultural soils, part A。(Schweizerbart’sche Verlagsbuchhandlung, 2014).

  8. Fernández-Ugalde, O. et al.LUCAS 2018 Soil Module.(Publications Office of the European Union, 2022).Fernández-Ugalde, O. et al.LUCAS 2018 Soil Module.

  9. Presentation of dataset and results (2018).

  10. Ballabio, C. et al.A spatial assessment of mercury content in the European Union topsoil.科学。总环境。 769, 144755 (2021).

    CAS一个 Google Scholar一个 

  11. Ballabio, C. et al.Copper distribution in European topsoils: an assessment based on LUCAS soil survey.科学。总环境。 636, 282–298 (2018).

    CAS一个 Google Scholar一个 

  12. Van Eynde, E., Fendrich, A. N., Ballabio, C. & Panagos, P. Spatial assessment of topsoil zinc concentrations in Europe.科学。总环境。 892, 164512 (2023).

    Google Scholar一个 

  13. Ballabio, C., Jones, A. & Panagos, P. Cadmium in topsoils of the European Union–an analysis based on LUCAS topsoil database.科学。总环境。 912, 168710 (2024).

    CAS一个 Google Scholar一个 

  14. Tóth, G., Hermann, T., Da Silva, M. R. & Montanarella, L. J. E. I. Heavy metals in agricultural soils of the European Union with implications for food safety.环境。int。 88, 299–309 (2016).

    Google Scholar一个 

  15. Huang, J., Fan, G., Liu, C. & Zhou, D. Predicting soil available cadmium by machine learning based on soil properties.J. Hazard.母校。 460, 132327 (2023).

    CAS一个 Google Scholar一个 

  16. Kim, R.-Y.等。Bioavailability of heavy metals in soils: definitions and practical implementation—a critical review.环境。地球化。健康 37, 1041–1061 (2015).

    CAS一个 Google Scholar一个 

  17. Tipping, E. WHAMC—a chemical equilibrium model and computer code for waters, sediments, and soils incorporating a discrete site/electrostatic model of ion-binding by humic substances.计算。Geosci。 20, 973–1023 (1994).

    CAS一个 Google Scholar一个 

  18. Peijnenburg, W. J. G. M., Zablotskaja, M. & Vijver, M. G. Monitoring metals in terrestrial environments within a bioavailability framework and a focus on soil extraction.生态毒素。环境。SAF。 67, 163–179 (2007).

    CAS一个 Google Scholar一个 

  19. Weng, L., Temminghoff, E. J. M. & Van Riemsdijk, W. H. Contribution of individual sorbents to the control of heavy metal activity in sandy soil.环境。科学。技术。 35, 4436–4443 (2001).

    CAS一个 Google Scholar一个 

  20. Bonten, L. T., Groenenberg, J. E., Weng, L. & van Riemsdijk, W. H. Use of speciation and complexation models to estimate heavy metal sorption in soils.Geoderma 146, 303–310 (2008).

    CAS一个 Google Scholar一个 

  21. Dijkstra, J. J., Meeussen, J. C. L. & Comans, R. N. J. Evaluation of a generic multisurface sorption model for inorganic soil contaminants.环境。科学。技术。 43, 6196–6201 (2009).

    CAS一个 Google Scholar一个 

  22. Groenenberg, J. E., Romkens, P. F. A. M., van Zomeren, A., Rodrigues, S. M. & Comans, R. N. J. Evaluation of the single dilute (0.43 M) nitric acid extraction to determine geochemically reactive elements in soil.环境。科学。技术。 51, 2246–2253 (2017).

    CAS一个 Google Scholar一个 

  23. Li,Y。等。Combining multisurface model and Gouy–Chapman–Stern model to predict cadmium uptake by cabbage (Brassica Chinensis L.) in soils.J. Hazard.母校。 416, 126260 (2021).

    CAS一个 Google Scholar一个 

  24. Xiang, D., Wang, G., Tian, J. & Li, W. Global patterns and edaphic-climatic controls of soil carbon decomposition kinetics predicted from incubation experiments.纳特。社区。 14, 2171 (2023).

  25. Wu, X. et al.Sensing prior constraints in deep neural networks for solving exploration geophysical problems.Proc。纳特。学院。科学。美国 120, e2219573120 (2023).

  26. Chang, E., Zavarin, M., Beverly, L. & Wainwright, H. A chemistry-informed hybrid machine learning approach to predict metal adsorption onto mineral surfaces.应用。地球化。 155, 105731, (2023).

  27. Nelson, D. W. & Sommers, L. E. Total carbon, organic carbon, and organic matter.Methods Soil Anal.Part 2 Chem.微生物。支柱。 9, 539–579 (1983).

    Google Scholar一个 

  28. Imoto, Y. & Yasutaka, T. Comparison of the impacts of the experimental parameters and soil properties on the prediction of the soil sorption of Cd and Pb.Geoderma 376, 114538 (2020).

    CAS一个 Google Scholar一个 

  29. Benjamin, M. M. & Leckie, J. O. Multiple-site adsorption of Cd, Cu, Zn, and Pb on amorphous iron oxyhydroxide.J. Colloid Interface Sci. 79, 209–221 (1981).

    CAS一个 Google Scholar一个 

  30. Ballabio, C. et al.Mapping LUCAS topsoil chemical properties at European scale using Gaussian process regression.Geoderma 355, 113912 (2019).

    CAS一个 Google Scholar一个 

  31. Panagos, P. et al.European Soil Data Centre 2.0: soil data and knowledge in support of the EU policies.欧元。J. Soil Sci. 73, e13315 (2022).

    Google Scholar一个 

  32. Quezada-Hinojosa, R. P., Matera, V., Adatte, T., Rambeau, C. & Föllmi, K. B. Cadmium distribution in soils covering Jurassic oolitic limestone with high Cd contents in the Swiss Jura.Geoderma 150, 287–301 (2009).

    CAS一个 Google Scholar一个 

  33. Goldscheider, N. et al.Global distribution of carbonate rocks and karst water resources.Hydrogeol.J. 28, 1661–1677 (2020).

    CAS一个 Google Scholar一个 

  34. Song, X.-D.等。Mapping soil organic carbon content by geographically weighted regression: A case study in the Heihe River Basin, China.Geoderma 261, 11–22 (2016).

    CAS一个 Google Scholar一个 

  35. Cui, Y. & Weng, L. Interpretation of heavy metal speciation in sequential extraction using geochemical modelling.环境。化学 12, 163–173 (2015).

    CAS一个 Google Scholar一个 

  36. Li, Q. et al.Speciation of heavy metals in soils and their immobilization at micro-scale interfaces among diverse soil components.科学。总环境。 825, 153862 (2022).

    CAS一个 Google Scholar一个 

  37. Gworek, B., Dmuchowski, W. & Baczewska-DÄ…browska, A. H. Mercury in the terrestrial environment: a review.环境。科学。欧元。 32, 128 (2020).

    CAS一个 Google Scholar一个 

  38. Garforth, J. M., Tye, A. M., Young, S. D., Bailey, E. H. & Lofts, S. A comparison of characterisation and modelling approaches to predict dissolved metal concentrations in soils.环境。化学 21, EN23075 (2024).

  39. Xu, L., Lofts, S. & Lu, Y. Terrestrial ecosystem health under long-term metal inputs: modeling and risk assessment.Ecosyst.Health Sustain. 2, e01214 (2016).

    Google Scholar一个 

  40. Vijver, M. G., Spijker, J., Vink, J. P. & Posthuma, L. Determining metal origins and availability in fluvial deposits by analysis of geochemical baselines and solid–solution partitioning measurements and modelling.环境。Pollut. 156, 832–839 (2008).

    CAS一个 Google Scholar一个 

  41. Li,Y。等。Prediction of the uptake of Cd by rice (Oryza sativa) in paddy soils by a multi-surface model.科学。总环境。 724, 138289 (2020).

    CAS一个 Google Scholar一个 

  42. Zhao,W。等。Accurate prediction of soil heavy metal pollution using an improved machine learning method: a case study in the Pearl River Delta, China.环境。科学。技术。 57, 17751–17761 (2023).

    CAS一个 Google Scholar一个 

  43. Zhu, B., Liao, Q., Zhao, X., Gu, X. & Gu, C. A multi-surface model to predict Cd phytoavailability to wheat (Triticum aestivum L.).科学。总环境。 630, 1374–1380 (2018).

    CAS一个 Google Scholar一个 

  44. Meeussen, J. C. L. ORCHESTRA: an object-oriented framework for implementing chemical equilibrium models.环境。科学。技术。 37, 1175–1182 (2003).

    CAS一个 Google Scholar一个 

  45. Qu, X. et al.A field study to predict Cd bioaccumulation in a soil-wheat system: application of a geochemical model.J. Hazard.母校。 400, 123135 (2020).

    CAS一个 Google Scholar一个 

  46. Palansooriya, K. N. et al.Prediction of soil heavy metal immobilization by biochar using machine learning.环境。科学。技术。 56, 4187–4198 (2022).

    Google Scholar一个 

  47. Zhuang, F. et al.A comprehensive survey on transfer learning.Proc。IEEE 109, 43–76 (2020).

    Google Scholar一个 

  48. Zhong, S., Zhang, Y. & Zhang, H. Machine learning-assisted QSAR models on contaminant reactivity toward four oxidants: combining small data sets and knowledge transfer.环境。科学。技术。 56, 681–692 (2021).

    Google Scholar一个 

下载参考

Acknowledgements

This study was supported by the National Natural Science Foundation of China (42225701, 41977027, and 41671239) and the National Key Research and Development Program of China (2021YFC1809100 and 2020YFC1806801).LUCAS soil samples were collected and analyzed with the support of EUROSTAT, DG AGRI, CLIMA, and ENV (European Commission).We are thankful for the data support from the “Soil SubCenter, National Earth System Science Data Center, National Science & Technology Infrastructure of China (http://soil.geodata.cn)。

作者信息

作者和隶属关系

  1. State Key Laboratory of Soil & Sustainable Agriculture, Institute of Soil Science, Chinese Academy of Sciences, Nanjing, China

    Naichi Zhang, Chen Lv, Yan Li, Jun Man, Yifan Qian, Peixin Cui, Tongliang Wu, Meiying Huang, Cun Liu & Yujun Wang

  2. University of Chinese Academy of Sciences, Beijing, China

    Naichi Zhang, Yifan Qian & Yujun Wang

  3. College of Environmental Science and Engineering, Yangzhou University, Yangzhou, China

    Chen Lv

  4. European Synchrotron Radiation Facility (ESRF), Grenoble, France

    Yan Li

  5. European Commission, Joint Research Centre (JRC), Ispra, Italy

    Panos Panagos & Cristiano Ballabio

  6. State Key Laboratory of Pollution Control and Resource Reuse, School of the Environment, Nanjing University, Nanjing, China

    Xueyuan Gu

  7. College of Resources and Environmental Sciences, Nanjing Agricultural University, Nanjing, China

    Fang-Jie Zhao & Peng Wang

  8. College of Environmental & Resource Sciences, Zhejiang Provincial Key Laboratory of Agricultural Resources and Environment, Zhejiang University, Hangzhou, China

    Xingmei Liu

作者

  1. Naichi Zhang
  2. Chen Lv
  3. Yan Li
  4. Panos Panagos
  5. Cristiano Ballabio
  6. Jun Man
  7. Xueyuan Gu
  8. Fang-Jie Zhao
  9. Peng Wang
  10. Xingmei Liu
  11. Yifan Qian
  12. Peixin Cui
  13. Tongliang Wu
  14. Meiying Huang
  15. Cun Liu
  16. Yujun Wang

贡献

Naichi Zhang: Writing—review and editing, Writing—original draft, Visualization, Investigation, Formal analysis, Data curation, Chen Lv: Writing—review and editing, Visualization, Formal analysis, Data curation, Yan Li: Methodology, Formal analysis, Data curation, Panos Panagos: Writing—review and editing, Funding acquisition, Data curation, Cristiano Ballabio: Writing—review and editing, Data curation, Jun Man: Writing—review and editing, Methodology, Data curation, Xueyuan Gu: Writing—review and editing, Methodology, Data curation, Fang-Jie Zhao: Writing—review and editing, Data curation, Peng Wang: Writing—review and editing, Data curation, Xingmei Liu: Writing—review and editing, Data curation, Yifan Qian: Visualization, Data curation, Peixin Cui: Writing—review and editing, Visualization, Data curation, Tongliang Wu: Writing—review and editing, Visualization, Data curation, Meiying Huang: Writing—review and editing, Visualization, Data curation, Cun Liu: Writing—review and editing, Validation, Supervision, Resources, Methodology, Funding acquisition, Conceptualization, Yujun Wang: Writing—review and editing, Validation, Supervision, Resources, Methodology, Funding acquisition, Conceptualization.

相应的作者

Correspondence toCun Liu或者Yujun Wang

道德声明

竞争利益

作者没有宣称没有竞争利益。

同行评审

Peer review information

Communications Earth and Environmentthanks the anonymous reviewers for their contribution to the peer review of this work.Handling Editor(s): Somaparna Ghosh [A peer review file is available].

附加信息

Publisher’s note关于已发表的地图和机构隶属关系中的管辖权主张,Springer自然仍然是中立的。

补充信息

引用本文

Check for updates. Verify currency and authenticity via CrossMark

Zhang, N., Lv, C., Li, Y.

等。Geochemical-integrated machine learning approach predicts the distribution of cadmium speciation in European and Chinese topsoils.Commun Earth Environ6 , 548 (2025).https://doi.org/10.1038/s43247-025-02516-6

下载引用

  • 已收到

  • 公认

  • 出版

  • doihttps://doi.org/10.1038/s43247-025-02516-6

关于《地球化学集成的机器学习方法预测欧洲和中国表土中镉形成的分布》的评论


暂无评论

发表评论

摘要

Zhang等人的文章“地球化学集成的机器学习方法预测了欧洲和中国表土中镉形成的分布”。探索一种新的方法来预测土壤中镉(CD)物种形成的分布,将地球化学模型与机器学习技术相结合。该研究旨在提供有关与土壤CD污染相关的生物利用度和环境风险的见解。###关键点:1。**目标**: - 开发一种结合地球化学建模和机器学习的综合方法,以预测表土中的镉(CD)形成。 - 考虑其不同的环境条件和特征,评估这种方法对欧洲和中国土壤的有效性。2。**方法**: - 该研究利用欧洲的卢卡斯(Lucas)(土地利用和覆盖面积框架调查)的土壤样本和中国的其他数据集。 - 地球化学模型用于了解如何在不同的pH,有机物含量和其他环境条件下在土壤中分布在土壤中。 - 使用机器学习算法,尤其是那些能够处理小型数据集和促进知识转移(例如转移学习)的算法,用于预测CD形成模式。3。**发现**: - 综合方法成功地预测了不同地理区域跨土壤中不同形式的镉的分布。 - 预测表明,pH水平和有机物含量显着影响土壤中镉的生物利用度,突出了它们对环境风险评估的重要性。 - 通过整合传统模型可能会错过的复杂地球化学相互作用,机器学习组件允许提高准确性。4。**含义**: - 由于对生物利用形式的镉的更好理解和预测,这种方法可能对预测与土壤污染相关的潜在健康风险有用。 - 它提供了一种可扩展的方法,可在不同地区使用,从而增强了与重金属污染相关的环境风险评估的全球适用性。### 结论:Zhang等人的研究展示了如何将地球化学见解与先进的机器学习技术整合在一起可以增强我们预测和管理重金属(如镉)的土壤污染的能力。这种方法不仅提高了预测精度,而且还为决策者提供了有价值的信息,帮助他们制定了更有效的策略来减轻与此类污染物相关的环境风险。###未来方向: - 该模型的进一步完善可以包含来自其他区域的其他变量和数据,以增强其全球适用性。 - 研究其他重金属的类似方法将扩大环境风险评估和污染管理策略的范围。该研究代表了利用先进的计算方法迈出的重要一步,以应对紧迫的环境挑战,尤其是在土壤污染的背景下。

相关讨论