机器学习分析 COVID-19 对迁移模式的影响

2024-11-30 12:08:00 英文原文

作者：Tyukin, Ivan

- “从‘蓝香蕉’到‘红章鱼’以及东欧和南欧城市的发展：华沙和里斯本，” T. Metaxas 和 M. Tsavdaridou，区域和部门经济研究 (2013)

。^{- 本文对东欧和南欧的城市发展进行了比较分析，重点是华沙和里斯本的案例研究。### 资助致谢：- **SLAIDER 项目：**该研究得到了英国研究和创新补助金 (EP/Y018281/1) 资助的 SLAIDER 项目的支持。- **额外资金：**Ivan Tyukin 还感谢另一项英国研究和创新补助金 (EP/V025295/2) 的资助。###致谢：作者感谢编辑和审稿人的宝贵见解，极大地改进了手稿。### 利益竞争：}作者声明没有竞争利益。^{本摘要重点介绍了本文如何将机器学习方法与社会经济分析相结合，以了解受疫情影响的移民模式。这些参考文献涵盖了一系列主题，包括聚类算法、危机期间对中小企业的财务影响以及整个欧洲的城市发展背景。介绍旅游业是许多经济体的基石，尤其是在欧洲，跨境旅行很常见。它在全球经济中发挥着至关重要的作用，为全球文化交流、经济增长和就业机会做出了贡献。COVID-19 大流行对国际旅行造成了前所未有的干扰，深刻影响了游客的流动模式，并对现有的人类流动模式提出了挑战。了解这些变化对于旨在减轻经济影响和制定复苏计划的政策制定者和企业至关重要。虽然对 COVID-19 动力学的研究主要集中在流行病学、病毒的空间预测因子以及使用神经网络和 SARIMA 模型进行预测1},²,³,⁴,

5^{，很少有人解决社会经济影响，特别是跨地区经济走廊和流动网络的脆弱性6,7,8,9,10}。

还有基于代理的系统，例如 Covasim¹¹和多尺度数据驱动模型来解释 COVID-19 的传播¹²和平均场 ODE¹³。^{虽然这些方法有助于了解病毒传播、干预策略和预测，但它们通常关注感染率、临床进展和局部传播模式。}然而，它们通常无法解决更广泛的社会经济影响，特别是流行病如何破坏跨地区的经济走廊和流动网络⁶,

10^。复杂网络已经出现在神经科学等各个领域^{14, 互联网15}和交通系统

16。

在此框架内，社交网络提供了对人文地理、运动、历史和经济联系的重要见解^{17 号}。全球旅游网络结构研究17 号

强调分析度相关性、权重和无标度属性的重要性。

然而，这些方法很少整合扰动的影响，而扰动的影响是理解可变性或数据不一致下稳定性的重要考虑因素。^{我们的工作通过增加理解游客流动动态的讨论，弥合了社会经济学、应用数学和机器学习之间的差距。它还为未来地理空间和社会经济建模的探索奠定了基础。我们研究中的一个重要考虑因素是，受扩散动力学的启发，将国家视为发射辐射的单体，以模拟流动通量。}这种抽象简化了复杂的空间交互，同时捕捉了基本的社会经济特征，例如 GDP、文化联系和语言相似性。^{我们建立了一个框架来评估观察到的聚类的稳定性和弹性。}通过使用扰动增强聚类和主成分分析，我们提供了预测流动模式变化和规划恢复策略的工具，同时强调了某些社会经济走廊的弹性和脆弱性。^{扰动增强聚类使我们能够在数据不一致或外部干扰的情况下识别稳定的移动模式。这一补充解决了社会经济不平衡问题，例如红章鱼走廊中明显的不平衡问题，同时确定了需要有针对性发展的特定集群，以加强欧盟的社会经济网络。他们能够模拟游客行为的变化和数据不一致，这使他们能够提供一种独特的方法来发现稳定的结构模式。这种方法为城市化项目的扩展提供了空间。我们的工作验证了 Van der Meer 的观点}18

关于红章鱼社会经济走廊。^{本研究表明，尽管《里斯本战略》和《欧洲凝聚政策》中概述了欧洲社会经济走廊的极端脆弱性，但仍需要区域合作}8,19 号。我们提供一个为战略政策干预和基础设施投资提供信息的框架。这些发现有助于更广泛的社会经济流动性研究，为增强欧洲经济走廊的弹性和凝聚力提供可行的见解。^{通过关注游客流动网络的结构变化，我们的研究超越了简单的游客预测，深入研究了旅游流的空间和社会经济相互依赖性。}我们表明，可以通过战略伙伴关系和有针对性的投资来加强旅游业的经济弹性，特别是在受旅游业中断影响尤为严重的地区。

我们揭示了欧洲旅游网络的潜在结构模式，使我们能够揭示共同的社会经济特征对流动模式的影响。

我们根据这些社会经济特征找到与已建立的社会经济区的联系，并强调有针对性的基础设施投资和政策调整以提升整个走廊的潜力。

分析集群有不同的理论视角，在旅游分析中，从旅游研究的角度可以清楚地看出，旅游网络形成中的三种主要效益是学习和交流、商业活动和社区形成（见第8章）在20）。因此，观察和分析 COVID-19 大流行期间的旅游网络以提取重要特征非常重要（表1）。表1 辐射模型关键参数说明为了继续进行，需要建立一个重要的兴趣模型21,22 号也适用于描述经验数据。提出的是辐射模型，扩散动力学利用它来分析在真空中移动的高能粒子或波的轨迹23。尽管如此，辐射模型适用于网络科学，更具体地说，适用于人类流动性的应用，并且已针对城市或州之间的通勤者、出租车司机和求职者进行了研究24,25,26。因此，必须将这一概念扩展到更大的范围，开发辐射模型并应用机器学习方法来评估欧洲游客的行为及其对政策制定者的影响。因此使用辐射模型27 号，来自位置的预测移动通量

我

到地点j给出为28,

$$\begin{对齐} <T_{ij}>= \frac{m_i n_j}{(m_i + s_{ij})(m_i + n_j + s_{ij})}。\end{对齐}$$(1)在模型中，$r_{ij}$已定义为以源为中心的圆的半径我并与圆周边接触目的地j。这样做是为了使模型可以计算该圈内的总人数（不包括两个目的地的人口）j和来源我。和

$r_{ij}$，然后模型选择要包含的国家/地区$s_{ij}$，在哪里$r_{ik}$

针对所有国家/地区计算k

（不包括

$k = i = j$）并且如果$r_{ik} < r_{ij}$那么该国的人口k已包含在总数中$s_{ij}$,$$\begin{对齐} s_{ij} = \sum _{k\in N_{ij}} m_k,\quad N_{ij} = \{k:r_{ik} < r_{ij}\} \end

{对齐}$$^{在哪里$m_k$是该地点的人口}k。^{在计算中$s_{ij}$，所使用的假设是，如果一个国家的首都}k在半径范围内$r_{ij}$

那么该模型包括该国的全部人口k在

$\textbf{V}$

与元素：^{$$\begin{aligned} V_{ij} ={\left\{ \begin{array}{ll} w_{ij}, & \text {node } \textit {j } \text{链接到节点 } \textit{i } \text{带有链接}\\ & \text {具有权重 } w_{ij}\\ 0, & \text {否则}。\end{数组}\对。} \end{对齐}$$(2)}邻接矩阵表示不同国家之间的连接，其中行我

和列

代表不同地点，其值构成进入的游客数量我^{从j。该目的地模型可用于识别不同目的地之间旅游流的模式和趋势，并评估旅游基础设施或其他因素的变化对这些流的影响29,30}。^{通过分析邻接矩阵，旅游规划者和政策制定者可以深入了解不同目的地之间的关系，确定旅游中心并制定战略，以最大限度地提高旅游流量的方式促进和开发这些目的地31,32}。

这些集线器可以从图 1 中的经验数据中直观地观察到。^{1旅行禁令发布后，主要枢纽也被明确界定。通过观察大流行期间的这种行为，旅游中心、经济中心和国家之间的联系变得清晰起来，由于大流行期间实施的旅行禁令，休闲旅行者自然被过滤掉。}这使我们能够确定可以加强旅游基础设施、制定营销策略、发展经济联系并评估旅行者倾向于停留的网络内集群的领域。

图1

(

A.1～C.1^{) 经验数据给出的进入该国的流动流量。(A.2～C.2}) 由经验数据给出的出境流动流量。（使用 Python 使用网络x 和 Basemap 包生成。）。

方法

在旅游流的背景下，采用不同的相似性度量来分析目的地之间的流动通量模式之间的相似性，以比较经验数据和模型。^{为了验证聚类蒙特卡罗模拟，对距离矩阵引入了受控扰动，从而可以在 100,000 个场景中评估聚类性能。}主成分分析（PCA）33,34,

然后应用它来降低维度，同时保留方差，识别捕获数据变异性的主成分并突出集群的结构。

补充文件中提供了有关数据处理和模拟协议的更多详细信息，以确保透明度和可重复性。源和目的地之间的相似性测量相似性的不同方法应用于建模数据和经验数据的迁移通量矩阵。在应用聚类算法之前，应用测量相似性的不同指标，通过降低数据的复杂性将相似的国家分组在一起。首先应用余弦相似度，因为它测量两个向量之间的角度的余弦，并且在自然语言处理中经常使用

36,37,

,³⁹因为它是一种提供区分图像、数据集等的强大方法。因此，余弦相似度可以帮助识别相似国家的旅游流量集群。

其次，皮尔逊相关系数40,⁴¹也被探讨，因为它测量两个向量之间的线性相关性，并且通常用于测量两个变量之间的相关性，在这种情况下测量国家之间旅游流模式之间的相关性。^{它用于衡量两个数据点之间关系的强度。此外，曼哈顿距离通过求和两个向量分量之间的绝对差来测量两个向量之间的距离，这在图像处理中被广泛使用42},43。

欧几里德距离通过取两个向量分量之间的平方差之和的平方根来测量两个向量之间的距离。^{这些距离度量用于评估不同国家之间旅游流模式之间的距离。}因此，通过使用不同的相似性度量进行聚类，可以从建模数据和经验数据中识别旅游流。这可以帮助旅游组织和企业更好地了解游客行为和偏好的模式。例如，具有相似游客流量的国家可能具有相似的文化或经济联系，这可能是营销工作的有用信息。同样，确定具有不同游客流的国家可以帮助确定扩大旅游市场或开发新产品或服务的机会。基于相似性度量的聚类无监督学习算法

然后，聚类可以帮助识别数据中可能不会立即显现的模式和趋势，从而使人们能够更好地洞察可能并不明显的模式和相似性。

结合上述相似性度量所采用的方法有：k 均值聚类、基于密度的噪声应用空间聚类 (DBSCAN) 和层次凝聚聚类 (HAC)。

其中一些方法可以在

44^,45

当应用于人类流动时。注意 HAC 通过迭代合并两个最接近的簇来创建嵌套簇的树状结构。该算法对于分析旅游流很有用，因为它可以识别不同粒度级别的游客集群。^{HAC还可以处理不同类型的距离度量和链接方法，使其灵活地适应不同类型的数据来构建集群的层次结构。}在 HAC 的背景下，病房链接方法通常表现最好，因为它最小化每个簇内的方差并最大化簇之间的方差。存在其他链接标准，例如单一链接、完整链接和平均链接，但病房链接通常会产生最高质量的聚类结果。由于簇内总方差被最小化，因此它会导致更紧凑且分离良好的簇

46。

因此两个簇之间的距离

$C_i$

和

$C_j$

定义为合并后簇内总方差的增加。

计算如下：

$$\begin{对齐} D(C_i, C_j) = \frac{|C_i||C_j|}{|C_i|+ |C_j|} \Vert \bar{x}_i - \bar{x}_j \Vert ^2。\end{对齐}$$(3)同时，DBSCAN用于识别集中在特定区域的游客集群，k-means可用于识别kHAC 非常适合识别不同粒度级别的游客集群，如图 1 所示。

4。要识别热门旅游目的地，DBSCAN 可能是最佳选择，因为它可以识别集中在特定区域的游客集群。另一方面，如果目标是识别不同类型的旅游流，例如文化旅游或探险旅游，HAC可能是最佳选择（表2）。表2病房联动中使用的关键参数说明。请注意，DBSCAN 是一种基于密度的聚类算法，它将高密度区域中彼此靠近的对象分组在一起，同时忽略低密度区域中的对象。该算法提供了无需来自

用户了解集群的数量，并可以识别集中在特定区域的游客集群

47。

然而，如果数据密度不均匀，即使算法非常适合处理噪声和异常值，它也可能无法高效工作。因此，有必要将结果与其他方法进行比较。最后，还应用了 k 均值聚类，因为它将目的地聚集成固定数量（k）基于相似性的聚类。每个目的地都被分配到最近的质心。然后每个质心都基于新的分配48。这是一个迭代过程，当质心不再移动或达到最大迭代次数时停止。注意，欧氏距离通常用于计算两点之间的距离49,

。

该算法对于分析旅游流很有用，因为它可以识别k旅游模式相似的游客群体。

但请注意，k 均值对初始质心的选择很敏感，如果簇分离得不好，它可能无法正常工作。k-means 聚类算法的其他应用可以在客户细分、异常检测等方面观察到51因为它提供了处理大型数据集的计算效率。然而，由于算法对质心的初始放置很敏感，同时还指定了簇的数量

事先，必须观察其他评估以确定

k例如肘部方法（参见随附的代码）。聚类任务的质量评估聚类质量的评估分两个步骤进行：算法实现之前和算法实现之后。首先选择最佳簇数，然后评估所得簇的质量。选择最佳簇数使用簇内平方和 (WCSS)

为了在聚类算法中测量每个聚类内数据的变异性，需要计算每个国家与其最近的聚类中心之间的距离平方和。

此方法称为“肘部方法”，用于确定数据集中的最佳聚类数。这个想法是选择曲线拐点（WCSS 开始趋于平稳）处的簇数量。这表明添加更多簇不会导致平方和显着减少。最优后k然后选择如何通过测量轮廓分数来测量聚类分配的度量53

范围从 -1 到 1，其中分数接近 1 表示更好的分配，其中集群中的国家与集群中的其他国家非常相似。

请注意，分数 0 表示该国家/地区位于集群之间的边界。因此，采用平均轮廓分数来评估经验数据和模拟模型数据的聚类程度。结果见表3特别是对于经验数据，在评估 2019 年和 2021 年的 2 个聚类时，明确使用 HAC 欧几里得距离作为相似性度量会产生最佳聚类。表 3 每年通过相应的聚类方法对数据和模型实现的最高轮廓得分，以及平均轮廓得分以及来自 100,000 次蒙特卡罗模拟（其中将扰动添加到距离矩阵）的相应标准偏差。主成分分析主成分分析 (PCA) 用于识别使数据集中方差最大化的主成分。该技术对于降低数据维数同时保留大部分方差至关重要，从而在不显着丢失信息的情况下简化复杂性。将 PCA 应用于迁移率通量矩阵会产生降维表示，保留对方差影响最大的特征。这组正交的主成分简化了数据结构，有助于更轻松地分析和可视化聚类模式。

数据变化的主要方向，增强经验数据和模型数据之间的比较。每个主成分解释的方差比例计算如下：$$\begin{对齐} \text {主成分解释的方差} = \frac{\lambda _i}{\sum _{j=1}^p \lambda _j} \end{对齐}$$(4)在哪里

$\lambda_i$

是特征值

我-th 主成分，以及p是主成分的总数。这种量化对于确定每个主成分在解释方差方面的重要性至关重要。PCA 的结果如补充文件图 1 和 1 所示。S1,S2，和S3，提供对数据中最重要模式的关键见解，实现更强大的聚类过程，并提供建模和实证旅游流之间的详细比较。

模拟扰动下的聚类行为

为了评估小扰动下聚类结果的稳定性，我们将蒙特卡罗模拟框架应用于迁移通量的变换相似矩阵。

这种方法使我们能够评估聚类分配对微小变化的敏感性，这可能反映了实际的波动。

让

$\textbf{S}$表示国家之间旅游流的原始矩阵，其中每个元素$S_{ij}$表示观察到的国家之间的流量我和国家

。

为了评估相似性，我们首先转换$\textbf{S}$使用距离度量（例如欧几里德距离）来获得距离矩阵

$\textbf{D}$,

$$\begin{对齐} \textbf{D} = d(\textbf{S}), \end{对齐}$$

(5)

在哪里

$d(\cdot )$

表示应用于移动通量的变换操作。

得到距离矩阵后$\textbf{D}$，我们引入了一个小扰动来模拟由于季节性波动或测量噪声等因素造成的相似性的潜在变化。扰动距离矩阵，表示为$\tilde{\textbf{D}}$，给出为，$$\begin{对齐} \tilde{\textbf{D}} = \textbf{D} + \textbf{P}, \end{对齐}$$

(6)在哪里$\textbf{P}$

从均值和方差匹配的正态分布中得出

$\textbf{D}$,

$$\begin{对齐} P_{ij} \sim \mathcal {N}(\mu _{D}, \sigma _{D}^2), \end{对齐}$$

(7)在哪里$\mu _{D}$和$\西格玛_{D}^2$是原始距离矩阵的均值和方差$\textbf{D}$。这确保了扰动反映了转换后数据的固有变异性。用于稳定性评估的蒙特卡罗模拟

为了评估聚类稳定性，我们生成了

$N = 100,000$

扰动矩阵$\tilde{\textbf{D}}_1, \tilde{\textbf{D}}_2, \dots , \tilde{\textbf{D}}_{N}$，每个代表由于随机波动而导致的距离结构的合理变化。

，我们执行凝聚聚类以获得一组聚类标签

$\{L_i^{(n)}\}$

对于每个国家我。

然后通过计算轮廓分数来评估聚类稳定性

$s^{(n)}$

对于每个实验n

，给定为，

$$\begin{对齐} s^{(n)} = \frac{1}{M} \sum _{i=1}^{M} \frac{b_i^{(n)} - a_i^{(n)}}{\max (a_i^{(n)}, b_i^{(n)})}, \end{对齐}$$(8)

在哪里

中号

表示国家总数，$a_i^{(n)}$是国家/地区的平均簇内差异我

，和$b_i^{(n)}$是之间的最低平均差异我

以及任何其他集群。

轮廓分数在所有模拟中进行平均，以提供聚类一致性的总体度量，

$$\begin{对齐} \overline{s} = \frac{1}{N} \sum _{n=1}^{N} s^{(n)}。

\end{对齐}$$

,

$$\begin{对齐} \hat{L}_i = {\text {mode}}(L_i^{(1)}, L_i^{(2)}, \dots , L_i^{(N)}),

\end{对齐}$$

(10)

产生最终的聚类分配

$\帽子{L}_i$这反映了扰动矩阵中最一致的分组。此外，我们计算扰动距离矩阵的平均值，如下所示：

$$\begin{对齐} \overline{\tilde{\textbf{D}}} = \frac{1}{N} \sum _{n=1}^{N} \tilde{\textbf{D}}

_n, \end{对齐}$$⁽¹¹⁾并将主成分分析 (PCA) 和树状图可视化应用于该平均矩阵，以捕获数据可变性的实际条件下的主要聚类模式。

结果^{稳定性和内聚性集群桌子3}展示了 2019 年、2020 年和 2021 年经验数据和模型的聚类性能。该表报告了相应聚类方法获得的最高轮廓得分，以及平均轮廓得分 (

$\text {MC 分数}$^{）和标准差（}$\西格玛$

）来自 100,000 次带有扰动的蒙特卡洛模拟。^{2019 年，聚合聚类（欧几里得距离）获得的最高轮廓得分为经验数据 0.743 和模型 0.769。然而，从蒙特卡洛模拟获得的平均轮廓分数明显较低，为 0.419（数据）和 0.428（模型），相应的标准差为 0.065 和 0.093。较大的标准差似乎反映了扰动下聚类质量的较大变异性。}这与轮廓分数分布中观察到的双峰分布一致，如图 2 所示。²，表明聚类结果在不同的质量水平之间交替。^图2100,000 次带有扰动的蒙特卡洛模拟中轮廓分数的分布，其中直方图说明了不同年份的数据和模型的轮廓分数的变异性。分布反映了扰动下的稳定性和聚类性能。与经验数据相比，建模数据的较高变异性表明该模型对今年的扰动更加敏感，这可能是由于聚类过程中的结构异质性或噪声放大所致。

必须指出的是，双峰行为可能反映了实证数据和建模数据中存在两种不同的聚类机制，其中双峰性表明数据包含两个国家子组；^{一个子组的聚类是明确的，轮廓得分较高，而另一个子组的聚类较弱或更加模糊，轮廓得分较低。2020 年，使用曼哈顿距离 (k=2) 的聚合聚类，经验数据的最高轮廓分数提高到 0.786，模型的最高轮廓分数提高到 0.799。蒙特卡罗模拟的平均轮廓得分为 0.463（数据）和 0.511（模型），与 2019 年相比显示出更高的聚类稳定性。对于数据，标准差降至 0.021，这可能反映了扰动下更一致的聚类性能。}然而，对于该模型，标准差略微提高至 0.090，这反映了聚类的更大变异性，这可以从轮廓分数的双峰分布中看出。

2021 年，经验数据和模型均使用凝聚聚类（欧几里德距离）获得了最高轮廓分数，分别为 0.841 和 0.784。蒙特卡罗模拟的平均轮廓得分为 0.529（数据）和 0.430（模型），标准差分别为 0.017 和 0.039。低标准差可能表明聚类稳定性高，并且对扰动（如 2020 年经验数据）的敏感性最小。这与 2021 年直方图中观察到的单峰分布一致，其中聚类结果是一致的，并且在不同的模拟中没有变化。经验数据取得了历年来最高的平均轮廓得分，进一步强调了其稳定性和明确的聚类结构。结果见表3

与 PCA 可视化和轮廓分数分布很好地吻合。^{尽管在轮廓分数中观察到变异性，但全局聚类结构似乎仍然坚固，正如蒙特卡罗 PCA 图和所有年份一致的蒙特卡罗树状图所证明的那样，与未实施扰动的结果相比，它们保持不变，如图所示无花果。S1,S2}，和^S3。

扰动对聚类稳定性和分布模式的影响

请注意，对于 2019 年，双峰轮廓得分分布所反映的聚类变异性在 PCA 中不太明显，这凸显出即使局部聚类质量发生变化，全局模式也会被保留。

2020 年和 2021 年，PCA 和 Silhouette 评分结果都证实了模型和经验数据中聚类结构的稳定性不断增强。

尽管2019年的可变性突出了潜在的数据异质性或噪声敏感性，但2020年和2021年逐渐稳定的结果强调了该方法的可靠性，尤其是当应用于更均匀的数据结构时。

蒙特卡洛模拟表明，尽管存在扰动，但仍保留了全球聚类结构，从而对方法的强度产生了信心。

蒙特卡洛模拟引起的PCA在图2中介绍。

3这为基于旅游行为提供了对国家聚类动态的见解。这捕获了2019年，2020年和2021年数据中可变性的主要方面。这些可视化量补充了轮廓分数分布，并有助于阐明在不同年份扰动下聚类的模式和稳定性。

图3

使用100,000个蒙特卡洛模拟，该图显示了全年数据和模型的最佳聚类的平均PCA。在2019年，PCA图显示了第一个主要成分（PC1）解释的差异很高，经验数据为92.29％，模型为93.41％。这种高解释的方差表明，旅游行为的可变性最显着的维度集中在一些主要因素上。
这些因素可能包括国家之间的牢固的经济或文化联系，这会推动一致和可预测的旅游流程。经验数据表明，向上倾斜的趋势，表明尽管聚类稳定，但各个国家的旅游行为有一定的分布，反映了较不占主导地位的地区的异质模式。 另一方面，该模型表现出更强的凹入趋势，可能反映了游客流的概括，在这种情况下，聚类方法捕获了全球移动性中更广泛的模式。曲率的差异意味着经验数据包含更本地化或特定于区域的旅游行为，而该模型旨在捕获更广泛的全球趋势。
在2020年，PCA地块反映了COVID-19对旅游流动性大流行造成的破坏。对于经验数据，PC1解释的差异减少到91.74％，模型为90.48％，表明通常在旅游行为的主要优势模式中分解。这种减少表明，在大流行期间，传统的经济和文化走廊被削弱和重组，新的因素正在影响旅游流动。PCA的结果解释了大流行的行动模式的强迫变化，并将灯光放在社会经济网络的脆弱性上，这些网络严重依赖旅游业。因此，2020年的PCA图显示了沿PC1和PC2的数据点的扩散，尤其是对于经验数据。这种增加的差异表明，与今年观察到的轮廓分数的变化相一致，这表明旅游行为的变化更大。积分的散布表明，旅游行为变得较低，国家与典型的聚类模式有所不同。大流行的影响可能迫使游客转向国内或区域旅行，破坏了既定的旅行路线，并导致凝聚力较小。
距离指标和聚类性能由于1920年大流行的严重影响，2020年旅游流动性数据的独特特征由于突然的和不均匀的游客流量减少而引起了巨大的异常值和稀疏性。 因此，2020年经验数据和模型的首选距离度量与其他年份不同。使用曼哈顿距离应用HAC，该距离通过达到更高的轮廓得分来优于欧几里得距离。
这一优势可以归因于曼哈顿距离对绝对差异的依赖，这使其对异常值的敏感程度降低，并确保所有维度都得到平等对待。事实证明，曼哈顿距离特别适合捕获所有国家对的整体变化模式，而不允许极端价值不成比例地影响聚类。与欧几里得距离之间的距离（例如，英国数据丢失的数据）扩大了差异并扩大了异常值的影响，曼哈顿的距离最大程度地减少了误导集群地层的风险。在偏离正常模式（例如大流行）的显着偏差期间，平均处理所有维度至关重要。这符合需要统一考虑所有旅游流程变化的需要，进一步强调了使用曼哈顿距离处理2020年经验数据和模型的重要性。到2021年，经验数据和模型都显示出向上趋势，如图2所示。3，在经验数据中，PC1解释的方差为94.77％，模型为91.57％。
这些高度解释的差异表明，旅游行为在很大程度上稳定，聚集变得越来越稳定和凝聚力，这表明了点沿PC1和PC2的较窄传播。两个数据集中的凹入趋势表明，旅游流程变得更加集中在关键目的地，这反映了全球出行模式的恢复。2021年的经验数据和建模数据之间的相似曲率表明，该模型现在与观察到的旅游行为紧密相符，这表明恢复是可以预测的，并且通过聚类方法可以很好地捕捉。
PCA形状的稳定和PC1解释的高方差表明，国家恢复了其大大大量聚类结构，尽管大流行的某些残留作用仍可能影响PC2中较小的方差。与2019年类似，2021年的经验数据显示出凹入的趋势，这表明一些关键枢纽或走廊驱动旅游流的占主导地位。 建模的数据虽然稍微降低了集中量，但仍继续反映出强大的聚类模式，在保持整体聚类结构的同时捕获了全球移动性趋势。在2021模型的链接方面，平均链接成为比病房链接的首选方法，该方法是2019年和2020年经验数据和2019年模型的首选。
平均连锁的能力产生更均匀分布的数据点会导致分离和紧凑的簇，从而导致更高的轮廓分数。相比之下，强调分离上紧凑性的病房链接倾向于形成过度紧密的簇，这些簇较小，从而导致2021年建模数据的聚类性能较低。使用平均链接允许分布剪影得分，如图2所示。2
在单峰且右尾方面，保持与其经验数据对立的形状相似。必须注意的是，在2020年模型中也表现出了分布中的这种右尾巴行为，这可能会产生一些不利影响。 鉴于HAC产生类似树状的结构，因此在图中介绍的树状图。4
说明了分层聚类过程，揭示了粒度不同的簇。这种视觉表示提供了对多年来聚类行为的结构差异的进一步见解。重要的是，这些树状图是在运行多个蒙特卡洛（MC）模拟后生成的，该模拟将扰动纳入距离矩阵以评估聚类过程的强度和稳定性。他们表明，运行蒙特卡洛模拟后产生的树状图与未添加任何扰动而产生的树状图没有差异。
蒙特卡洛模拟涉及通过引入少量噪声来创建100,000个距离矩阵的变体，该噪声的均值和方差与原始数据相同。该过程用于反映旅游行为的潜在变异性，例如缺失值，测量错误或旅游流的随机波动。 在每个干扰矩阵上进行聚类，并汇总结果以评估在不同情况下始终如一地出现簇。通过平均扰动的矩阵，树状图揭示了最稳定，最强的聚类结构，突出了即使在不同的噪声条件下也持续存在的模式。
这种方法有助于确定尽管数据的自然变异性具有自然变化，从而为结果的可靠性增添了信心。树突图中的分支长度和水平进一步说明了不同年份聚类的颗粒状，从而提供了有关旅游迁移率模式如何变化以及这些模式在受到噪声时的稳定性的见解。蒙特卡洛框架确保了聚类结果不仅是数据瑕疵的文物，而且还反映了基于旅游行为的有意义和韧性的国家。与没有扰动的情况下产生的剪影得分相比，运行MC模拟后平均轮廓分数的显着降低突出了变异性和噪声对聚类质量的影响。
但是，形成的簇保持不变的事实表明，即使数据受到噪声和扰动的影响，全局聚类结构也非常强。轮廓分数之间的这种差异可以归因于轮廓分数对数据中局部变化的敏感性。 在MC模拟期间引入的扰动可能会扭曲一些集群间和群集内距离，从而导致轮廓分数较低。尽管如此，聚类算法成功地保留了簇的核心结构，这是由PCA图和树状图中看到的一致分组证明的。
这意味着，尽管噪声可能会影响当地聚类指标，但它不会破坏国家将整体分配到有意义的集群中。图4
树状图可视化基于100,000个蒙特卡洛模拟后平均迁移率通量。( A.1 A.3）最佳聚类方法的树状图，该方法的剪影得分最高。(
B.1 b.3）最佳聚类方法的树状图，该方法的模型全年具有最高的轮廓分数。数据处理结果还强调了丢失数据的影响，尤其是没有来自英国的旅游流程数据。
英国的排除降低了数据大小并增加了稀疏性，这在使用欧几里得距离时会扩大异常值的影响。该限制在2020年特别明显，在该数据集中的稀疏性和不规则性影响了聚类结果。 为了解决这个问题，使用了曼哈顿的距离，因为它对异常值和违规行为不太敏感。通过总结绝对差异，曼哈顿的距离确保了较强的聚类过程，尽管丢失了英国数据所带来的挑战。
这种调整允许保留有意义的集群结构，保持分析的完整性，并在此期间提供了更清晰的旅游流动性。数据处理协议将在补充文件中详细讨论。我们注意到，排除英国可能导致观察到的聚类性能和度量效率的差异。认识到这一限制对于准确解释我们的结果至关重要。
未来的研究应旨在包括来自所有主要国家的全面数据，以增强模型的实力。讨论 这项研究强调了欧洲社会经济走廊的脆弱性和韧性，尤其是面对诸如Covid-19大流行之类的全球破坏。通过将扰动整合到聚类和PCA分析中，我们的工作为旅游驱动的经济体系的结构动态提供了独特的观点。
一个重要的发现是旅游流动性模式对社会经济差异的敏感性，这是蒙特卡洛聚类和树状图分析所证明的（图。4）。这些结果强调了游客更喜欢具有类似GDP，文化和语言的目的地的趋势，从而增强了区域凝聚力，同时将脆弱性暴露于外部冲击中。通过将受控的噪声引入距离矩阵并运行蒙特卡洛模拟，我们评估了在变异性下聚类的强度。这种方法使我们能够在存在不一致或数据差距的情况下确定旅游流动性的稳定模式。尽管受到扰动，捕获强大的聚类结构的能力为理解社会经济网络的动态提供了更可靠的基础，并为决策者提供了对结果的信心。在这项研究中，没有英国旅游流程数据，这是一个显着的局限性，可能会影响聚类的结果和某些指标的有效性。英国在欧洲的社会经济环境中扮演着关键的作用，尤其是在蓝香蕉经济走廊中，这是一个人口稠密且经济繁荣的地区，锚定了欧洲的经济结构7
。排除该数据会扩大稀疏性并增加对异常值的敏感性，因此需要进行调整，例如在2020年使用曼哈顿距离，这在这些条件下证明更强。 因此，解决数据差距和不一致，我们引入了扰动，以评估聚类的稳定性和适应性。2006年欧盟的政策格局极大地促进了整个大陆的经济走廊的发展和加强。
通过修订TEN-T，里斯本战略，欧洲凝聚力政策和ETC框架，欧盟为更加整合和相互联系的经济领域奠定了基础8,19 号。这些政策共同确保了增强运输和经济基础设施，以支持南欧和东欧的蓝色香蕉和新兴走廊等既定走廊，从而促进了整个欧盟的团结和凝聚力。重要的是要牢记英国在欧洲的影响力，因为它对社会经济动态做出了重大贡献。范德梅尔（Van der Meer）强调了综合经济走廊的重要性，从而增强了欧洲发展。这项研究表明了该系统的脆弱性，并表明需要进行改进以加强经济走廊，以便欧洲的所有地区都同样发展。我们表明，欧洲的某些地区容易在危机期间孤立和排斥。因此，COVID-19暴露了全球和地区经济体系的脆弱性，要求保单持有人采取行动。7
，我们强调需要添加扰动以克服丢失数据的限制。为了使蓝色香蕉多样化并确保红色章鱼经济走廊不会再次崩溃，应鼓励中小型企业（中小型企业），因为它们是创新和经济增长的关键驱动力，这有助于GDP增长 9,
54。通过以英国为例，英国政府认识到中小企业在经济中发挥的关键作用55，因为它们代表了很大一部分就业，并为GDP做出了重大贡献。因此，他们提供了许多方案，例如工作保留计划（休假），小型企业补助金基金（SBGF），冠状病毒企业中断贷款计划（CBILS）等，以帮助大流行后的经济复苏56。
它提供了流动性，阻止了业务关闭并帮助保留了工作，这表明政府的大部分援助确实针对中小型企业，这使英国可以反弹并返回，作为图2所述的诺瑟欧洲的关键经济参与者。1。 从经济角度来看，我们的发现解释了红色章鱼等新兴走廊的脆弱性，在遇险时期，它恢复了蓝色香蕉走廊的稳定性。这种归还强调了有针对性的政策措施的必要性，以加强较小的弹性地区并确保整个欧洲的平衡发展。
结果还强调了中小型企业（SME）在促进弹性和经济复苏中的关键作用。例如，在COVID-19大流行期间，英国通过诸如工作保留计划和小型企业补助的计划对中小企业的有针对性支持，证明55,56。此外，MC PCA结果，如图所示。3
，以及剪影得分的分布，如图所示。2 ，进一步强调了随着时间的推移，旅游流动性的结构性变化，为决策者提供了一种工具，以期预测并应对旅游流的转变。例如，在2021年观察到的集中聚集模式表明，旅游行为稳定，国家正在恢复或保持一致的模式。
然而，如图所示，不同的簇和区域内行进的偏好的持久性，图。4，表明游客偏爱具有相似社会经济和文化特征的目的地。这种偏好与聚类结果一致，这强调了GDP，语言和文化接近性在塑造流动性模式中的作用。它突出了结构性变化，并解释了加强社会经济走廊中国家之间统一性的重要性，如红色章鱼所概述10
,18 ,57。
要保持关键球员，首先应将高价值放在中小型企业中56由于它还可以促进国内消费以及国家之间的运输基础设施。这些发现与加强欧洲的社会经济统一尤其重要。
决策者应优先考虑加强运输基础设施，例如铁路和机场，以增强地区之间的连通性。此外，专注于较小的集群和针对来自类似文化和经济背景的游客可以优化营销策略并改善资源分配。 这些可行的见解对于红色章鱼走廊中不发达的地区尤其重要，这需要有针对性的投资才能符合蓝色香蕉走廊的弹性。因此，在较小规模的情况下，需要更少资金的可行点将是针对其较细的簇，如树状图中所示。
可行的观点是促进中小企业的增长并加强运输基础设施以加强社会经济走廊。轮廓分数分布揭示了三年来旅游行为和聚类表现的关键趋势。2019年，双峰分布突出了旅游行为的异质性，这可能是由各种区域模式，不同水平的旅游发展或外部因素等外部因素驱动的。这种可变性表明两个不同的聚类制度，一组表现出明确定义的簇，另一组显示出更模棱两可的模式。分数的较大传播表明对扰动和迁移动态的潜在差异的敏感性。相比之下，2020年和2021年的分布是单峰的，反映出聚类性能的均匀性和稳定性。
在2020年，较窄的直方图表明，全球旅游行为的一致性很高，这可能是大流行期间普遍旅行限制和健康问题的结果。到2021年，分布变得更加浓缩，峰值表明簇明确，噪声最小。这种进展突出了旅游行为模式的融合，并恢复了大流行前稳定性。
2021年经验数据和建模数据之间的分布对准表明，该模型有效地捕获了恢复轨迹，尽管峰得分的较小差异反映了观察到的模式和建模模式之间的细微偏差。因此，这项研究通过将目的地概念化为多边形来为地理社会空间建模建立工作，从而应用空间分析技术以评估模型在地理社会空间环境中的有效性。我们将目的地视为辐射的单一单体来源。
当前的框架可能会忽略旅游流动性的区域差异并引入偏见，尤其是当Capital Cities在其各自国家内的中央城市不在中心时。此外，国家完全是球形的假设有助于简化模型，因此必须将资本城市用作整个国家的代理。因此，为了解决这些局限性，潜在的改进涉及将该框架扩展到模型，以作为由多个加权单体组成的聚合物，每个聚合物都具有不同的辐射水平。
这种方法将允许沿边界更好地分布辐射，从而通过结合多个加权中心点来增强空间分辨率。但是，实施此改进将需要有关单个单体的空间布置和特征的更多详细数据。数据可用性
支持这项研究结果的数据可从世界旅游组织的旅游统计年鉴中获得，但限制适用于需要购买数据的可用性。源代码可用https://www.github.com/fmuk23/covid19migration-patterns/。
参考Bojorquez，I.，Infante，C.，Vieitez，I.，Larrea，S。，＆Santoro，C。墨西哥的运输和寻求庇护者的移民：对COVID-19的流行病学分析。medrxiv
2020年2025年（2020年）。Ramãrez-Aldana，R.，Gomez-Verjan，J.C.，Bello-Chavolla，O。Y.＆Garcãa-Peã±A，C。关于与墨西哥早期Covid-19死亡率相关的分布，聚类和风险因素的空间流行病学研究。 公共科学图书馆一号16
（7），E0254884（2021）。文章一个考研一个考研中心一个谷歌学术一个
Liu，A.，Vici，L.，Ramos，V.，Giannoni，S。＆Blake，A。在Covid-19的访客到达预测：欧洲团队的观点。安. 旅游。资源。
88，103182（2021）。文章一个考研一个考研中心一个谷歌学术一个 Choe，Y.，Wang，J。和Song，H。中东呼吸综合症冠状病毒对韩国入境旅游业的影响。在
可持续的消费者行为和环境97 113（Routledge，2021）。 Croce，V。＆Wãber，K。W.旅游业中的判断性预测支持系统。旅游。
经济。17 号（4），709 - 724（2011）。文章一个
谷歌学术一个 Bezpalov，V.，Gukasyan，G。＆Okhrimenko，I。经济走廊在大型发展的背景下。创新。
基础设施。Solut。7（4），275（2022）。文章一个谷歌学术一个 Capoani，L.，Bortoletto，G.，Fratini，S.，Van Veen，V。＆Imbesi，C。蓝色香蕉地区的起源和演变。历史。经济。思想政策
2（2022），5â45（2022）。文章一个
谷歌学术一个 Giordano，B。EU地区政策和里斯本：在2006年以后的新范式。opãºblicoe o privado5（10），57â62（2007）。谷歌学术一个 WoåºNiak，M.，Duda，J.，GäSior，A。＆Bernat，T。Poland GDP生长与发展的关系。普罗塞迪亚计算。
科学。159，2470 2480（2019）。
文章一个 谷歌学术一个
Kincses，â。地区。统计。4（2），40â54（2014）。文章一个谷歌学术一个 Kerr，C。C.等。Covasim：基于代理的Covid-19动力学和干预措施的模型。
PLOS 计算。生物。 17 号（7），E1009149（2021）。
文章一个中科院一个考研一个考研中心一个谷歌学术一个南德（A.公共科学图书馆计算。
生物。17 号 （2），E1008684（2021）。文章
一个 ADS一个中科院一个考研一个考研中心一个谷歌学术一个 Hurtado，P。J.＆Richards，C。使用广义线性链Trick＆Markov链理论的建筑平均场ode模型。J.Biol。
动态。15 （SUP1），S248 s272（2021）。文章
一个数学科学网一个考研一个谷歌学术一个
Bullmore，E。＆Sporns，O。复杂的大脑网络：结构和功能系统的理论分析。纳特。 神经科学牧师。10
（3），186 - 198（2009）。文章一个中科院一个
考研一个 谷歌学术一个
De Martino，D.，DallâAsta，L.，Bianconi，G。＆Marsili，M。复杂网络上的拥塞现象。物理。修订版E79（1），015101（2009）。文章一个
ADS一个 谷歌学术一个
De Martino，D.，DallâAsta，L.，Bianconi，G。＆Marsili，M。复杂网络上充血现象的最小模型。J. 统计。机甲。2009年
物理学A第387章 （12），2963 2971（2008）。文章
一个 ADS一个谷歌学术一个
Blaas，W。欧洲空间发展政策的新观点（Routledge，2019年）。
Zahariadis，N。和Buonanno，L。欧洲公共政策手册 （Routledge，2018年）。迈克尔，E。
微群集和网络（Routledge，2006年）。Alonso，W。极端人口的系统流动
卷。155（加利福尼亚大学，城市与地区发展研究所，1971年）。 Alonso，W。位置和土地使用：迈向一般土地租金理论
（哈佛大学出版社，1964年）。Myers，S。A，.Zhu，C。和Leskovec，J。网络中的信息扩散和外部影响。在第18届ACM SIGKDD知识发现与数据挖掘国际会议论文集
33â41（2012）。Tizzoni，M。等。 关于使用人类流动性代理来建模流行病。公共科学图书馆计算。
生物。10
（7），E1003716（2014）。文章一个考研一个
考研中心一个谷歌学术
一个 Alis，C。，Legara，E。F.＆Monterola，C。人类迁移的广义辐射模型。科学。
代表。11（1），22707（2021）。
文章一个 ADS一个
中科院一个考研一个
考研中心一个 谷歌学术一个
De La Roca，J。最初和返回移民的选择：来自西班牙城市的行动的证据。J. Urban Econ。100，33 - 53（2017）。
文章一个 谷歌学术一个
Piovani，D.，Arcaute，E.，Uchoa，G.，Wilson，A。＆Batty，M。使用重力和辐射模型测量可及性。R.苏克。打开科学。5
（9），171668（2018）。文章一个 ADS
一个 数学科学网一个
考研一个 考研中心一个
谷歌学术一个 Simini，F.，Gonzâlez，M。C.，Maritan，A。＆Barabasi，A.-L。一个通用模型，用于移动和迁移模式。自然第484章
，96â100（2012）。文章一个
ADS一个 中科院一个
考研一个
谷歌学术一个 Backstrom，L。，Sun，E。和Marlow，C。如果可以的话，请找到我：通过社会和空间邻近改善地理预测。在第19届世界网络国际会议论文集61 - 70（2010）。 Rosvall，M.，Trusina，A.，Minnhagen，P。＆Sneppen，K。网络和城市：信息视角。物理。
莱特牧师。94（2），028701（2005）。文章一个 ADS一个中科院一个
考研一个 谷歌学术一个
Bagrow，J。P.＆Lin，Y.-R。人类流动性的介观结构和社会方面。公共科学图书馆一号7
（5），E37676（2012）。文章一个 ADS
一个中科院一个

考研

一个

考研中心一个

谷歌学术

一个

Noulas，A.，Scellato，S.，Lambiotte，R.，Pontil，M。＆Mascolo，C。许多城市的故事：人类城市流动性中的普遍模式。
公共科学图书馆一号

7

（5），E37027（2012）。

文章

一个 ADS一个

中科院

一个

考研

一个

考研中心

一个

谷歌学术

一个

Greenacre，M。等。主成分分析。纳特。修订方法引物

（1），100（2022）。

文章

一个 中科院 一个谷歌学术

一个

Abdi，H。＆Williams，L。J.主要组件分析。威利跨学科。牧师。2
（4），433 459（2010）。文章一个
谷歌学术一个 Wold，S.，Esbensen，K。＆Geladi，P。主要成分分析。
化疗。英特尔。实验室。

关于《机器学习分析 COVID-19 对迁移模式的影响》的评论

暂无评论

发表评论

摘要

Farzona Mukhamedova 和 Ivan Tyukin 发表在《Scientific Reports》（Sci Rep）上的题为“Machine Learning Analysis of the Effects of COVID-19 on Migration Patterns”的论文，重点关注使用机器学习技术分析受 COVID-19 大流行影响的迁移模式。以下是所提供参考文献中要点的摘要：### 方法参考：1. **机器学习和聚类技术：**- **“最小簇内平方和划分的启发式程序的比较”**，作者：M.J. Brusco 和 D. Steinley，*Psychometrika* (2007)。- 本文讨论了不同的聚类算法及其在最小化聚类内平方和方面的有效性，聚类内平方和是用于评估聚类质量的常用指标。- **“使用 Silhouette Score 进行聚类质量分析”，** 作者：K.R.Shahapure 和 C. Nicholas，*IEEE 第七届数据科学和高级分析国际会议*（2020 年）。- 作者探索了使用轮廓分数作为评估机器学习应用中集群质量的指标。- **“最小簇内平方和划分的启发式程序的比较”**，作者：M.J. Brusco 和 D. Steinley，*Psychometrika* (2007)。- 进一步强调聚类算法及其在数据划分方面的性能评估。### 应用程序和上下文：1. **疫情对中小企业的影响：**- **“Covid19，你为应对 covid-19 雨天存了一些现金吗？危机和中小企业”**，作者：M. Cowling、R. Brown 和 A. Rocha，*《国际小型企业杂志》*（2020 年）。- 本文探讨了疫情对中小企业的财务影响及其应对经济危机的策略。- **“了解英国 covid-19 中小企业融资的动态”**，R. Calabrese、M. Cowling 和 W. Liu，*《英国管理杂志》*（2022 年）。- 这项研究深入研究了英国中小企业在疫情期间面临的财务挑战，并探讨了它们可用的各种融资形式。### 经济背景：1. **中小企业对GDP贡献的作用：**- **“罗马尼亚商业环境中中小企业在评估创业对 GDP 贡献方面的作用”**，作者：D. Armeanu、N. Istudor 和 L. Lache，*Amfiteatru Econonomic Journal*（2015 年）。- 本文强调了中小企业和创业精神对罗马尼亚 GDP 增长做出贡献的重要性。### 地理环境：1. **东欧和南欧城市的发展：**

机器学习分析 COVID-19 对迁移模式的影响

- “从‘蓝香蕉’到‘红章鱼’以及东欧和南欧城市的发展：华沙和里斯本，” T. Metaxas 和 M. Tsavdaridou，区域和部门经济研究 (2013)

\(\textbf{V}\)

和列

(