2024-12-21 04:17:48 · 英文原文

外汇交易信号：常识和机器学习 |宏观协同

作者：Editor

将宏观交易因素整合为单一信号的两种有效方法是“概念平价”和机器学习。概念奇偶性采用一组概念上独立的标准化因素，并赋予它们相同的权重。机器学习优化模型并按顺序导出权重，可能存在理论限制。两种方法都支持现实的回测。在存在强大的理论先验的情况下，概念对等效果最好。机器学习最适合处理大型同质数据集。
我们应用概念平价和两种机器学习方法，将 2000 年以来发达市场和新兴市场外汇远期的 16 种货币的 11 个宏观量化交易因素结合起来。所有方法得出的信号都是高度显着的预测指标，并产生了重大且不相关的风险调整后的结果交易回报。机器学习方法未能超越概念对等，这可能反映出外汇领域的理论先验丰富，而数据有限且异构。

请引述为“Gholkar、Rushil 和 Sueppel、Ralph，外汇交易信号：常识和机器学习”Macrosynergy 研究帖子，2024 年 12 月。

用于审核和复制研究结果的 Jupyter 笔记本可以在这里下载。笔记本操作需要访问 J.P. Morgan DataQuery 以从 JPMaQS 下载数据。具有 DataQuery 访问权限的每个人都可以下载数据，最近几个月的数据除外。此外，摩根大通还为机构客户提供完整数据集的免费试用。一个学术支持计划赞助研究项目的数据集。

合法信号计算方法

对于这篇文章，区分交易因素和交易信号至关重要。交易因子是一种能够合理预测目标回报方向和幅度的指标。例如，在理性疏忽的假设下，相对经济增长趋势可能是后续外汇远期回报的积极预测因素。交易信号将交易因素组合成一个单一指标，指导交易策略中的定位。

从有效因素中形成信号是制定宏观交易策略的危险步骤。一个常见的陷阱是基于“试验”整个样本的一系列因素对信号进行随意“优化”，然后保留那些表现良好的因素，甚至权衡所有“成功”因素具有过去的预测能力。这种方法不会产生有意义的回测，并且不太可能很好地推广到未来的市场环境。例如，过去的经济周期或经济危机的具体关系可能在下一个周期中不再成立。

为了回溯测试和良好的泛化机会，有两种截然相反但同样有效的方法将因素组合成信号：

概念对等：概念平等仅根据理论先验选择一组主要不同且合理的因素。它将因素围绕其假定的中性水平进行标准化，然后取平均值。没有优化或统计评估。用统计学习术语来说，这种方法具有高偏差但低方差。这意味着信号通常不太适合可用的目标返回样本。然而，如果这些因素的选择具有很强的逻辑性并建立在高质量的数据之上，那么简单的平均信号通常是未来未见数据的稳健预测因子。该方法取决于对宏观和市场的正确判断和理解。它适用于具有明显宏观联系的合约，例如外汇和利率。
顺序机器学习：统计学习方法允许控制因素组合的模型和参数的顺序优化，严格基于截至某个时间点的可用信息。这种方法主要具有低偏差但高方差。历史上作为预测因子失败的预选因素将被丢弃。机器学习用于宏观策略的主要缺点是过度拟合特定时代特定的宏观条件。

在这篇文章中，我们比较了这两种方法，将一组 11 个纯宏观量化因素组合成一个针对 16 种发达国家和新兴市场货币远期的单一信号兑美元或欧元进行交易（详情见下文）。所有货币的因素组合都是相同的，并且基于面板分析。面板是特征或收益类别的数据集，具有两个维度：时间和横截面，即交易日和货币区域。概念均等的标准化和统计学习操作都是基于这样的面板。无论我们估计什么统计数据，我们都会以每个时间点之前的所有国家和所有时期为基础。这意味着我们为了获得更大的统计能力而放弃特定货币区域的规定。整个过程分三步进行：

指定所有期末因素的月度数据面板以及随后的月度目标回报。
基于概念平价或统计学习，根据所有货币区域的单一规则顺序计算信号。
评估预测能力和准确性，并对整个信号组的 PnL 值进行回溯测试。

这里使用的具体宏观量子因素解释如下，但一般来说，它们都是来自摩根大通宏观协同量子系统（JPMaQS）的时间点信息状态。因此，它们适合测试与后续收益的关系以及回测相关交易策略。JPMaQS 也是本分析中使用的所有通用回报的来源。

统计学习方法简述

在这篇文章中，我们为统计学习生成单独的信号 线性回归模型和与 随机森林回归。线性回归更简单、更直观，但也更具限制性，只允许线性关系而没有相互作用。随机森林回归基于回归树，它可以灵活地适应数据，但也不太透明并且受常识控制。对于这两种方法，信号都是基于扩展时间窗口顺序生成的。用于此时间点信号生成的扩展数据集称为 –开发数据集。信号生成的基本过程遵循帖子中解释的原理 –优化宏观交易信号 — 实用介绍—。

首先，我们指定模型和超参数网格包含用于根据因素预测目标回报的所有模型版本。所考虑的模型特定于该方法，并在下面进行解释。
然后，我们设置交叉验证参数，即开发数据集中训练和测试不同模型版本的规则。主要参数是（1）对模型进行评级的标准，以及（2）控制将开发数据集划分为训练集和测试集的交叉验证分割器。这里，模型评估标准是将信号符号应用于定位的程式化夏普比，如通过夏普比率Macrosynergy 软件包的功能。交叉验证拆分器必须尊重数据的面板结构，以创建时间上有凝聚力的训练和测试拆分。为此，我们使用 RollingKFoldPanelSplitMacrosynergy 包的类。它通过使用过去和未来的训练集来预测测试集。拆分器首先针对最短的合格期限（3 年）划分 5 个分区，然后为开发数据集中每增加 3 年的数据添加一个分区。

实际的顺序模型选择和优化信号计算可以通过 Macrosynergy 软件包执行信号优化器班级。它模拟了一个随时间变化的管道，其中在每个重新平衡日期使用 scikit-learn 模型选择和交叉验证类来生成特定远期窗口的回报预测，同时尊重基础数据的面板结构。它是计算预测方法控制模型选择、最佳模型参数估计和信号计算的顺序。

方法一：修正线性回归

基于线性回归的统计学习根据过去的线性关系为信号成分候选分数分配权重，并且对于某些回归类型，删除系数意义不大或符号错误的因素。帖子中解释了基础知识 –基于回归的宏观交易信号—。基于回归的交易信号是经过修改的时间点回报回归预测。

通常建议调整回归系数的统计精度，即解释参数估计的标准误差。更大的样本意味着更精确的系数估计。帖子☀如何调整基于回归的交易信号以确保可靠性－通过使用修正线性回归Macrosynergy 包的类。

为了简单起见，我们使用极简的超参数网格，允许 OLS 和非负最小二乘模型，每个都有或没有截距。如下所示，该信号的所有候选因子均假定具有积极影响且中性水平为零。因此，无截距的非负最小二乘回归是最受理论先验限制的模型，因为它只允许具有理论上保证符号的系数，并假设因子的中性值均已正确设置。

方法二：随机森林回归

随机森林回归是一种流行的集成机器学习方法，它将多个回归树的预测组合成单个信号。回归树是一种决策树模型，它通过将数据递归地划分为子集来预测连续结果。与线性回归不同，它捕获非线性和非单调关系。随机森林对于宏观信号生成的好处和应用已在帖子中进行了解释 -随机森林如何改善宏观交易信号—。

使用 scikit-learn 应用随机森林回归随机森林回归器方法。在这里，我们还考虑强加理论先验的单调约束，这意味着我们将根据理论或常识强制只考虑带有“正确符号”的因素，类似于非负最小二乘法。在 scikit-learn 中，可以使用以下方法为每个因子分配单调约束：单调_cst范围。宽松地说，正单调约束意味着较高的因子值不会对目标预测产生负面影响。至于线性回归，我们使用极简网格，允许选择带或不带正单调性约束的随机森林回归。

将平价和学习应用于外汇远期的宏观因素

目标是为交易 16 种全球发达市场和新兴市场货币的策略构建和评估宏观量化交易信号。该策略的基本思想与之前的文章类似， –通过基于回归的学习来获取外汇交易信号—。然而，在这里，我们（1）交易更广泛的货币，包括新兴市场，并且（2）使用更多的纯宏观量化因素，排除所有市场因素。其想法是使基于纯宏观因素的信号生成方法的比较更能代表资产类别。我们研究两种类型的外汇远期头寸交易：

成交量目标头寸：根据半衰期为 11 天的指数移动平均线的历史标准差，将 1 个月外汇远期头寸调整至风险资本 10% 的波动率目标。头寸在每个月末重新平衡，最大杠杆率为 5（隐含名义头寸与现金头寸）。他们的 PnL 近似为以交易量为目标的外汇回报在 JPMaQS 上。
定向对冲头寸：这些是 1 个月外汇远期头寸，通过持有头寸来对冲方向性风险。全球定向风险篮子。风险篮子包含股指期货、CDS 指数和外汇远期的风险平价头寸。对冲比率是根据过去的敏感性依次估计的。这些头寸的盈亏近似为对冲外汇远期收益在 JPMaQS 上。

该策略持有八种发达市场货币和八种新兴市场货币的远期头寸，两者均以其自然基准货币为基准：

DM 货币：澳元（AUD）、加元（CAD）、日元（JPY）和新西兰元（NZD）兑美元；瑞士法郎（CHF）、挪威克朗（NOK）和瑞典克朗（SEK）兑欧元；以及英镑（GBP）兑等权重的一篮子美元和欧元。
新兴市场货币：墨西哥比索（MXN）、以色列谢克尔（ILS）、韩元（KRW）、泰铢（THB）、新台币（TWD）和南非兰特（ZAR），均兑美元；捷克克朗（CZK）和波兰兹罗提（PLN）兑欧元。

作为交易因素，我们考虑了 11 个复合宏观量化因素，每个因素都代表了货币回报的合理预测因子，并且每个因素都根据 JPMaQS 中的宏观量化类别根据基本理论进行计算。计算因子时，假定它们对本币多头头寸回报的影响为正，且中性水平为零：

国际责任趋势：国际负债记录居民对非居民的对外金融负债。由于偿债和挫折风险不断增加，它们的积累应该会对随后的当地货币回报产生负面影响。宏观量化因素是负债率平均年化变化的负数，基于最新公布的月份与 2 年或 5 年移动平均值（文档在这里）。
外部余额比率：宽松地说，外部收支衡量的是货物、服务和其他流量的进出口之间的差异。盈余表明长期购买压力，赤字表明本币长期抛售压力。宏观量化因素是经常账户和基本对外收支的平均值、1 年移动平均值，占 GDP 的比重（文件这里和这里）。
外部平衡趋势：外部盈余上升或赤字下降通常表明货币区竞争力的提高。宏观因素对短期趋势的几个常规指标进行平均：季节性调整后的商品贸易平衡比率（占GDP）的3个月比3个月和6个月比6个月的变化，以及12个月的当期变化近三个月账户余额比率（文档在这里）。
CPI相对超额通胀压力：消费者价格通胀高于央行目标支持货币紧缩和对货币走强的容忍。该因素着眼于各种通胀压力指标与当地央行估计的有效通胀目标之间的差异（文档在这里）相对于基准货币区。通胀指标包括总体 CPI 通胀率（占一年前的百分比）（文档在这里) 和 % 6 个月以上 6 个月，经季节调整的年化值 (文档在这里），核心消费者物价指数（CPI）通胀率比一年前的百分比（文档在这里) 和 % 6 个月以上 6 个月，经季节调整的年化值 (文档在这里），以及未来 1 年、2 年和 5 年通胀预期（文档在这里）。
相对超额 PPI 通胀：当地产出价格的相对上涨表明竞争力提高并支持货币走强的容忍度。该因子以三个月移动平均线的形式对两个概念上不同的年农产品价格通胀率相对于有效通胀目标和相对于基准货币区的差异进行平均。基本通胀率是整个经济范围内估计的产出价格增长（文档在这里）和工业生产者出厂价格增长（文档在这里）。
相对失业率下降：在其他条件相同的情况下，当地劳动力市场的相对紧缩预示着未来货币政策的相对紧缩。该因子对当地经济的不同回顾范围内季节性调整后的失业率的负年化变化进行平均，并减去基础货币区域中的相同指标。变化幅度为较前三个月变化 3 个月、较前 6 个月变化 6 个月、较前一年变化（文档在这里）。
相对实际私人信贷增长：在其他条件相同的情况下，信贷增长强劲的国家可能会出现货币状况相对收紧的情况。这里的实际信贷增长是本币区年度私人银行信贷增长之间的差额（文档在这里）和有效通胀目标。该因素是本币区相对于基准货币区的实际信贷增长率。
相对实际 GDP 增长预测：本币区 GDP 增长强劲预示着货币政策收紧和外国投资增加。该因子采用相对于基础货币领域同等指标的 3 个月移动平均线中年度 GDP 增长的两个量化“即时预测”的平均值。即时预测方法是直观的 GDP 增长估计（在这里查看文档）和技术 GDP 增长估计（在这里查看文档）。
工业生产相对增长：可贸易商品产出增长强劲往往表明竞争力更强，货币升值空间更大。该因子对两个工业生产增长率进行平均并减去基础货币区的工业生产增长率。指标为工业生产增长率，较上年同期百分比，3 个月移动平均值（文档在这里）和前 6 个月的 % 6 个月，经季节性调整（文档在这里）。
制造信心提升：制造业景气改善预示着当地工业需求和竞争力的改善。该因子平均季节性调整后的制造业企业信心得分的年化变化（文档在这里）。变化为较前三个月变化 3 个月，较前 6 个月变化 6 个月，或相当于季度变化。
贸易条件改善：这些是出口价格相对于当地经济进口价格变化的变化。贸易条件的改善往往先于经济表现优异、资本流入和积极的经济消息，所有这些都支持货币走强。该因子是基于 3 个大宗商品的贸易条件变化的平均值，即较一年前的百分比、最近一个月与前 1 年平均值的百分比以及最近一周与前 4 周的百分比平均的（文档在这里）。

上述因素在概念上都是不同的，理论上都是积极的外汇远期回报预测因素。在过去 25 年里，它们的互相关性大多不大。与相对经济增长相关的信息状态之间以及相对 CPI 和 PPI 通胀率之间存在一定的正相关性。

各种方法信号计算的快速总结

我们通过概念平价和上述两种机器学习方法，根据 11 个宏观量化因素计算以成交量为目标和对冲的外汇远期头寸的信号。

对于 概念平等，我们首先根据到各自时间点的面板标准差将每个因子围绕其零值进行标准化。然后，我们取所有可用因子得分的平均值并重新标准化它们。对于以波动量为目标的和对冲的外汇远期头寸，概念平价信号是相同的。

为了修正线性回归基于学习，我们将 11 个归一化因子得分作为特征传递给两个连续过程：一个用于交易量目标头寸，另一个用于对冲头寸。目标分别是波动性外汇远期回报和对冲外汇远期回报。下图显示，自 2003 年该流程启动以来，主导模型一直是无截距的非负最小二乘面板回归。这意味着基于回归的学习更喜欢限制性最强的模型选项，强调了机器学习与宏观因素之间的急剧偏差-方差权衡：随着宏观环境的季节变化（高通胀、危机等），如果赋予模型更多的灵活性，模型方差会不成比例地增加。

按降序排列，对基于波动率的外汇头寸的回归信号影响最大的因素是相对失业率下降、制造业信心变化、相对CPI通胀压力、相对行业增长、国际负债下降和相对实际GDP增长。对冲外汇头寸的权重相似，尽管在这种情况下，外部余额比率也发挥了作用。

对于随机森林基于学习过程，我们将 11 个归一化因子得分作为特征传递给目标仓位和对冲仓位的学习过程。与基于线性回归的学习一样，历史上首选的随机第一回归模型是限制性更强的模型，即对因素的影响具有有效符号限制的模型。

下面的时间线方面显示了根据三种方法的以交易量为目标的外汇远期头寸的标准化和缩尾化（三个标准差）复合信号。总体中期趋势相似。学习信号似乎更加不稳定，反映了模型和参数变化带来的额外差异。此外，基于线性回归的学习似乎会产生更胖的尾巴，即更频繁的极端信号值。

在对冲外汇远期头寸的情况下，一般学习信号和特别是基于回归的信号的更大可变性也很明显。它反映了学习与平价相比的一个自然缺点：模型变化是信号变化的来源，与随后的市场条件和回报没有合理的关系。

比较针对成交量目标头寸的预测能力和回测盈亏

像往常一样，我们通过预测能力的重要性、方向预测的准确性和简单的程式化损益来评估信号质量。对于 2003-2024 年整个样本期，所有类型的复合信号对 16 种货币面板都显示出高度显着的预测能力以每月或每季度的频率。请注意，显着性概率是通过使用宏观协同小组测试并考虑跨期和横截面预测关系。

重要的是，在样本期的前半段和后半段也记录了高度显着的正相关关系。从 Pearson 前向系数来看，概念奇偶信号的预测关系最强，随机森林次之。

在所有方法中，信号相对于月度回报后续方向的准确度和平衡准确度均远高于 50%。同样，概念奇偶信号的比率最高，超过 53%，其次是随机森林信号，约为 52.5%，线性回归信号低于 51.5%。

已为所有信号生成了朴素盈亏和“仅做多”风险平价账簿（所有 16 种“小国”货币的波动性目标头寸）。这些是基于根据所有 16 种货币的信号进行的每月头寸重新平衡。月末分数是假设交易存在 1 天滑点的情况下下个月持仓的基础。朴素的盈亏不考虑交易成本、风险管理或复利。对于图表而言，PnL 的年化波动率为 10%。

所有类型的宏观信号都带来了重大的风险调整回报，并且与市场基准之间存在适度的相关性（如果有的话）。概念性平价策略得出的 2003-2024 年夏普比率为 1.2，索尔蒂诺比率为 1.8，与标准普尔 500 指数的相关性约为 13%，与美国国债和欧元兑美元回报率几乎没有相关性。该策略的季节性较为温和，表现最好的 5% 月份占整体损益的比例不到 50%。基于随机森林的信号产生了 1.0 的长期夏普比率和 1.4 的索提诺比率，与所有基准的相关性接近于零，并且具有适度的季节性。基于线性回归的信号提供的夏普比率和索尔蒂诺比率分别为 0.7 和 1.0，并且具有更大的季节性，大部分盈亏发生在 2007-10 和 2020-23 危机期间。

概念奇偶信号的优异表现并不罕见。缺乏优化和完全依赖常识是一个可以很好地推广到未来的过程。然而，概念平等的成功关键取决于因素的选择和质量。与学习过程不同，没有经验过滤器。就外汇而言，基于理论生成因子相对容易，因为有大量经济理论可供参考。在其他情况下，例如部门股权配置，宏观影响的经济理论很难得到。在这种情况下，宏观因素更具推测性，机器学习方法更有可能优于简单的概念平价。

同时，在外汇面板上使用统计机器学习的一个缺点是经济体和外汇市场的异质性。当潜在（经济）因素与目标回报之间的关系相似时，面板模型效果最佳。遗憾的是，发达国家和新兴市场国家在货币政策、经济结构、数据质量和汇率制度方面自然存在巨大差异。仅在发达市场外汇面板的单独测试中，统计学习方法相对于概念平价信号的表现会更好。

比较对冲头寸的预测能力和回测盈亏

对冲外汇头寸消除了货币远期回报对全球风险市场表现的系统性中期依赖，从而更加关注特殊的货币走势。然而，对冲从来都不是完美的，我们通常用“基差风险”取代不需要的方向性风险，即由于对冲比率估计不准确而导致头寸与全球风险的零星正相关或负相关。贝塔——。

三种信号类型与后续对冲外汇远期收益的预测关系为正且高度显着每季度或每月一次，尽管强度不如波动目标头寸。此外，除了线性回归信号的 2003-2013 年期间仅达到 70% 的显着性概率外，在两个半样本期间都可以发现显着的预测关系。

准确率和平衡准确率也都在50%以上。随机森林信号达到了略低于 53.5% 的最高比率，其次是概念奇偶校验信号（53%）和线性回归信号（接近 51%）。

价值生成大大低于波动率目标头寸的情况，反映了基差风险的缺点以及波动性新兴市场货币在不适用波动率目标的投资组合中的主导地位。2000年代的低PNL在很大程度上反映了2004 - 07年ZAR大量下降的影响。基于森林的随机策略记录了风险调整后最高的回报，长期的夏普和排序比率为0.5和0.6，与所有风险基准的近零相关性。该策略非常季节性。例如，在样本期的头五年中，PNL没有阳性。概念平价信号的结果非常相似。

关于《外汇交易信号：常识和机器学习 |宏观协同》的评论

暂无评论

发表评论

摘要

### 总结：外汇策略中宏观信号的预测能力和回测表现#### 成交量目标头寸：1. **概念奇偶校验信号**：- **预测关系**：在季度或月度频率上呈强正相关且高度显着。- **准确度/平衡准确度**：约 53%。- **朴素盈亏表现**：- 夏普比率：1.2- 索蒂诺比率：1.8- 与标准普尔 500 指数的相关性：~13%- 与美国国债和欧元兑美元回报率的相关性：接近于零- **季节性**：适度，表现最好的月份贡献的总损益不到 50%。2. **随机森林信号**：- **预测关系**：季度或月度频率为正且高度显着。- **准确度/平衡准确度**：约 52.5%。- **朴素盈亏表现**：- 夏普比率：1.0- 索蒂诺比率：1.4- 与所有基准的相关性：接近于零- **季节性**：温和，与全球风险基准的相关性接近于零。3. **线性回归信号**：- **预测关系**：季度或月度频率为正且显着。- **准确度/平衡准确度**：低于 51.5%。- **朴素盈亏表现**：- 夏普比率：0.7- 索蒂诺比率：1.0- **季节性**：较高，大部分回报发生在危机时期（2007-10 和 2020-23）。#### 对冲头寸：1. **概念奇偶校验信号**：- **预测关系**：季度或月度频率为正且高度显着。- **准确度/平衡准确度**：约 53%。- **朴素盈亏表现**：- 夏普比率：低于成交量目标头寸- Sortino Ratio：类似于随机森林信号的长期性能- **季节性**：较高，前五年没有正损益。2. **随机森林信号**：- **预测关系**：季度或月度频率为正且高度显着。- **准确度/平衡准确度**：略高于 53%。- **朴素盈亏表现**：- 夏普比率：0.5- 索蒂诺比率：0.6- **季节性**：非常高，样本期的前五年没有正损益。### 主要观察结果：- **概念平价信号**：由于其简单性和对经济理论的依赖，通常在以成交量为目标的位置上优于机器学习信号。- **随机森林信号**：与概念平价相比，表现出一致的表现，但风险调整后的回报较低，特别是在对冲策略中。- **线性回归信号**：对于两种类型的位置，提供三种方法中最低的精度和平衡精度。### 建议：1. **成交量目标头寸**：- **概念平价策略**：非常适合捕捉系统性风险并产生与全球风险市场相关性较低的一致回报。2. **对冲头寸**：- **随机森林信号**：尽管季节性较高，但由于其强劲的性能而受到青睐，尤其是在避免基差风险方面。3. **一般注意事项**：- 对于具有异构经济体的外汇面板，机器学习方法可能表现不佳概念平价信号，除非数据集仅限于发达市场。- 在经济理论不太稳健的情况下（例如，部门股权分配），机器学习方法由于其经验过滤器可能会优于概念均等。＃＃＃结论：信号类型的选择取决于外汇面板的具体特征和投资目标。概念平价在以交易量为目标的策略中提供了简单性和强大的性能，而随机森林等统计方法提供了一种平衡的方法，具有较低的风险调整回报，但减少了全球风险的暴露。

OC