作者:Editor
将宏观交易因素整合为单一信号的两种有效方法是“概念平价”和机器学习。概念奇偶性采用一组概念上独立的标准化因素,并赋予它们相同的权重。机器学习优化模型并按顺序导出权重,可能存在理论限制。两种方法都支持现实的回测。在存在强大的理论先验的情况下,概念对等效果最好。机器学习最适合处理大型同质数据集。
我们应用概念平价和两种机器学习方法,将 2000 年以来发达市场和新兴市场外汇远期的 16 种货币的 11 个宏观量化交易因素结合起来。所有方法得出的信号都是高度显着的预测指标,并产生了重大且不相关的风险调整后的结果交易回报。机器学习方法未能超越概念对等,这可能反映出外汇领域的理论先验丰富,而数据有限且异构。
请引述为“Gholkar、Rushil 和 Sueppel、Ralph,外汇交易信号:常识和机器学习”Macrosynergy 研究帖子,2024 年 12 月。
用于审核和复制研究结果的 Jupyter 笔记本可以在这里下载。笔记本操作需要访问 J.P. Morgan DataQuery 以从 JPMaQS 下载数据。具有 DataQuery 访问权限的每个人都可以下载数据,最近几个月的数据除外。此外,摩根大通还为机构客户提供完整数据集的免费试用。一个学术支持计划赞助研究项目的数据集。
对于这篇文章,区分交易因素和交易信号至关重要。交易因子是一种能够合理预测目标回报方向和幅度的指标。例如,在理性疏忽的假设下,相对经济增长趋势可能是后续外汇远期回报的积极预测因素。交易信号将交易因素组合成一个单一指标,指导交易策略中的定位。
从有效因素中形成信号是制定宏观交易策略的危险步骤。一个常见的陷阱是基于“试验”整个样本的一系列因素对信号进行随意“优化”,然后保留那些表现良好的因素,甚至权衡所有“成功”因素具有过去的预测能力。这种方法不会产生有意义的回测,并且不太可能很好地推广到未来的市场环境。例如,过去的经济周期或经济危机的具体关系可能在下一个周期中不再成立。
为了回溯测试和良好的泛化机会,有两种截然相反但同样有效的方法将因素组合成信号:
在这篇文章中,我们比较了这两种方法,将一组 11 个纯宏观量化因素组合成一个针对 16 种发达国家和新兴市场货币远期的单一信号兑美元或欧元进行交易(详情见下文)。所有货币的因素组合都是相同的,并且基于面板分析。面板是特征或收益类别的数据集,具有两个维度:时间和横截面,即交易日和货币区域。概念均等的标准化和统计学习操作都是基于这样的面板。无论我们估计什么统计数据,我们都会以每个时间点之前的所有国家和所有时期为基础。这意味着我们为了获得更大的统计能力而放弃特定货币区域的规定。整个过程分三步进行:
这里使用的具体宏观量子因素解释如下,但一般来说,它们都是来自摩根大通宏观协同量子系统(JPMaQS)的时间点信息状态。因此,它们适合测试与后续收益的关系以及回测相关交易策略。JPMaQS 也是本分析中使用的所有通用回报的来源。
在这篇文章中,我们为统计学习生成单独的信号 线性回归模型和与 随机森林回归。线性回归更简单、更直观,但也更具限制性,只允许线性关系而没有相互作用。随机森林回归基于回归树,它可以灵活地适应数据,但也不太透明并且受常识控制。对于这两种方法,信号都是基于扩展时间窗口顺序生成的。用于此时间点信号生成的扩展数据集称为 –开发数据集。信号生成的基本过程遵循帖子中解释的原理 –优化宏观交易信号 — 实用介绍—。
方法一:修正线性回归
基于线性回归的统计学习根据过去的线性关系为信号成分候选分数分配权重,并且对于某些回归类型,删除系数意义不大或符号错误的因素。帖子中解释了基础知识 –基于回归的宏观交易信号—。基于回归的交易信号是经过修改的时间点回报回归预测。
通常建议调整回归系数的统计精度,即解释参数估计的标准误差。更大的样本意味着更精确的系数估计。帖子☀如何调整基于回归的交易信号以确保可靠性- 通过使用修正线性回归Macrosynergy 包的类。
为了简单起见,我们使用极简的超参数网格,允许 OLS 和非负最小二乘模型,每个都有或没有截距。如下所示,该信号的所有候选因子均假定具有积极影响且中性水平为零。因此,无截距的非负最小二乘回归是最受理论先验限制的模型,因为它只允许具有理论上保证符号的系数,并假设因子的中性值均已正确设置。
方法二:随机森林回归
随机森林回归是一种流行的集成机器学习方法,它将多个回归树的预测组合成单个信号。回归树是一种决策树模型,它通过将数据递归地划分为子集来预测连续结果。与线性回归不同,它捕获非线性和非单调关系。随机森林对于宏观信号生成的好处和应用已在帖子中进行了解释 -随机森林如何改善宏观交易信号—。
使用 scikit-learn 应用随机森林回归随机森林回归器方法。在这里,我们还考虑强加理论先验的单调约束,这意味着我们将根据理论或常识强制只考虑带有“正确符号”的因素,类似于非负最小二乘法。在 scikit-learn 中,可以使用以下方法为每个因子分配单调约束:单调_cst范围。宽松地说,正单调约束意味着较高的因子值不会对目标预测产生负面影响。至于线性回归,我们使用极简网格,允许选择带或不带正单调性约束的随机森林回归。
目标是为交易 16 种全球发达市场和新兴市场货币的策略构建和评估宏观量化交易信号。该策略的基本思想与之前的文章类似, –通过基于回归的学习来获取外汇交易信号—。然而,在这里,我们(1)交易更广泛的货币,包括新兴市场,并且(2)使用更多的纯宏观量化因素,排除所有市场因素。其想法是使基于纯宏观因素的信号生成方法的比较更能代表资产类别。我们研究两种类型的外汇远期头寸交易:
该策略持有八种发达市场货币和八种新兴市场货币的远期头寸,两者均以其自然基准货币为基准:
作为交易因素,我们考虑了 11 个复合宏观量化因素,每个因素都代表了货币回报的合理预测因子,并且每个因素都根据 JPMaQS 中的宏观量化类别根据基本理论进行计算。计算因子时,假定它们对本币多头头寸回报的影响为正,且中性水平为零:
上述因素在概念上都是不同的,理论上都是积极的外汇远期回报预测因素。在过去 25 年里,它们的互相关性大多不大。与相对经济增长相关的信息状态之间以及相对 CPI 和 PPI 通胀率之间存在一定的正相关性。
我们通过概念平价和上述两种机器学习方法,根据 11 个宏观量化因素计算以成交量为目标和对冲的外汇远期头寸的信号。
对于 概念平等,我们首先根据到各自时间点的面板标准差将每个因子围绕其零值进行标准化。然后,我们取所有可用因子得分的平均值并重新标准化它们。对于以波动量为目标的和对冲的外汇远期头寸,概念平价信号是相同的。
为了修正线性回归基于学习,我们将 11 个归一化因子得分作为特征传递给两个连续过程:一个用于交易量目标头寸,另一个用于对冲头寸。目标分别是波动性外汇远期回报和对冲外汇远期回报。下图显示,自 2003 年该流程启动以来,主导模型一直是无截距的非负最小二乘面板回归。这意味着基于回归的学习更喜欢限制性最强的模型选项,强调了机器学习与宏观因素之间的急剧偏差-方差权衡:随着宏观环境的季节变化(高通胀、危机等),如果赋予模型更多的灵活性,模型方差会不成比例地增加。
按降序排列,对基于波动率的外汇头寸的回归信号影响最大的因素是相对失业率下降、制造业信心变化、相对CPI通胀压力、相对行业增长、国际负债下降和相对实际GDP增长。对冲外汇头寸的权重相似,尽管在这种情况下,外部余额比率也发挥了作用。
对于随机森林基于学习过程,我们将 11 个归一化因子得分作为特征传递给目标仓位和对冲仓位的学习过程。与基于线性回归的学习一样,历史上首选的随机第一回归模型是限制性更强的模型,即对因素的影响具有有效符号限制的模型。
下面的时间线方面显示了根据三种方法的以交易量为目标的外汇远期头寸的标准化和缩尾化(三个标准差)复合信号。总体中期趋势相似。学习信号似乎更加不稳定,反映了模型和参数变化带来的额外差异。此外,基于线性回归的学习似乎会产生更胖的尾巴,即更频繁的极端信号值。
在对冲外汇远期头寸的情况下,一般学习信号和特别是基于回归的信号的更大可变性也很明显。它反映了学习与平价相比的一个自然缺点:模型变化是信号变化的来源,与随后的市场条件和回报没有合理的关系。
像往常一样,我们通过预测能力的重要性、方向预测的准确性和简单的程式化损益来评估信号质量。对于 2003-2024 年整个样本期,所有类型的复合信号对 16 种货币面板都显示出高度显着的预测能力以每月或每季度的频率。请注意,显着性概率是通过使用 宏观协同小组测试并考虑跨期和横截面预测关系。
重要的是,在样本期的前半段和后半段也记录了高度显着的正相关关系。从 Pearson 前向系数来看,概念奇偶信号的预测关系最强,随机森林次之。
在所有方法中,信号相对于月度回报后续方向的准确度和平衡准确度均远高于 50%。同样,概念奇偶信号的比率最高,超过 53%,其次是随机森林信号,约为 52.5%,线性回归信号低于 51.5%。
已为所有信号生成了朴素盈亏和“仅做多”风险平价账簿(所有 16 种“小国”货币的波动性目标头寸)。这些是基于根据所有 16 种货币的信号进行的每月头寸重新平衡。月末分数是假设交易存在 1 天滑点的情况下下个月持仓的基础。朴素的盈亏不考虑交易成本、风险管理或复利。对于图表而言,PnL 的年化波动率为 10%。
所有类型的宏观信号都带来了重大的风险调整回报,并且与市场基准之间存在适度的相关性(如果有的话)。概念性平价策略得出的 2003-2024 年夏普比率为 1.2,索尔蒂诺比率为 1.8,与标准普尔 500 指数的相关性约为 13%,与美国国债和欧元兑美元回报率几乎没有相关性。该策略的季节性较为温和,表现最好的 5% 月份占整体损益的比例不到 50%。基于随机森林的信号产生了 1.0 的长期夏普比率和 1.4 的索提诺比率,与所有基准的相关性接近于零,并且具有适度的季节性。基于线性回归的信号提供的夏普比率和索尔蒂诺比率分别为 0.7 和 1.0,并且具有更大的季节性,大部分盈亏发生在 2007-10 和 2020-23 危机期间。
概念奇偶信号的优异表现并不罕见。缺乏优化和完全依赖常识是一个可以很好地推广到未来的过程。然而,概念平等的成功关键取决于因素的选择和质量。与学习过程不同,没有经验过滤器。就外汇而言,基于理论生成因子相对容易,因为有大量经济理论可供参考。在其他情况下,例如部门股权配置,宏观影响的经济理论很难得到。在这种情况下,宏观因素更具推测性,机器学习方法更有可能优于简单的概念平价。
同时,在外汇面板上使用统计机器学习的一个缺点是经济体和外汇市场的异质性。当潜在(经济)因素与目标回报之间的关系相似时,面板模型效果最佳。遗憾的是,发达国家和新兴市场国家在货币政策、经济结构、数据质量和汇率制度方面自然存在巨大差异。仅在发达市场外汇面板的单独测试中,统计学习方法相对于概念平价信号的表现会更好。
对冲外汇头寸消除了货币远期回报对全球风险市场表现的系统性中期依赖,从而更加关注特殊的货币走势。然而,对冲从来都不是完美的,我们通常用“基差风险”取代不需要的方向性风险,即由于对冲比率估计不准确而导致头寸与全球风险的零星正相关或负相关。贝塔——。
三种信号类型与后续对冲外汇远期收益的预测关系为正且高度显着每季度或每月一次,尽管强度不如波动目标头寸。此外,除了线性回归信号的 2003-2013 年期间仅达到 70% 的显着性概率外,在两个半样本期间都可以发现显着的预测关系。
准确率和平衡准确率也都在50%以上。随机森林信号达到了略低于 53.5% 的最高比率,其次是概念奇偶校验信号(53%)和线性回归信号(接近 51%)。
价值生成大大低于波动率目标头寸的情况,反映了基差风险的缺点以及波动性新兴市场货币在不适用波动率目标的投资组合中的主导地位。2000年代的低PNL在很大程度上反映了2004 - 07年ZAR大量下降的影响。基于森林的随机策略记录了风险调整后最高的回报,长期的夏普和排序比率为0.5和0.6,与所有风险基准的近零相关性。该策略非常季节性。例如,在样本期的头五年中,PNL没有阳性。概念平价信号的结果非常相似。