作者:华泰期货陈辰
摘要:
本篇报告作为量化资产配置系列研究的第一篇报告,重点介绍最优资产配置模型的核心逻辑。阐述投资组合有效前沿的方法论,并选择华泰商品策略指数2.0进行实证研究。资产配置模型具有非常良好的通用性和灵活性,既能适应不同投资约束条件,有方便融合主观投资逻辑,对投资决策发挥关键作用。
在方法论介绍部分,我们引出有效前沿的基本原理,并提出差分进化算法优化计算有效组合。对于有效前沿计算所需的数据,我们指出历史数据和模拟数据同等重要,缺一不可。对于数据模拟的算法,我们提出MCMC法和Resample法的同时运用,可以起到互相验证方法论正确性的关键作用;另外,我们还提出判断算法有效性的重要定性标准,包括组合配置优化收敛性判断、最优组合成分权重变化连续性和最优组合对风险变化的敏感性三个方面。
在数据测试环节中,我们选择了华泰商品策略指数2.0体系下的四个风格指数作为研究对象,且选择两段时间区间进行对比研究,分别是2013年1月-2022年2月和2017年4月-2019年12月。两段时期下,MCMC和Resample法的有效前沿边界基本趋同,且给出的权重分布平滑性、趋势性和连续性均强于全历史样本法,效果明显改进。最后,我们发现不同历史时段确实都有自己独特的历史行情,若干独立的极端行情事件本身很难在未来复现,采用蒙卡算法或重复采样算法可以尽量规避这些“小概率”事件对投资组合研判的干扰,从而预设合理的投资目标,最终在真实市场环境中实现投资目标。
一、引言
马科维茨(Markowitz)在1952年的组合投资研究( Markowitz, H., (1952), “Portfolio Selection,” Journal of Finance, 7, 77–91)为现代资产配置奠定了(定量)理论基础。他将投资的过程抽象为两个步骤:
(1)通过分析历史数据,形成对交易工具的未来投资回报判断。“ ...starts with observation and experience and ends with beliefs about the future performances of available securities...”
(2)根据对未来投资收益判断,通过投资组合实现投资目标。“...starts with the relevant beliefs ... and ends with the selection of a portfolio”
尽管最为人熟知的部分是上述投资过程中的第二步,特别是mean-variance有效组合分析内容,而其体系中包含大量关键细节在随后的研究及金融实践领域才逐渐被投资人发掘,并投入了大量资源进行研究和投资应用。
举个例子,对于历史数据的研究,一般会有如下几种应用场景:
(1)对投资工具的历史收益率和相关性数据建模。涉及到的问题包含(不限于):样本空间大小(投资工具可选性);有无多因子模型(数据维度);数据历史长度(Informative Priors可信赖度);预期收益率估算误差(金融统计量稳定性及敏感性)等。
(2)极端小概率事件特征挖掘。涉及到的问题:金融工具在极端情况下的最大跌幅;极端条件下,不同金融工具间的尾端相关性;估算极端事件出现频率;甚至还会因为历史数据太少而无法直接构建风险模型等。
(3)市场风格演变。市场风格是资产配置的核心要素,通常也称为市场beta,beta因子等。在不同的经济循环周期,或金融市场成熟度阶段,不同的市场风格具有差异显著的预期投资回报率和风险程度。而历史上相似的经济及金融环境往往对应相似的市场风格表现;同理经济发展预期也成为了未来风格投资预期的重要依据。然而,如何准确描述市场风格,并实现有效投资却并非易事。
综上,我们看到抽象而简明的投资逻辑在进入投资实践阶段后,实际上需要科学的方法论指导和严谨客观的数据测试来支撑,并充分考虑未来市场的不确定性。充分的投资风险分散化,在一定约束条件下的组合优化模型是最可信赖的(定量)投资基础。然而,注定在投资的道路上,模型和投资人都不可避免的将不断见证各种新的历史行情事件,遇到新的问题。
但是,套用一句俗语,“办法总比问题多”。比如,估算投资组合有效前沿是资产配置模型中有较高难度的工作,尽管其核心逻辑并不复杂,且有大量成熟代码,但是在实际应用过程中却可能存在各种具体问题,我们举例说明。
首先,如何保证建模使用数据的代表性?历史数据往往只是历史发展阶段的痕迹,本身并不会简单重复,那么选取哪一时段数据来建模,或是否需要全部数据建模都将是一个现实的问题。从我们研究实践来看,完整历史数据的测试是必不可少的步骤。同时在全历史数据基础上结合一定主观判断挑选的历史数据段可以给出较优的样本外表现。
其次,有效前沿计算数据应来自历史数据还是蒙卡数据?答案是这两类数据都需要。历史数据的优点在于,客观属性强,其包含的外在政经影响和市场博弈等现象都真实发生过。但同时,对具体历史事件的特异性偏向(bias)却有可能在未来不再复现,所以一般而言,重复采样技术(resample)需要伴随使用才能获得可实现的投资有效前沿。 蒙卡数据可以较好解决历史数据量不足的问题,便于获得更完整更准确的预期收益分布,也划定了真实投资情境中“大概率”可以实现的投资目标。同时,其灵活度较高,随机数模型参数可以很大程度上根据投资需要或投资预判来设定或调整。简言之,马科维茨提到的投资人具有的“relevant beliefs”,大部分都可以在这里通过模型选型和参数设置,转变成定量结果。但是这两种数据方法的缺点也很明显,重复采样和蒙卡技术都涉及到大型数据测试,通常计算能力已经很难胜任这项工作。大型服务器,或计算机集群技术(Computer Cluster)则是解决问题的方向。
另外,上述两种不同方法的结果,还起到了互相验证方法论正确性的关键作用。对于具有较长历史数据的投资工具,这两种方法应该给出趋同的结果(有效前沿形状、组合IR变化率、最优权重分布等);特别地,最优组合的权重分布随波动率变化应该连续变化,且定性上保持一致,定量上趋同。进而,我们才能确定模型超参数的合理设置范围。而在模型超参数已处于合理区间的情况下,如果两种方法的测试结果却差异明显,则意味着保证模型适用性的某些前置条件无法满足,如数据量严重不足,或历史数据特异性偏向干扰,或蒙卡模型不具备表征市场特征能力等。但无论如何,这些问题的解决将为实战化模型提供了优化方向。
从本文开始,我们将对资产配置模型做不断深入的研究,并将研究结果应用到不同的资产配置组合场景中,包括但不限于商品投资组合;商品策略指数组合;CTA基金组合;商品&股指期货风格策略组合;FOF组合等。从投资维续时长(Investment Horizon)的角度,随后的研究将从长期投资方法过度到中短期投资模型;从战略(静态)配置逐步深入到战术(动态)投资,最终包括对冲组合研究。我们将看到资产配置模型具有非常良好的通用性和灵活性,不仅适用于绝大多数资产配置场景,并且在适应投资约束条件, 融合主观投资逻辑等方面都能发挥重要作用。
二、方法论介绍
根据本文需要,我们介绍必要的组合投资概念,重点关注投资实践的需要而非理论的完整性。对于非关键性概念,我们将在文中涉及到的时候再做进一步说明。
2.1投资有效前沿(Efficient Frontier)
有效前沿是由一组优化投资组合构成,他们实现在风险目标确定条件下的最高预期收益率,或收益目标确定条件下的最小风险程度。
对于大多数真实投资场景来说,优化组合需要满足适当的约束条件。比如,商品投资领域需要考虑流动性承载问题,对于流动性较差的品种一般会设置权重上限,进而保证实现配置目标,同时有利于提升策略投资容量。
从技术角度来说,前沿拟合不同于随机数分布拟合, 其拟合的对象是“边界”,所以一般需要根据边界的特征采用合理的拟合方案。对于投资有限前沿来说,我们知道最关键的边界特征是来自理论和实践需要的连续性和凸性。为此我们采用可变参数内核法(Kernel Estimation of Varying-Coefficient Model)。该方法具有较优的灵活性,在数据驱动的优化模式下,得到较好的前沿拟合效果。更为重要的是,内核本身就可以平滑化入参数据,可以得到光滑(可导)的拟合边界。这一点对于后续投资配置极为关键,因为最优组合的投资目标能否实现就是要看组合权重是否具有稳定性,并且投资效率对于市场风险变化保持较低的敏感性。而这些信息的主要挖掘来源,就是分析组合有效前沿的连续性及高阶导数特征。
2.2 优化组合算法
投资组合的成分大多具有较高的相关性。举例来说,一个投资组合的成分全部来自同一类资产,如股票多头组合;商品板块组合等,各成分之间就具有真实的相关性(经济学意义上)。而实际情况可能更为复杂。比如CTA基金组合投资中, 因为若干基金历史数据较短,可能彼此之间在存续期内表现出较高的相关性,但也许只是其主要投资的不同市场风格在短期内表现趋于同步,而非真实的或长期稳定的相关性。(这类问题一般需要对基金做更深入的风格归因分析。)
上述问题对于投资最优组合选取有明显干扰。举例来说,投资工具A和B的预期收益率和波动率都比较接近,那么最优组合分配权重为{1:0; 0.5:0.5; 0:1}几乎都没有太大区别。换句话说,寻找全局最优组合是一个多值问题而非单一最优值问题。而且在这种情况下,投资人还会深入比较投资工具A和B的其他区别,比如收益率高阶统计量(偏度和峰度)的优劣,尾端跌幅大小等。所以,通常的二次规划及优化算法并不能涵盖全部组合优化问题。另外,金融数据的噪音程度较高,也进一步限制了在二次规划问题中较为有效的梯度类最优算法的计算优势。
我们将采用差分进化算法(Differential Evolution)实现最优投资组合选取。该算法属于一类遗传算法,利用多次迭代的方法,通过每轮次计算中代表成员的“表现”来确定下一轮优化选取的代表成员。尽管该算法名字有一定误导性,但是其优化的过程并不需要目标函数可导甚至连续,从而广泛适用于各类全局最优解问题,特别是高噪音随机系统问题。缺点是,对数据量要求较高,同时算法收敛效率较低。所以,该算法的应用,将主要针对蒙卡数据或重复采样数据,核心优化部分代码进行并行化处理。
2.3 蒙卡算法(MCMC)和重复采样算法(Resample)
(1)蒙卡算法(MCMC)
MCMC算法是马尔可夫链蒙特卡罗方法的简称,它是由两个MC构成,分别指蒙特卡罗方法和马尔可夫链。基本原理为,建立一个以π为平稳分布的马尔科夫链,对这个链运行足够时间后,可以达到平稳状态,此时马尔科夫链的值就相当于在分布π(x)中抽取样本,该算法的核心在于利用马尔科夫链进行随机模拟。
第一个“MC”是指蒙卡模拟法,它假设概率分布是已知的,通过采样获得概率分布的随机样本,得到符合该概率分布的样本后,可用于估计总体分布、总体期望、计算积分等。蒙特卡罗方法的核心是随机采样,蒙特卡罗方法一般有概率密度采样、接受拒绝采样、重要性采样等。
第二个“MC”是指马尔科夫链,它的一个重要性质就是平稳分布,简而言之,主要统计性质不随时间而变的马尔科夫链可以认为是平稳的,根据马尔科夫链收敛定理,当步长足够大时,一个非周期且任意状态联通的马尔科夫链可以收敛至一个平稳分布π(x),这个定理是所有MCMC方法的理论基础。
之所以需要将蒙卡模拟法和马尔科夫链结合起来,是因为当随机变量是多元的、密度函数是非标准形式、随机变量各分量不独立等情况出现时,一般的蒙特卡罗方法就难以解决,此时需借助于马尔科夫链的平稳分布来实现对复杂后验分布的抽样。
(2)重复采样算法(Resample)
重复采样法是当给定的训练集样本(包含N个)数量较少,不能够很好地反应数据的真实分布时,在原有的训练数据集中多次随机选取n个样本数据(n 2.4 算法有效性判断 定量测算并不能脱离定性(甚至常识)判断。而对于复杂问题,有时候情况可能更糟,往往由于模型过度简化,或约束条件不真实,定量结果似是而非,一时之间难以判断结果的有效性。同时,因为组合优化配置理论体系庞大,涉及方法众多,非专业人员一般也很难全面把握问题全貌。策略研发或投顾建议极易出现一叶障目,而回避其他关键问题。为此,我们提出若干简单实用的有效性判断标准,对模型测试效果和投研结论可靠性做定性判断,并随后在我们定量测试中践行,这些标准也有助于一般投资人以更专业的眼光来看待组合投资研究成果: A.组合配置优化收敛性判断。 B.最优组合成分权重变化连续性。 C.最优组合对风险变化的敏感性(投资目标实现难度)。 接下来,我们举例说明。 上图是我们针对有色金属板块分析最优组合投资结果。自上而下,四种色条分别代表镍、铝、银、铜在对应风险目标(年化波动率;横轴)下的最优组合权重分布。 首先,左右两图都是在其他测试条件完全相同的情况下,只改变风险程度的分辨率和每一个风险程度上蒙卡组合的数量(均为模型超参数),得到的最优配置组合结果。左图上,大致可以看出不同品种权重随最大风险容忍度变化的趋势。但是,权重变化节奏难言连续,实际上权重分布上“毛刺”很多,即使在一定风险范围内做权重均值也可能带来较大估算误差。所以,我们判断左图配置优化过程并未最后收敛,于是提高分辨率并增加蒙卡数量,最终得到右图结果。 右图中,权重分布与左图表现出一致性,参数优化无疑指向收敛方向。而其权重变化趋势更加明确且保持连续性;同时,在风险较低区间配置较多铜,而风险较高区间过渡到高配镍也符合常识性判断。所以,我们认为右图对应的组合优化结果已经收敛,而左图结果并未收敛其计算结果不能指导投资应用。 为了进一步说明上述定性判断的重要性,我们依然采用上述案例,分析有效前沿的梯度特征。 这里我们看到了明显的差异,未收敛结果存在两个风险敏感度较低的区间:年化波动率14%-15%和大于17%的部分。收敛结果也存在两个风险敏感度较低区间:波动率15%-16%和大于17%的部分。如果,我们采用了未收敛的结果,并且投资风险较低的那段区间(波动率14%-15%),则很有可能在真实场景下正好投资了风险敏感度较高的区间,也就是说权重的微小变化就有可能导致投资回报的较大风险差异,而根据上文对未收敛结果的分析我们已知权重分布结果误差已比较大,那么投资目标将更难实现。可以说在组合优化计算未收敛的情况下,配置结果几乎没有任何指导价值(更准确地说,是具有误导性),且预期投资的风险程度几乎不可控,而这些本应都是投资决策需要解决的关键问题。 最后基于收敛结果,比较容易确定较优的投资风险目标应锁定在波动率15%-16%之间,且因为权重变化连续性较好,那么采用接近波动率15%附近的权重分布大概率可以实现风险目标,且存在一定几率获得更优的投资回报。在组合优化模型的收敛结果支撑下,各项投资预期数据具有较高可靠性,投资目标实现的可能性较高。 (此模拟数据测试使用 Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz,30核,160GB RAM,耗时约20小时) 三、2013-2022年的数据测试结果 3.1有效前沿结果 2021年底,我们对外发布了华泰期货商品策略指数2.0,作为升级版的商品策略指数,在指数1.0的基础上对风格因子和板块类型进一步地优化和扩充,最终形成了由长周期动量、短周期动量、期限结构与偏度共同构成的商品风格系列指数体系。本文作为资产配置量化专题系列的第一篇,选择华泰商品策略指数2.0体系下的这四个风格指数作为研究对象,探讨其有效前沿。 研究过程中,我们选择了两段时间区间进行对比研究,分别是2013年1月-2022年2月和2017年4月-2019年12月,依据在于后者所处的宏观背景与2021年至今的相似度较高,对其深入探讨或给予当下投资者更多的启示。 (此模拟数据测试使用 Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz, 30核,160GB RAM,耗时约15小时) 测试结果如下图所示,根据图5的有效前沿结果,MCMC和Resample基本拟合,可以运用。四个风格指数中,偏度指数临近MCMC和Resample的有效前沿,属于低风险低收益资产;长周期动量指数临近全历史样本法给出的有效前沿,属于高风险高收益资产。因此,偏度指数和长周期动量指数是期间内值得跟踪投资的策略指数。相较而言,短周期动量指数和期限结构指数的投资效果相对较差,前者风险最高,后者收益最低,属于高风险低回报的策略。 基于图6的收敛结果,对于华泰期货商品策略指数2.0而言,大致可以确定较优的投资风险目标应锁定在5%-6%的年化波动率上。由于权重变化的连续性较好,意味着这个风险区间内的权重分布大概率可以实现风险目标,且存在一定几率获得更优的投资回报。相较而言,波动率在6%-8%的区间为不可投资区间,因为梯度明显陡峭化,反映投资效果对风险变动的敏感度较高,预期投资目标实现的可靠性较低。 根据图7的IR结果,MCMC和Resample基本拟合,给定相同波动率的情形下,低于全历史样本法的值。三种方法给出的IR均与投资组合波动率保持反比关系,即实现越优异的投资效果,难度越大。同时, 在排除了历史数据中异常值干扰后,有效的、大概率可实现的投资目标区间显著缩短。 3.2 马科维茨最优权重 图8-10分别展示了该阶段下,三种方法计算的权重分布结果,从上至下依次是期限结构指数、偏度指数、短周期动量指数及长周期动量指数。相较全历史样本法的结果而言,MCMC和Resample得到的结果趋于一致,权重的分布平滑性、趋势性和连续性均更强,表明所得权重结果可以直接应用。权重分布图给出的资产配置方向为,在风险较低区间需适度增配偏度风格指数,高配期限结构指数,降低动量风格的暴露比重;而在风险较高区间需适度增配动量风格暴露,降低偏度和期限结构指数的配置比重。 四、2017-2019年的数据测试结果 4.1有效前沿结果 根据我们对有效前沿结果的有效性判断,MCMC和Resample算法结果均已收敛。 (此模拟数据测试使用 Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz, 30核,160GB RAM,耗时约8小时) 四个指数中仅期限结构指数最临近全历史样本法给出的有效前沿,属于中风险高收益资产;在相近的收益水平上,长周期动量指数展示出较短周期动量表现更高的波动;在相近的风险水平上,短周期动量指数又表现出较长周期动量指数更低的收益。综合而言, 2017年-2019年期间,短周期动量指数成为了投资效果最差的指数策略,期限结构则成为投资效果最优的指数策略。 基于收敛结果,对于华泰期货商品策略指数2.0而言,大致可以确定较优的投资风险目标应锁定在5%左右的波动率上。由于权重变化的连续性较好,意味着采用波动率5%附近的权重分布大概率可以实现风险目标,且存在一定几率获得更优的投资回报。相较而言,波动率在6%以上的区间为不稳定的投资目标区间,因为梯度明显陡峭化,反映投资效果对风险变动的敏感度较高,预期投资目标实现的可靠性较低。 根据图13的IR结果,MCMC和Resample虽存在差异,但表现基本相似。给定相同波动率的情形下,3%以下的波动率区间,MCMC和Resample的IR值高于全历史样本法;3%以上的波动率区间,MCMC和Resample的IR值低于全历史样本法。MCMC和Resample给出的IR均与投资组合波动率保持反比关系,即实现越优异的投资效果,难度越大,同时,在排除了历史数据中异常值干扰后,有效的、大概率可实现的投资目标区间显著缩短。全历史样本法给出的IR与更合理算法的差异较大,并不可信。所以,我们认为在真实投资条件下,想要达到全历史样本展示的最优IR几乎不可能。MCMC和Resample给出的结果较为可信,它们说明,随着波动率的升高,投资回报IR将会迅速降低。 4.2 马科维茨最优权重 图14-16分别展示了该阶段下,三种方法计算的权重分布结果,从上至下依次是期限结构指数、偏度指数、短周期动量指数及长周期动量指数。相较全历史样本法的结果而言,MCMC和Resample得到的结果趋于一致,权重的分布平滑性、趋势性和连续性均更强,表明所得权重结果可以指导投资应用。权重分布图给出的资产配置方向为,在风险较低区间需适度增配偏度风格指数,高配期限结构指数,降低动量风格的暴露比重;而在风险较高区间需适度增配动量风格暴露,降低偏度和期限结构指数的配置比重。 五、结论 本篇报告中,我们选择了华泰商品策略指数2.0体系下的四个风格指数作为研究对象,探讨其组合投资有效前沿。同时,我们选择两段时间区间进行对比研究,分别是2013年1月-2022年2月和2017年4月-2019年12月,以期给予当下投资者更多的启示。 首先,我们注意到,如果只是用全部历史数据(Full)进行测试,这无异于简单的历史行情“复盘”。实际上,配置模型也并不能带来比人工复盘更具启发性的结果,反而有可能得到非常令人困惑的结论。比如对比2013-2022年和2017-2019年的结果,我们看到,为了达到高风险目标区间(对应较高收益率), “似乎”最优组合权重将集中于完全不同的风格。在2013-2022年,最优组合权重集中于长周期指数;而2017-2019年则又几乎全部集中于期限结构指数。于是,投资人得到一个似是而非的结论,金融市场永远都在变化过程中且难以预料,所以没有永远有效的投资逻辑,投资取得正向回报完全靠猜测下一个风口是否能赌对。 事实当然并非如此。尽管市场风格变化或者极端行情是大多数投资人都无法逃避的经历,但是,正确的投资逻辑可以带来持续正向的投资回报,关键是要使用正确的方法,规避已知的且明确的风险来源。专业的解释依然需要较强的背景知识和更充分的测试结果支撑,我们将留待后续研究报告讨论。但在这里我们不妨结合现有的测试结果,对比上述两个时间段,考察最优组合配置结果带给我们的最直观启示(MCMC和Resample结果趋同,如无特别说明下文不做区分)。 不难发现,配置的核心逻辑是如何正确处理组合投资风险。首要步骤就是要设置合理的风险目标。对于上述案例,投资的风险目标适合锁定在年化波动率5%左右,这样利用风格指数进行配置的难度并不大。因为这一段风险区间在不同时间段,都处于整个投资有效前沿的中前段,风险程度相对较低(降低投资组合整体风险);且最优权重变化带来的风险差异不大,也都属于风险差异低敏感区域(规避风险变化不可控)。同时,这一风险区间也对应着组合中各指数权重较为分散化的阶段,即使在不同年份,不同指数有明显的最优权重差异,但是都不存在权重过度集中的状况(规避风格赛道拥挤风险)。相反,在有效前沿两端,在不同时段需要对特定风格指数集中权重才能达到相应的投资目的,对投资人的行情预判能力和投资出入场时间点选择都有较高专业门槛,投资目标实现难度明显更大(规避投资实现风险)。 不同历史时段确实都有自己独特的历史行情,若干独立的极端行情事件本身很难在未来复现,而尽量规避这些“小概率”事件对投资组合研判的干扰,正是我们采用蒙卡算法,或大量重复采样算法的初衷。通过海量模拟可能出现的市场场景,给出最高概率反复出现的历史(模拟)行情,进而构建最优投资组合。这就大大降低了我们仅仅根据近期行情,或极端行情而做出非理性投资的错误决策(规避情绪化交易风险)。同时,因为这一类算法是根据“大概率”会出现的市场行情进行投资组合优化,大大缩短了真实投资可实现的有效前沿范围。所以,即使在投资有效前沿两端,投资权重分布依然有相对较好的平衡性,极大避免了因一段时间内资金集中在若干短期热门品种,而有可能导致的极端风险事件(规避单一品种的黑天鹅事件)。 而在真实投资过程中,如果叠加一定的专业投资判断,增加表现较优指数的投资权重,也可以通过较低换手率的市场交易来平稳过渡到最优配置持仓(规避过度交易风险)。最后还需要指出,商品风格指数是通过捕捉商品市场的系统性风险敞口,利用投资长期有效的beta类型因子,来获取风险溢价收益,其有效性并不会像alpha因子那样容易在短期内失效,本身就是值得长期配置使用的投资产品(规避策略失效风险)。同时,风格指数本身覆盖全市场,仅根据商品品种合约的流动性做一定限制,组合配置的资金容量巨大,投资属性接近权益类的指增策略(规避投资标的稀缺风险)。进一步,商品风格指数编制规范透明,建仓调仓过程均有明确交易指导,适合跟踪复制(规避投资过程的黑盒子风险);并且还可以在此商品指数的基础仓位上叠加多样化的投资策略,在风险可控范围内,进一步提升投资收益回报。
关键词:
资产配置