导读
1、作为西学东渐--海外文献推荐系列报告第四十二篇,本文推荐了David Byrd, Sourabh Bajaj, and Tucker Hybinette Balch于2019年发表的论文《Fund Asset Inference Using Machine Learning Methods: What’s in That Portfolio?》。
2、在只有大型共同基金的历史资产净值下,要想找基金持有哪些股票是很费时的。例如要从500只股票中构建一个股票数为30的投资组合,那么可能的股票组合将有C(500,30)或1.4×10^48种,即便使用当今性能最高的计算器来推断成分股也需要数百万年。
3、针对计算费时的问题,本文除了扩展现有的线性克隆方法(Extended Linear Clones Method)外,还引入了一种新的顺序振荡选择方法(Sequential Oscillating Selection Method),通过“智能”的方式探索股票池,从而能更快的找到投资组合成分股。这些解决方案在金融领域有许多潜在的应用,例如检测基金经理的财务装饰,或者基于大型基金持仓预测所开发的套利策略等。
4、根据不同的持仓问题,扩展线性克隆算法运行耗时3到4秒,准确度分布在6.8%至72.5%之间,表明传统线性克隆算法的延伸不能很好地处理成分股未知时的基金持仓预测。顺序振荡选择算法运行耗时8到15秒,准确度分布在88.2%至98.6%之间,在计算上虽然比ELC慢,但它在一般的笔记本电脑上只需10秒即可完成,且分类精度的提高也很显著。
风险提示:文献中的结果均由相应作者通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在失效的风险。
一、引言
在只有大型共同基金的历史资产净值下,该如何得知基金持有哪些股票?要想找到一组精确的答案是很费时的,例如要从500只股票中构建一个股票数为30的投资组合,那么可能的股票组合将有C(500,30)或1.4×1048种,即便使用当今性能最高的计算器来推断成分股也需要数百万年。为了解决计算费时的问题,本文除了扩展现有的线性克隆方法(Extended Linear Clones Method)外,还引入了一种新的顺序振荡选择方法(Sequential Oscillating Selection Method)。这些方法可以检测基金的财务装饰,或者构建基于大型基金持仓预测所开发的套利策略。本文通过预测ETF的成分股来测试这些方法的有效性,根据不同的持仓问题,扩展线性克隆算法运行耗时3到4秒,准确度分布在6.8%至 72.5%之间,表明传统线性克隆算法的延伸不能很好地处理成分股未知时的基金持仓预测。顺序振荡选择算法运行耗时8到15秒,准确度分布在88.2%至98.6%之间,在计算上虽然比ELC慢,但它在一般的笔记本电脑上只需10秒即可完成,且分类精度的提高也很显著。
在给定一组投资组合价值时间序列的情况下,对于一个成分个数未知的投资组合,我们的目标是预测其具体成分股和权重。考虑一个具体的例子:给出大型共同基金的历史资产净值(NAV),那么该基金持有了标准普尔500指数中哪些股票?权重是多少?这个问题的解决方案有许多实际的应用,例如检测财务装饰,基金可能在报告截止日期之前重新安排其投资组合,以显示其持有信誉良好的股票,而实际上却一直持有风险资产。而能预测持仓的投资者可以在重要的持仓披露日期之前先调整自己股票的仓位,从而在披露后获取利润(被动指数投资者为了复制指数会跟着调整自己的仓位)。
从过去的研究来看,Sharpe(1992)解决了预测基金暴露于哪些广泛资产类别的问题。Edirisinghe(2013),Chen和Kwon(2012)以及其他人解决了指数跟踪的问题(假设投资组合的成分是先验已知的)。然而,我们的方法是在事先不知道任何额外信息的情况下推断出具体的资产及其权重。我们所知道的资讯只有股票池中每只股票的每日收盘价,以及目标投资组合的每日净资产。
本文的第一个方法是基于Hasanhodzic和Lo(2007)的线性克隆方法。原本的线性克隆方法是在成分股C已知的情况下,模型能估计出组合的权重W。我们的扩展是在应用线性克隆方法获得权重W之前先预测出成分股C。换句话说,现有技术采用已知的C去估计W,而我们扩展了这个问题,即如果不知道成分股C该如何操作?在第二个方法中我们结合了Sharpe与一种机器学习技术—顺序前向选择(SFFS)算法(Somol等人,1999),通过“智能”方式探索候选投资组合,从而能更快的找到有效的子集。模型的目标是预测共同基金的持仓,以ETF作为示范(尽管ETF有更丰富的数据,但我们假设可用的数据只有每日资产净值和定期的持股披露),我们通过预测ETF的成分股来测试这些模型的有效性。
二、背景和相关工作
在本文中,我们对SFFS技术(Somol等人,1999)进行了一些修改,目标是在已知日常资产净值的情况下推测基金的持仓情况。方法的关键改进是提出一个预测投资组合成分股的模型,而不是仅预测风险因素或资产类别的广泛克隆。
大型对冲基金(管理资产超过1.5亿美米)和所有共同基金每季度都需要向证券交易委员会报告其重要持股情况。不受强制性报告约束的对冲基金也可能会主动将其部分或全部持股进行披露(Agarwal等人,2015年)。这些披露的时间点已被证明能显著影响公开资产的交易量及价格,因为投资者急于购买或出售由高绩效基金增加或减少的股票(Croci和Petrella 2015; Agarwal等2015)。若能在公告之前使用公开数据正确的推断出基金的持有标的,除了较小的市场进入或退出风险外,投资者还能获取潜在的回报且没有内幕交易的问题(Frank等人,2004)。
Kacperczyk,Sialm和Zheng(2006)研究了未观察到的行为对共同基金的影响。他们根据先前披露的持股情况计算预期回报,并将其与基金的实际回报进行比较,并以回报的差距作为基金经理操作绩效的衡量标准。他们的工作除了评估隐藏成本(回报差距,交易费)与隐藏收益(临时交易)之间的相关性外,还探讨了利用这种回报差距来预测共同基金业绩的可能性。
Meier和Schaumburg(2004)在使用投资组合持仓作为业绩衡量标准时发现了一些共同问题,例如缺乏持股的详细进入/退出日期,在披露时间点之间的收益与前期披露的持股数据所计算的收益不相符,还有将资金用于自己的投资组合,故意调整披露时间的内容,以掩盖基金的实际投资策略等。先前的文献已经评估了资产披露的效果,而我们的目标是提供算法来预测公开的内容。
在Sharpe(1992)的研究中,他将共同基金分解为几种资产类别,如成长股,债券,大盘等。我们使用类似的方法,但使用更细的分类,即单只股票。Fung和Hsieh(1997)使用相同的技术对对冲基金进行主成分分析(PCA),产生了良好的结果,但仍然是在投资风格和资产类别的水平上,而不是单只股票。
Hasanhodzic和Lo(2007)探索了线性克隆的方法,使用回归方法拟合对冲基金可能暴露的某些风险。回归中的每个因子代表整个资产类别,例如标准普尔500指数,美国债券市场或美米等(类似于Sharpe早期的工作),相应的回归系数代表该类别的权重。在他们的工作中,针对输入数据测试了两种变体:使用整个基金历史(称为固定权重)或者使用在预测时间之前的24个月(称为滚动窗口)。尽管创建的大部分组合都不如实际的对冲基金,但其在运算性能的表现让他们的探索显得非常有意义,也值得进一步研究。我们通过改进他们的滚动线性克隆方法,将预测资产类别扩展为预测基金持有的个股。
我们的目标是填补前述研究的空白,在仅使用目标基金的每日收盘价或净资产值,以及股票池中所有股票的每日收盘价的情况下,提供一种方法预测出基金的持仓和权重。
三、投资组合持仓预测
目标投资组合P可以是每日NAV已知的任何基金。包括共同基金,ETF,指数或其他可获得日常信息的资产。使用指数跟踪ETF的公开数据进行实验和测试,以样本内的跟踪误差作为损失函数。
四、模型方法概述
4.1
扩展线性克隆方法
我们选择线性克隆方法(Hasanhodzic和Lo 2007)作为我们的第一种模型。传统线性克隆方法假定投资组合成分股是已知的,因此我们必须放宽该假设。我们将对线性克隆方法的修改称为扩展线性克隆(ELC)方法。
线性克隆方法假定成分股C是已知的,然而我们并没有这样的先验资讯,因此我们必须修改该方法。我们使用相同的线性回归,但允许可变数量的自变量(因为股票在投资组合中的数量是未知的)。不像Hasanhodzic和Lo,我们不限制回归的系数总和为1。相反,在分析过程中我们将系数的总和作为模型合理性的检验指标,我们期待它应该自然地非常接近1。线性克隆扩展的具体流程显示在图表1中。
相对于线性克隆方法假设暴露的股票数量是固定的,扩展线性克隆最重要的变化是其能容纳的股票数量是变动的。从计算效率来看,即使是一个现实世界中的组合(投资组合规模30至80,股票池大小500或1000),它的运算效率也非常快。所以我们将迭代所有可能的成分股个数,范围从1到U(整个股票池)并选择样本内跟踪误差最小的组合作为最终的模型,我们将跟踪错误定义为每日资产净值(对于预测P和真实P)的误差平方和(RMSE)。为了避免该方法总是选择整个股票池作为最终模型,我们强制要求入选最终模型的股票其权重必须达到0.1%。
4.2
顺序振荡选择方法
在ELC方法中,每个系数(股票权重)都被用作衡量目标股票对投资组合的重要性。该系数基本上是一个分数,而且只有最高得分的N支股票会被保留。在其他投资组合权重推理的方法中,多种评估个股权种重要性的方法被一一提出(例如,系数×波动率,系数×股票时间序列的RMSE等)。在某些情况下,这些评分方法确实能改善结果,但在ELC下并非如此,因此本文还是直接以简单的系数作为衡量标准。
ELC的一个潜在弱点是在衡量投资组合的适应度时,模型所选择的个股可能不会是最优的。例如在N = 2时,先对整个股票池做一次回归,选择两只系数最高的个股最为最终的模型。事实上,如果单独从整个股票池中遍历挑选两只股票进行适应度测试,则得到的最优C可能会有所不同。若引申到N = 1到M,要单独遍历所有组合是非常费时的。
顺序振荡选择(SOS)算法的目标是提高传统ELC算法的预测能力,即在维持一定的运算效率下,允许更多潜在候选组合的探索。 SOS方法的思路类似于机器学习领域中的特征选择(Pudil,Novovicova,和Kittler 1994),给定一组可以预测未来结果的特征,这些特征的哪种组合能提供最好的预测能力?
SOS源自Pudil,Novovicova和Kittler(1994)描述的SFFS。SOS首先单独测试每个因子以找出哪个因子是预测效果最好的。接着在保留第一个因子的情况下,从剩余的因子集合中加入第二个因子并测试哪种组合的拟合效果最好。该方法一次增加一个因子直到结果无法改善,然后从模型中开始一次减少一个因子直到结果无法改善,接着再开始添加因子,一直反复振荡操作直到拟合效果没有进一步的改进为止。
类似于ELC的方式, SOS使用线性回归寻找股票池中的最优子集,以RMSE衡量误差,目标是极小化RMSE。前向算法通过不停的增加股票这种迭代方式以优化当前规模为N的投资组合,保留RMSE最佳的N + 1只股票的投资组合。当前向算法无法进一步降低RMSE时,执行后向算法,即通过不停的减少股票这种迭代方式以优化当前规模为N的投资组合,保留RMSE最佳的N - 1只股票的投资组合。当后向算法无法进一步降低RMSE时,再次执行前向算法。当两个算法都无法进一步改善RMSE时,便确定了最终的投资组合。SOS算法具体流程如图表2所述。
五、实证方法与结果
本文在Python 3.5中,利用numpy和scipy(Jones等人,2001年)实现了ELC和SOS算法。从Compustat Capital IQ,Select Sector SPDRs,和雅虎财务(Compustat 2018; ALPS Portfolio Solutions Distributor, Inc 2018; Yahoo! Finance 2018)提取了12个月的市场数据及ETF的成分股资讯。我们选择多个行业ETF作为目标投资组合P,标准普尔500指数作为股票池U。算法也适用于成分股个数未知的投资组合(例如共同基金),但我们选择ETF是因为我们可以将算法结果与成分股已知的ETF进行比较,从而验证模型的效果。
我们认为标准普尔500指数中的每只股票都是目标投资组合的可能候选股票。每个候选股票和目标投资组合的数据都将被视为无序序列。实验在基于BSD的UNIX系统上执行,系统采用2.6 GHz Intel Core i7处理器和16 GB的1600MHz DDR3内存。
从2013年10月开始,在12个月内,我们选择九种ETF作为预测标的,目标是预测标的的成分股及权重。在研究期结束时。我们使用两个指标来评估模型的有效性:分类准确性和MCC(Matthews 1975年)。图表3中列出了我们的目标ETF,包括DIA(道琼斯工业平均指数跟踪基金)和八个行业ETF(跟踪标准普尔市场行业)。ELC的运行时间为3.24至3.61秒,平均运行时间为3.38秒。SOS的运行时间从8.82到15.41秒,平均运行时间为11.48秒。
5.1
预测准确性
准确度是评估布尔二分类算法是否有效的最简单方法之一。虽然它有局限性,但准确度易于计算且简单易懂,使其在金融文献中受到广泛的使用。Aitken和Frino(1996)将其称为分类错误,Edmister(1972)将其称为预测准确性或预测成功率(Henry 2006)。在统计领域中它被称为兰德指数(Rand 1971)。在一般情况下,它分析了两种分类结果X(预测分类)和Y(实际分类)的相似性。准确度可以表示为:
其中X是预测分类的集合而Y是实际分类的集合。实验中的两个类别分别是True(股票在真实投资组合中)和False(股票不在真实投资组合中)。因此,我们可以将TP定义为股票i在X和Y中同时标记为True的个数,TN为股票i在X和Y中皆标记为False的个数,FP作为股票i在X中标记为True但在Y中标记为False的个数,FN作为股票i在X中标记为False但在Y中标记为True的个数。R即表示分类的准确性(Hubert和Arabie 1985)。
在使用标准普尔500指数作为股票池时,ELC方法的预测准确性为0.068至0.725,平均值为0.357。SOS方法的预测准确性为0.882到0.986,平均值为0.933。SOS的错误分类比ELC少了90%,具体结果如图表3和4。
实际上这种预测准确性的简单衡量方法存在一个问题,即对真实数据中类别的规模的敏感性,称为类不平衡问题(Japkowicz和Stephen 2002)。在我们的例子中,来自股票池的大多数股票都不属于目标投资组合,若算法将所有的答案预测为False,其分类的准确性R不会太低,从而高估了算法的有效性。
5.2
马修斯相关系数
面对显著的类不平衡问题,我们使用Matthews Correlation Coefficient(MCC)评估我们的算法效果(Matthews 1975)。MCC通过考虑真实预测集中类别的大小来评估二米分类性能,因此能处理规模不平衡的问题(Baldi等,2000),这是其他分类指标(例如精确度,召回率和F分数等)无法做到的。MCC的计算结果解释与Pearson相关系数相同(Pearson 1895; Powers 2011),值0.1表示相关性不高,0.3表示低度正相关,0.7以上表示高度正相关,负值表示反相关系(Evans1996)。
ELC方法的MCC为0.000至0.365,平均MCC为0.170,表明相关性较弱。SOS方法的MCC为0.561至0.891,平均MCC为0.664(相关性较强)。
六、结论
我们拓展了投资组合预测的问题,其解决方案在金融领域有许多潜在的应用,包括检测基金经理的财务装饰以及基于大型基金持仓预测所开发的套利策略。值得注意的是,不同问题的目标不同,在指数跟踪的情况下,目标是最小化跟踪误差,而对于组合持仓预测,目标是准确地预测投资组合的成分股。
对于组合持仓预测的问题,本文提出了两个解决方案,ELC和SOS,我们从不同维度评估了两个模型的表现。ELC方法,一个现有指数跟踪方法的延伸,是在确定持仓的情况下减少跟踪误差的有效方法,但结果表明它在预测投资组合成分股的表现不佳。根据统计,相比随机分配股票作为投资组合,ELC并没有提供更有效的预测。线性克隆方法由Hasanhodzic和Lo(2007)及其Sharpe(1992)提出,尽管已被证明有效适用于投资组合业绩复制和预测固定数量的资产类别,但这些方法似乎不能很好地扩展到成分股未知时的投资组合预测。实际上,他们旨在解决权重的分配问题而已。
本文提出的新方法SOS提供了比ELC和随机分配更好的准确性。SOS以“智能”方式探索候选投资组合,从而能更快的找到有效的子集。例如,在预测道琼斯工业平均指数ETF(DIA)的成分股时,正确的ETF成分股大小为30只。SOS方法预测成分股个数为54只,其中有27个是预测正确的(确实属于ETF的30只成分股),而ELC方法预测成分股个数为206个,其中只有29个是正确的,相比之下准确度较低。SOS方法在计算上虽然比ELC慢,但在典型的应用中,它在一般的笔记本电脑上只需10秒即可完成,分类精度的提高也很显著。
在我们的评估中,ELC方法大大高估了大多数基金的实际持仓个数。实际上,在没有任何约束的情况下,该方法经常表明股票池中的所有股票都是成分股(例如,ELC认为标准普尔消费品ETF包含所有标准普尔500的股票)。由于对某些成分股的分配非常少,我们在ELC方法中添加了最小阈值限制,虽然确实提高了预测效果,但仍然不如SOS。
即使SOS的表现远优于ELC,但仍有改进的余地。例如,当重复实验时,如果限制最大投资组合规模为100,最小包含权重为1%,两种方法的表现都会有所提高,表明算法仍有很多的地方可以改进。例如权重约束,动态的最小权重阈值,或者一些关于正确投资组合规模的先验知识(假设规模将保持相似)等。
参考文献
【1】Agarwal, V., K. A. Mullally, Y. Tang, and B. Yang. 2015.“Mandatory Portfolio Disclosure, Stock Liquidity, and Mutual Fund Performance.” The Journal of Finance 70 (6):2733–2776.
【2】Aitken, M., and A. Frino. 1996. “The Accuracy of the Tick Test: Evidence from the Australian Stock Exchange.” Journal of Banking & Finance 20 (10): 1715–1729.
【3】ALPS Portfolio Solutions Distributor, Inc. “SelectSectorSPDRs. ”2018,
【4】Amenc, N., F. Goltz, and V. Le Sourd. 2009. “The Performance of Characteristics-Based Indices.” European Financial Management 15 (2): 241–278.
【5】Amenc, N., L. Martellini, J. C. Meyfredi, and V. Ziemann. 2010. “Passive Hedge Fund Replication—Beyond the Linear Case.” European Financial Management 16 (2): 191–210.
【6】Baldi, P., S. Brunak, Y. Chauvin, C. A. F. Andersen, and H. Nielsen. 2000. “Assessing the Accuracy of Prediction Algorithms for Classification: An Overview.” Bioinformatics 16 (5): 412–424.
【7】Bertsimas, D. P., L. Kogan, and A. W. C. Lo. “Pricing and Hedging Derivative Securities in Incomplete Markets: An [Epsilon]-Arbitrage Approach.” National Bureau of Economic Research, 1997.
【8】Chen, C., and R. H. Kwon. 2012. “Robust Portfolio Selection for Index Tracking.” Computers & Operations Research 39 (4): 829–837.
【9】Compustat. “Compustat—Capital IQ—Index Constituents.” 2018
【10】Croci, E., and G. Petrella. 2015. “Price Changes around Hedge Fund Trades: Disentangling Trading and Disclosure Effects.” Journal of Management & Governance 19 (1): 25–46.
【11】Edirisinghe, N. C. P. 2013. “Index-Tracking Optimal Portfolio Selection.” Quantitative Finance Letters 1 (1): 16–20.
【12】Edmister, R. O. 1972. “An Empirical Test of Financial Ratio Analysis for Small Business Failure Prediction.” Journal of Financial and Quantitative Analysis 7 (2): 1477–1493.
【13】Evans, J. D. Straightforward Statistics for the Behavioral Sciences. Pacific Grove, CA: Brooks/Cole, 1996.
【14】Frank, M. M., J. M. Poterba, D. A. Shackelford, and J. B. Shoven. 2004. “Copycat Funds: Information Disclosure Regulation and the Returns to Active Management in the Mutual Fund Industry.” The Journal of Law and Economics 47 (2): 515–541.
【15】Fung, W., and D. Hsieh. 1997. “Investment Style and Survivorship Bias in the Returns of CTAs: The Information Content of Track Records.” The Journal of Portfolio Management 24 (1): 30–41.
【16】Hasanhodzic, J., and A. W. Lo. 2007. “Can Hedge-Fund Returns Be Replicated?: The Linear Case.” Journal of Investment Management 5 (2): 5–45.
【17】Henry, E. 2006. “Market Reaction to Verbal Components of Earnings Press Releases: Event Study Using a Predictive Algorithm.” Journal of Emerging Technologies in Accounting
3 (1): 1–19.
【18】Hubert, L., and P. Arabie. 1985. “Comparing Partitions.” Journal of Classification 2 (1): 193–218.
【19】Japkowicz, N., and S. Stephen. 2002. “The Class Imbalance Problem: A Systematic Study.” Intelligent Data Analysis 6 (5): 429–449.
【20】Jones, E., T. Oliphaunt, P. Peterson, et al. “SciPy: Open Source Scientific Tools for Python.” 2001
【21】Kacperczyk, M., C. Sialm, and L. Zheng. 2006. “Unobserved Actions of Mutual Funds.” The Review of Financial Studies 21 (6): 2379–2416.
【22】Kat, H. M., and H. P. Palaro. 2005. “Hedge Fund Returns: You Can Make Them Yourself!” The Journal of Wealth Management 8 (2): 62–68.
【23】Matthews, B. W. 1975. “Comparison of the Predicted and Observed Secondary Structure of T4 Phage Lysozyme.” Biochimica et Biophysica Acta (BBA)-Protein Structure 405 (2): 442–451.
【24】Meier, I., and E. Schaumburg. “Do Funds Window Dress? Evidence for US Equity Mutual Funds.” Working paper, Northwestern University, 2004.
【25】Pearson, K. 1895. “Note on Regression and Inheritance in the Case of Two Parents.” Proceedings of the Royal Society of London 58: 240–242.
【26】Powers, D. M. 2011. “Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness and Correlation.” Journal of Machine Learning Technologies 2 (1): 37–63.
【27】Pudil, P., J. Novovicˇ ová, and J. Kittler. 1994. “Floating Search Methods in Feature Selection.” Pattern Recognition Letters 15 (11): 1119–1125.
【28】Rand, W. M. 1971. “Objective Criteria for the Evaluation of Clustering Methods.” Journal of the American Statistical Association 66 (336): 846–850.
【29】Sharpe, W. F. 1992. “Asset Allocation: Management Style and Performance Measurement.” The Journal of Portfolio Management 18 (2): 7–19.
【30】Somol, P., P. Pudil, J. Novovicˇ ová, and P. Paclık. 1999. “Adaptive Floating Search Methods in Feature Selection.” Pattern Recognition Letters 20 (11): 1157–1163.
【31】Yahoo! Finance. 2018. “Yahoo! Finance Interactive Charts.” 2018,
风险提示:文献中的结果均由相应作者通过历史数据统计、建模和测算完成, 在政策、市场环境发生变化时模型存在失效的风险。
证券研究报告:《西学东渐--海外文献推荐系列之四十二》。
对外发布时间:2019年9月19日
报告发布机构:兴业证券股份有限公司(已获中国证监会许可的证券投资咨询业务资格)
--------------------------------------
联系人:徐寅
E-mail: xuyinsh@xyzq.com.cn
--------------------------------------
联系人:郑兆磊
E-mail: zhengzhaolei@xyzq.com.cn
--------------------------------------