一些统计学概念 - QThinker Plus使用说明

2023年11月15日 169点热度 1人点赞 0条评论

在介绍 QThinker Plus 的量化分析看板如何使用前,有必要先说明一些统计学和量化指标的基本概念,这样您才能了解到这个模块计算得出的数据对于投资的参考意思。本篇博客先简单介绍一些统计学基本概念以及对于交易、投资的指导意义。

一、均值、标准差、方差

在量化投资领域,评价资产风险的一个重要指标即资产的波动性。该观点由哈里·马科维茨 (H. M. Markowitz) 在 1952 年提出,即马科维茨均值方差模型。

马科维茨把风险定义为收益率的波动率,首次将数理统计的方法应用到投资组合选择的研究中,这种方法使收益与风险的多目标优化达到最佳的平衡效果。

在统计学上,衡量变量离散程度的数据工具就是标准差、方差。均值的概念很容易理解,反映了变量的平均水平,标准差与方差则反应了样本与均值的离散程度。具体到投资而言,比如以日线收盘价为时间序列进行计算,标准差、方差越高、离散度就越高,该资产表现出来的特征就越不平稳,即风险较高,反之亦然。

二、变异系数

上面说到标准差、方差是衡量一组变量离散程度的数学指标,如果我有一组金融资产,想横向对比这些标的间的波动性,仅仅使用标准差和方差是不行的,原因在于这两个指标是有量纲的,也就是说和自身的价格水平有关系,举个例子,茅台和万科,标准差及方差可谓天差地别,无法横向对比,见下图:

这个时候,要对其收盘价与均值离散程度做横向对比怎么办呢,就需要用到变异系数这个概念。

变异系数是一种用来衡量数据离散程度的统计量,它是标准差与均值的比值。即 变异系数 = 标准差 / 均值

变异系数的意义在于,它可以消除数据量纲和数据分布对数据离散程度的影响。当比较不同数据集的离散程度时,如果数据集的量纲不同或数据分布不同,直接比较标准差可能不准确,因为标准差会受到数据量纲和数据分布的影响。而变异系数则可以消除这些影响,使得不同数据集的离散程度可以进行比较。

继续上面的例子,我们看看万科和茅台的变异系数各是多少,哪个在样本期内波动更加明显:

可以看到,样本期内,万科的变异系数几乎5倍与茅台,究其原因,一方面万科的体量和茅台不在一个量级上,茅台更加稳定符合预期,另一方面,最近这些年,地产江河日下,行业优等生万科也难逃泥沙俱下,波动性加剧。

在量化分析看板中右侧卡片有专门的指数变异系数横向对比图,就是为了横向对比样本期内指数的波动情况。

三、中位数、百分位

在量化分析看板中的底部区域,有一个表格,这里面有指数在样本期内统计学特征的对比,除了标准差、方差、变异系数这些,还有中位数即百分位。这里简要介绍一下含义:

中位数:是一组数据的中间值,也就是把这组数据从小到大或者从大到小排序后,中间的那个数。如果数据的数量是偶数,中位数就是中间两个数的平均值。我们还以刚才的股票为例继续,看看万科在过去250个交易日中,它的每日涨跌幅中位数是多少:

如上图,万科近一年的每日涨跌幅中位数是-0.25%,什么含义呢,即在过去250个交易日中,万科有一半天数的涨跌幅低于-0.25%,另一半天数的涨跌幅高于-0.25%。这两年地产是个什么形势大家也都清楚,中位数正常来讲通常在0附近符合预期,如果明显小于0,说明走的是明显下跌趋势。计算结果符合图表与直觉。

百分位:是指把一组数据从小到大或者从大到小排序后,某个特定百分比所对应的数值。百分位越低,说明小于这个百分位对应的百分位数的样本个数越少。例如,如果一组数据的 25%百分位是 5,那么这组数据中小于 5 的数占总数据的 25%,相反,如果一组数据的 75%百分位是 10,那么这组数据中小于 10 的数占总数据的 75%。具体到投资而言,量化分析看板中提供的百分位指标,是指该指数在指定的时间范围内,有多少个交易日的收盘价低于最新一根K线的收盘价,这是一个相对位置指标,百分位越低,说明这个指数在回测周期内所处的相对位置越低。

以上是量化分析看板中涉及到的一些统计学指标的基本概念,这块内容在看板的图表和底部表格中有所体现,如下图:

下一篇博客,我将介绍一下这个看板中涉及的其他指标的含义,比如归一化走势是什么意思,以及常见的量化评价指标的含义和对投资上的参考意义。

QThinker

前地产从业者,假装是个程序员,热爱编程与交易 自研QThinker量化交易框架

文章评论