顶部横幅广告
  • 微信
您当前的位置:首页 > 资讯

用苹果股价详解量化分析的4种基本操作

作者:三青 时间:2023-05-10 阅读数:人阅读

 

当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放 Tomato Soup 音乐: Hark Madley - Tomato Soup Python最近几年的热度越来越高,其在多个领域都得到了广泛的使用,尤其是在量化分析方面,最近几年可以说是得到了飞速发展,现在说它是量化分析第一语言也不为过,笔者今天就介绍一下Python在量化分析中的一些基本使用操作。今天讲的操作共有4种,都是我们经常用到的,而这4种操作都要用到pandas库,因为是量化分析,所以也要用到一些股票数据,我们就用“宇宙第一大股”苹果公司的股票数据来作为演示。首先还是导入各种库。

import pandas as pd

import numpy as np

import yfinance as yf

这里我们稍微介绍一下yfinanceyfinance是使用Yahoo! Finance数据源的一个库,这个库的优点是下载速度快(没有被墙)、免费,同时导出来的数据就是pandas.DataFrame格式,非常好用。然后就是下载我们所需的苹果公司的股票数据,这里我们下载过去5年的数据,即2015年1月1日到2019年12月31日的数据,代码如下。df = yf.download(AAPL, start=2015-01-02, end=2020-01-01, progress=False) #progress是进度显示条,最好关闭yfinance的时间参数有些不同,其是滞后一天的,所以我们要下载第一天2015年1月1日的数据,则要设置为2015-01-02,截止时间也同样延后一天,同时设置progress=False,以关闭下载进度条。下载好的数据大致如图1所示。

图1. 苹果股价数据示例有了数据,我们就开始介绍一下这4种基本操作。一、rolling windowrolling window是对某个窗口期内的数据进行操作,其原理和我们常用的groupby有些类似,不过是在窗口期内进行操作,其使用方法如下。

df_rolling = df.rolling(window=3)

df_rolling.max()[:10]

df_rolling.sum()[:10]

这里df_rolling可以看作是一个中间变量,就和我们进行过groupby之后形成的变量一样,然后再在其基础上进行操作。比如我们进行max和sum操作,得到的结果就如图2所示。

图2. rolling的结果rolling操作有几个参数,作用分别如下。(1)window:表示窗口期的大小,类型为int,比如df.rolling(window=3).max()就表示以3天为窗口期,在连续的3天(也就是3行数据)内进行取最大值操作。因为第一天和第二天都不满3天,所以这两个值都空缺,df_rolling中前两行也因此都是NaN,然后依次向下滚动操作。(2)min_periods:最小观测值,int类型,默认与window相等。其值一般小于等于window值,比如df.rolling(3,min_periods=2).max()[:10],就表示一个窗口期内至少有2个值存在,否则就不予计算,其结果如图3所示。假如有3个连续值都是NaN,则这个结果不参与计算。

图3. min_periods的结果(3)center:是否使用窗口期的中间值作为label,默认为false。这个一般配合min_periods使用,比如df.rolling(window=3, min_periods=2, center=True).max()[:10]的结果如图4所示,其第一和第二行数据都存在,因为是以三行中间那行为label,向前向后各推一行,又因为min_periods=2,所以第一行也有数据,这和图3是有区别的。

图4. center的结果(4)win_type:指定窗口类型,默认为None,不作指定则认为窗口期内各个数据的权重相等,这个比较复杂,一般用不到。比如设置为’hamming’,则返回一个Hamming窗口,其具体算法可以参考scipy.signal.windows的官方文档。(5)on:对于多列数据,用on来指定在哪一列上进行操作,这个有点多余,我们可以直接在选取数据时就指定好数据了。(6)axis:值为1或0,默认为0。1表示在横向上进行操作,0表示纵向上进行操作。(7)closed:定义区间的开闭,默认为right,即左开右闭。可以设置为rightleftboth或者neither而除了上面介绍的max和sum操作,其他操作如median、var、std、corr、aggregate等都能使用,这里笔者不再一一赘述。二、expanding windowexpanding window是以递增形式对整个数据进行操作。其一共有3个参数,分别是min_periods、center和axis,其作用和rolling中的一样,所以这里不再介绍。expanding window的使用方法如下。

df.expanding(3).sum()[:10]

图5. expanding的结果

其结果如图5所示。我们可以看到,每行结果都是对前面所有行结果的加和,整个数据就是在不断地expand,所以才叫expanding,其他操作如median、var、std、corr、aggregate等也都能使用。

三、exponentially weighted moving window

exponentially weighted moving window就是指数式加权递减的移动平均。各数值的加权而随时间而呈指数式递减,越近期的数据加权越重。

exponentially weighted moving window有如下参数可选,

(1)com:主要用于构成α,参考图6。

(2)span:根据范围指定衰减,α=2/(span+1),其中span≥1。

(3)halflife:根据半衰期指定衰减,α=1−exp(log(0.5)/halflife),其中halflife>0。

(4)alpha:直接指定平滑系数α,0<α≤1。

(5)min_periods:和前面例子中用法相同。

(6)adjust:是否除以开始阶段的衰减调整因子,默认为True,主要用于解释相对权重的不平衡性。

(7)ignore_na:是否忽略缺失值。

(8)axis:和前面例子中用法相同。

图6. ewm的递推公式

exponentially weighted moving window的递推公式如图6所示,其中com、span、halflife、alpha这4个值至少指定一个,alpha的公式如式(1)所示,当adjust为False时,递推公式用式(2);当adjust为True时,用式(3)。其代码如下所示,结果如图7所示。

df.ewm(alpha=0.2).mean()[:10]

图7. ewm的结果这个ewm的计算稍微复杂点,其方法只有5种,分别是mean、std、var、corr和cov,大家最好自己也动手试一下。四、shiftshift说白了就是平移,即index不变,数据左右或上下移动指定行数。用法如下,结果如图8所示。

df.shift(1)[:10]

图8. shift的结果shift一共有4个参数,作用如下。(1)period:表示移动的幅度,可以是正数,也可以是负数,默认为1。(2)freq:格式为DateOffset、timedelta或string,可选参数,默认值为None,只适用于时间序列,如果这个参数存在,那么会按照参数值移动时间索引,而数据值没有发生变化。(3)axis:用法和前面例子相同。(4)fill_value:移动后缺失值的填充。shift很常用,但理解起来也很简单,这里也不再赘述。结语本文主要从一些基本操作入手,来展示一下量化分析的部分应用,量化分析是一个很广泛的领域,大家如有兴趣也可以自行查找资料来学习,笔者以后也会再写一些这方面的文章分享给大家。作者简介:Mort,数据分析爱好者,擅长数据可视化,比较关注机器学习领域,希望能和业内朋友多学习交流。

赞赏作者

Python中文社区作为一个去中心化的全球技术社区,以成为全球20万Python中文开发者的精神部落为愿景,目前覆盖各大主流媒体和协作平台,与阿里、腾讯、百度、微软、亚马逊、开源中国、CSDN等业界知名公司和技术社区建立了广泛的联系,拥有来自十多个国家和地区数万名登记会员,会员来自以工信部、清华大学、北京大学、北京邮电大学、中国人民银行、中科院、中金、华为、BAT、谷歌、微软等为代表的政府机关、科研单位、金融机构以及海内外知名公司,全平台近20万开发者关注。

长按扫码添加“Python小助手”

▼点击成为社区会员   喜欢就点个在看吧

本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。

如果侵犯了你的权益请来信告知我们删除。邮箱:dacesmiling@qq.com

标签:
微信

三青

当你还撑不起你的梦想时,就要去奋斗。如果缘分安排我们相遇,请不要让她擦肩而过。我们一起奋斗!

微信
阿里云