路演中你听到的另类数据,到底是什么?
▷是新朋友吗?记得先点关注「探普学堂」
在阅读尽调报告或者观看量化资管人路演时,你很可能会听到他们说自己会使用大量的另类数据。
你也应该听到过这样的观点:「减少研究人员在获取数据与数据可用性之间的时间成本,已成为竞争优势的关键来源。」
「在量化基金在分析来自社交媒体的实时数据时,处理庞大的非结构化数据集变得越来越重要。」
量化投资者们提到的另类数据,到底是什么?(内容由AI量化投资社区BigQuant发布于其他三方平台)
我们把另类数据换成另外一种说法:除传统量价数据之外的大数据,是不是就很好理解,对冲基金使用这些数据的成因?也能理解另类数据就是未来?
这些另类数据与传统的基本面、财务、历史行情等金融数据相比,具备实时性高、数据量大、「原始」等特点,可以为投资者提供更广泛的交易思路、更多维的分析角度,因而用另类数据更为准确。
我们发现当前各家券商研究所已经默默组建了另类数据团队,当然这与买方的需求紧密相关,也与整个行业发展趋势相关,如九坤投资创始人王琛说,随着信息来源的扩大,信息提取能力的提升,是量化投资行业发展的核心引擎。
01:三类另类数据已成体系
另类数据主要包含以下三种:
个人产生的数据:社交媒体帖子、产品评论、互联网搜索趋势、信用卡数据等,这部分通常是非结构化的数据,需要大量的数据清洗。
由业务流程产生的数据:公司工商数据、专利数据、尾气数据、招聘数据、商业交易、事件数据、招标数据、阿里巴巴、京东、美团等电商平台数据、app排行榜、直播和搜索指数数据等,这部分通常是高度结构化的数据。
传感器产生的数据:卫星图像数据、行人和车辆流量、船舶位置等,地图数据。生成的数据通常是非结构化的,数据会比较大。
第三方数据:分析师研报情感数据、一致性预期。
02:主观、量化都在采用
可以为投资者提供更广泛的交易思路、更多维的分析角度,因而用另类数据更为准确。
另类数据不会替代传统金融数据,但随着大数据技术和人工智能技术的发展,另类数据的价值会越来越大。
不同的投资类型,对于另类的数据使用不太一致。
对于主观投资来说:销售数据不管是停车场卫星还是类似yipitdata这些创建出来的,都是他们感兴趣的。(注:yipidata是另类数据提供商)
量化的投资人会更关注可以在产生日内信号的,比如舆情,严重延迟的不大会是他们的菜。
03:另类数据4个关注点及3大挑战
选择另类数据的时候,可以关注以下一些关键点:
数据频率:可日内、每日、每周,甚至更低的频率。
延迟:数据提供程序通常批量提供数据,可能会出现延迟。
格式:必须以合适的格式提取数据,最好是CSV或JSON用于静态数据。
API(应用程序编程接口)应该最好不要导致额外的延迟,最好能够灵活地适应不同的编程语言。
九坤投资创始人王琛认为未来AI大数据量化面临的挑战有:
多模态化挑战:模态化的数据需要多模态的算法来解决;信噪比低,覆盖股票数量要求高。
数据质量的挑战:数据源本身的错误或噪音;数据提取、更新的异常;数据在时间序列要求
处理速度挑战:低时延+海量数据+7X24
04:适用于AI量化
如果我们把量化投资分为三个阶段:
阶段1:量价数据+人工挖掘
阶段2:量价数据+AI算法挖掘
阶段3:大数据+AI算法挖掘
另类数据(大数据)的复杂性和体量,比如图像、社交媒体和新闻稿这样的数据,用分析师的标准工具是不可能的,使用简单的线性回归往往也会导致过拟合或不一致的结果。
同时,深度智能的发展,可以在数据清洗、数据关联、数据推导、建模都建立在智能化基础上,通过深度学习归纳知识图谱,生成交易策略。
所以另类数据因为量大比较适用于机器学习,这些模型包括:
监督机器学习:回归、分类;
无监督机器学习:聚类、因子分析;
以及深度学习和强化学习方法。
05:量化产生的信号方向
个股择时:比如对消费行业的上市公司业绩作出前瞻性预测,或者通过地图、点评等渠道的POI数据,获取线下店铺的扩张和关停情况。更多针对部分行业及个股,高低频不一。
全市场选股:比如互联网舆情数据,针对的是全市场上市公司,每天都会产生,比较适应于全市场选股。
因子构建:这些另类数据夏普比率也许不够高,难以产生独立的投资策略,但数据本身非常有价值,可以与其他信号结合,以产生一个新的可行的投资组合水平策略。类似市盈率PE可能有相当低的α含量,不可行作为一个独立的战略,但它可能仍然是有用的多元化风险溢价投资组合。
最后,我们想说的是不管正常数据也好另类数据也罢,最关键还是数据的权威性和有效性。不明所以的数据,就算短期通过拟合看似能产生正向收益,却难保日后依然有效。
本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。
如果侵犯了你的权益请来信告知我们删除。邮箱:dacesmiling@qq.com