量化投资从数据说起

2016年8月13日,文因互联举办智能金融沙龙第9期,由TuShare的作者刘志明先生主讲“量化投资从数据说起”


刘志明,财经数据接口包T uShare 的创始人,就职于通联数据, 12 年技术开发和金融数据分析经验,主要从事数据采集和处理工作,为金融量化和主动型投资提供专业数据支持

TuShare 是一个免费、开源的 Python 财经数据接口包,主要实现对股票等金融数据从数据采集、清洗加工到数据存储的过程,能够为金融分析人员提供快速、整洁、和多样的便于分析的数据,能极大减轻量化研究的工作量,使他们更加专注于策略和模型的研究与实现上

演讲开始,刘志明先生对 TuShare 这个名字的起源做了解释: Tu 是兔子的兔,来源于“挖地兔”

刘先生小时候去山上捡柴,看到野兔在地里爬萝卜,需要用很大的力气才能吃到萝卜,这件事情让刘先生印象深刻

后来刘先生工作中也需要爬取一些数据,这让他联想到小时候看到兔子爬萝卜的经过,感觉自己也像是爬萝卜(数据)的兔子,而当时爬的数据很多都是为了分享给大家,于是 TuShare 就这样诞生了

刘志明先生接下来对 TuShare 的现状以及未来的期许做了详细的阐述

TuShare 用起来很方便,但是也有一些问题,比如说数据质量,还有数据和 API 维护的持续性

目前数据来源于网络例如新浪财经、凤凰财经、网易,也包括交易所的网站,但是有些数据质量一般,稳定性也不太好,所以后期会规划新的版本,力争解决这些问题,也会尽力去寻找更多特色大数据,帮助用户用有效的数据来发现市场的无效性,寻找更多的 alpha

T uShare 的优点首先是免费和开源;其次是数据使用方便,期望以后一起做社区,大家都来用数据并发现问题,这样数据质量就会不断提高,也期望数据一直免费服务于 Quant ,作为量化投资前期研究的强大支持

另外 TuShare 是基于 Python 科学计算库开发,提供很多数据清洗的函数和方法,为量化策略的实现提供便捷的接口

量化投资的关键要素 刘先生讲到做事情讲究天时、地利、人和 , 映射到量化投资里面包括以下三方面: 首先是 数据 ,数据是第一要位,尤其是高质量的数据,假如没有数据就无从做回测,没有好的数据就无法得到正确的结果

其次是 经验 ,有了数据就可以写模型,完成一个有效的策略需要丰富的投资经验,这很关键

最后是 运气 ,虽然量化投资可以实现量化对冲,与主动型投资相比,跟系统性风险关联并不太大,但是也是需要一些运气

踩好节奏,规避一些结构性风险,一方面是政策风险,二是趋势风险

量化投资关键步骤 首先是做 数据采集和整理 ,主要包括数据规划、采集、清洗处理、结构化、 API 化

因为从各个源头去采集数据的话,需要做很多工作,这部分占了量化模型实现百分之六十左右的工作量

二是 策略开发和调优 ,这部分主要包括设计策略模型,编码实现模型,通过数据进行回测,根据结果进行优化改进,这部分主要占据大约百分之三十的工作量

三是 模拟和交易 ,策略实盘之前要进行模拟测试,根据实际的行情进行模拟交易跟踪,模拟通过之后进行实盘交易,资金量级的大小会影响策略的效果,不同的阶段要进行很谨慎的测试和模拟

传统金融数据分类 量化投资主要需要哪些数据呢?这里主要讲一些传统的数据分类,其实还有很多特色大数据

第一是 基础数据 ,没有基础数据很多的量化策略是没法写的

主要包括:证券及公司基本信息,行情数据,财务报表,公司行为,财务数据,市场行为,指数数据等

二是 宏观和行业数据 主要包括:各类经济指标,国内生产总值,居民消费指数,特价指数,经济景气指数,财政与货币政策价格,工业品出厂价格指数等,行业包括有色煤炭,能源化工,房地产,汽车交运,电力,消费品等

三是 高频数据 :股票的分笔高频,分时高频,各类分钟数据,股指期货高频,商品期货高频等

四是 衍生数据 :这个数据体现了公司的投资和技术能力,很多需要自己去计算,但是小公司或者是小的机构没有这种研究能力,需要采购,比如很多有价格的技术因子,基本面因子,资金流向因子,分析师因子,风控数据等

数据采集途径 主要有数据终端、数据 API 、财经和行业网站、数据库四种方式

数据处理工具和过程 数据存储类型主要是有 CSV , TXT , EXCEL , HDF file , DataBase ;数据处理工具有很多例如 Python 、 R 语言、 Matlab 、 SAS 、 Java 等,但是目前 Python 在金融数据分析领域越来越越受到欢迎

数据来源 行情、基本面、公告财报 等披露信息主要来源于证券交易所,期货交易所

证券交易所主要包括:上海证券交易所,深圳证券交易所,全国中小企业股份转让系统

上海证券交易所和深证交易所,投资品种有 A 股和 B 股,债券,封闭式基金, ETF 等品种的行情、财报及公告

全国中小企业股转系统:新三板,做市或协议行情、财报和公告

期货交易所主要有:上海期货交易所,大连商品交易所、郑州商品交易所、中国金融期货交易所

宏观数据 :国家统计局、财政部、人民银行
其中国家统计局的数据是最权威的
财政部主要是提供货币和财政政策

行业数据 :行业协会(大部分需要注册账号或者是购买帐号才能获取数据)、政府机构(如商务部农业部)、行业网站(最及时,自己有数据采集能力 )

数据服务产生过程 数据服务产生主要分为三个步骤:数据源发布数据、数据供应商采集和处理、用户获取

数据源(交易所等)主要生产和发布实时行情数据、交易数据、财报公告等,经过数据供应商的采集和整理,以规整的、结构化的信息提供给用户,而用户的获取途径可以是终端、网站、供应商数据库等,能提供完整数据库的供应商主要有通联数据、W ind 、恒生聚源等

整个交流活动持续了大概两个多小时,期间进行了数据采集和数据处理的程序 DEMO ,也通过展示数据源网站进行了数据采集探讨,针对传统金融数据和特色大数据的应用进行了广泛的交流

点击“ 阅读原文 ”即可报名本周由文因互联CTO张强主讲的智能金融沙龙(第10期)——金融自动化报告现状、发展与未来



发表回复