有多少人采用了智能投研以及智能投顾的产品?用的哪些?收益如何?有没有对这些服务的评价?还有,金融投研背后有哪些金融科技?对你做投资有没有启发?
5月28日,2018智能金融发展论坛在贵州举行,华创证券研究所首席金融工程分析师,量化业务负责人陈杰结合自身华创证券量化业务,对当前金融投研进行了深入的分析,尽展金融投研背后的“真相”。
以下为陈杰演讲实录。
大家好,我是来自华创证券的陈杰。给大家介绍一下我们是一个什么样的团队,做些什么事情。
我之前做了专注量化投研方面的研究,2013年、2014年,在量化投研圈里是最早尝试金融科技应用的,我们专注于新闻和自然源的网站,提供给国内100家金融机构,主要做投研支持。来到华创以后,我们创办了一个网站,目前在国内券商里面,如果不是唯一,也是极少数结合自己量化和网站的一个团队。
今天的介绍,我提两点:
一是金融科技范围非常广,因此我先把聚焦的主题集中在跟投资和研究相关的投研领域,其他领域不做涉及。
二是跟前面几位金融大拿不一样,今天更是一个需求者和问题解决者的身份在这里,探讨作为一个投研使用者或者中间开发者,要选择什么样的数据、选择什么样路径解决问题。
金融科技包括自然源处理、知识图谱等等,有很多,我说三件事。
金融投研里面三条赛道:分别称为智能投研、智能策略,智能投顾。有什么区别呢?
智能投研,包括Kensho、文因互联、通联数据等,主要是帮助我们加速这个过程,更加有效。
智能策略,是国内主要的一些券商、APP,包括像Motif、金贝塔、券商的APP,这种通常是建议或者交易提示,我们称为智能策略。
智能投顾。智能投顾,大银行做得比较多,主要做法分为两个:一是用户画像或者是客户识别,它的后端主要是解决资金投向的问题,制订主要投向,和前面智能策略不同,智能策略是智能的投资标的,比如一个股票,而智能投顾是大量的配制,比如配债、配股以及投资一些FOF的产品,通过配置资金、配置私募来实现。
这三类在国内都涌现一些机构,比如Kensho、文因互联、通联数据,智能策略有Motif、金贝塔,智能投顾有摩羯等。客户不同,三条赛道针对的对象不同,比如智能投研更多对机构客户,给我们这种有二次开发能力的人进行二次开发,需要一些接口。智能策略和智能投研更多针对个人,下面简单的应用场景不具体说了。
比如说智能策略方面,刚才几位嘉宾提到了,比如新闻称为数据的赋能。股票的解析和组合的推荐,很多PPT可以看到,这是我们量化算法的功能。刚刚说的智能研报也是这样,50篇同样讲一个事情,怎么把同样一个事情抽取出来,称为脱水研报。
聊完了赛道,再看有什么样的参赛选手,以及在我这个角度看各位参赛选手的优势。
分了三类:
一是大的财经网、互联网公司,包括科技创业公司,还有我们的金融机构,每一块都有自己特别核心的公司。比如BAT拥有流量入口,有大量的产品开发和用户体验的反馈数据,非常了不起。
此外BAT有大量的客户行为数据,同时拥有计算资源,不是一般的创新性公司可以给我们匹配的。科技创业公司,往往在细分领域有非常前沿的领军人物,业务的灵活性和激励机制也很好。
比如我来自华创,是一家证券公司。证券公司的优势在哪里:
一是专家知识。刚才提到150个人,知识来自于哪里?初期阶段这120个人的队伍,其实对任何一家机构来说都是非常昂贵,也是非常需要积累的一个工作。量化团队也是,天天和数据打交道,有这样一个跨界的团队。
二是业务需求,就是应用场景,很多公司在形成应用场景方面会有困难。我十年前的同事,慢慢分到做风控、信用、两融类,有很多很多的,或者做FOF,为什么?它是一种能力,一旦和证券公司某一种业务结合在一起,就会产生一个新的结果出来,证券公司对业务的需求就是应用场景,对应用场景的需求不那么困难。
三是用户积累,无论是银行还是什么,它的金融拓展不是一个从0到1的过程,而是从1到N的过程。
最终的投研需求。
非常简单,帮助在可承担范围内获得更高的收益,这就是应用场景。追求收益,更快的交易机会。
举例,刚才提到帮助我们寻找一些概念板块或者热点的挖掘,我们可以做到比分析师更早实时了解到今天交易过程中到底哪些受到欢迎。我们以往投研的数据来源基本上是基本面数据和交易数据,现在还有哪些场景?比如说自然源处理或者新闻,处理以后,帮助我们刻划现在市场的情绪。我们对于交易所的高频数据分析以后,可以自己算出它的资金流指标,包括对分析师出具报告的分析以后,可以得到专业机构对市场的观点。以前的维度是2个,现在可能是3个、4个、5个、6个,判断依据越来越丰富,这也是一个基本需求。
投资逻辑。
分两种:一是我有一个想法,新闻讨论,更多的股票是不是接下来值得我投资的股票?这种投资逻辑,需要我们用金融科技,包括用量化科技,用一些量化算法去验证它,我们称为寻找一种正确投资逻辑。
还有华创证券自己的一个网站,华创这个网站上,我们有33篇海外经典投资大师的方法拿量化的方式进行实现,并且用中国的数据进行验证、跟踪和调整,希望把海外经典投资逻辑引进到中国来,这也是量化科技在投研方面的应用,我们称之为追求收益。
在风险这一块,首先说穿透,现在要求很多。风控越管越严,从资金流向、资金来源、资金的标的,现在都要做穿透。做什么?比如知识图谱,帮我们找到一家发债主体,不仅是发债募集书里面提到的子公司、分公司,相关的,可能这家公司还有上市公司,股票里面还会提到它的上下游关联,会有股东的信息。根据知识图谱出来以后,我们对于投资者最终的来源和投向会有一个明确的穿透。
这个穿透不仅来自这个,策略也可以穿透。比如大量的银行有托管,你在募集说明书上告诉我你是用这种策略,到底是不是真的用了,按你的说法给我的承诺进行这样的投资呢?只要托管银行有穿透数据、行情数据,可以穿透去看这个行情是不是真的?实时监控,知识图谱给我们提供了监控上下游的目标。新闻处理、帮助,包括提供一些法院涉诉的问题,工商的问题,知识图谱告诉我去监控,自然源告诉我监控的结果怎么样,可以给我们提供一些监控的预警。关联关系,这些并不可怕,可怕的是扩散,扩散当中逻辑的推导称之为关联关系。
在我看来追求收益和控制风险,一些核心的投研追求,在看似简短的词里面,衍生出来的应用场景非常多。
数据来源,有什么料?刚刚聊了赛道、选手,现在看有什么料。
标准化的不说了,比如新开户的,比如说沪港通,每日北上和南上资金的数量,期货公司会告诉多空持仓数量,公司基本面数据、分析师的预期数据、金融产品的标准化数据,任何一家公募在年报和半年报的时候告诉全部持仓股,称之为金融产品的标准化水平,还有宏观和行业数据,产能、价格、核心的业绩监控指标,这是我们不停在挖掘的。
更多的数据来源是来自于文本。一年我们大概存了1亿条左右的文本数据。常见的有公司公告,从IPO开始,从开始的招股说明书到年度财报、债券募集说明书、业绩预告公告等。分析师报告,我们还会有大量的机构调研公告,大家不要忘了分析师还有履历和获奖情况。产品,基金募集公告、季/半年/年度报告、基金经理履历和获奖情况。新闻,不说了。后面还有工商与法务信息,能告诉我工商基本信息、异常经营和行政处罚信息、法律纠纷公告、法院判决公告等,这些都是我们现在用得比较多的数据。
另类数据。这个不是特别好拿,每项数据能够拿到多少,有时候要看和机构之间的合作。举例,第一类是用户行为的数据,旁边括号里面是国内已经发的大数据基金,比如腾讯的嘉实腾讯自选股,大成360,百度百发、南方大数据、广发东财。还有一个时控位置数据,后面会用一个例子作介绍,这里不单独说了。还有行业特殊数据,大家有时候听说过拿卫星去照农产品产地的产量,最终得出来就是一种非标准化的产量或者库存数据,包括航运上的GPS数据。最后一块是图片、视频和音频,怎么样把这些非标准化的数据变成标准化的数据,存到数据化方便使用,都称为另类数据。
提完了刚才说完的几块以后,就看一个例子,就是Quantamental(量化基本面投资)时代,这是一个延伸词,合在一起表示非常火,是量化基本面,什么意思?很关注基本面,出现一个非常明显的趋势,基本面的高频化应用。
表述一个例子,当时百度给我们提供了一个事例。
左边这张图是2016年1月-2016年10月之间国内新能源汽车的销售商,在这个时间里面被请求定位的次数。
右边这张图是2016年前三季度电动车总销量情况,又过了一两个月我们才看到公司年报出了这样一个基本信息,江淮、北汽、比亚迪,这是标准面一个非常典型的报告,既快而且准,而且在某些特定行业有应用。我相信如果你做一个新能源汽车的PE或者分析师,一定会对这类数据非常感兴趣。
上面的场景穿插在里面讲的,今天因为技术方面在技术大拿面前不好说,简单说一下。之前更多做数据统计,神经网络,包括仿生算法、决策树、分类器,以前用得比较多,其他确实和自然原因处理相关的专业算法。
接下来再介绍一下,尤其在自然语言处理和智库上面的应用场景和尝试。
我们做两个尝试。
第一个叫提供有价值的新闻,怎么去理解它,不是这个新闻多牛逼,而是这个新闻所关联的各股特别重要。比如说交易异常,把资金流异常的股票代码找出来,然后像客户提供这些股票背后的新闻,有没有一些新闻帮助我们解释它,我们称之为异动。
还有新闻的分析异动,有些新闻重复转载,重复特别多,如果没有看到,我推荐给你们看。分析师的语言系统,标准化的说法,可以称之为套话和行话,有的时候不说这个话,使用特殊语言的时候,我们怎么看。比如说超预期上调等于类似的词,一个研究报告出现这样词的时候,把这样的分析师报告推荐给你看。还有一些实践,比如说定增、增发、股权激励,这是第一块值得关注。
二是挖掘热点与概念。刚刚几位说了我们都类似。比如说石墨烯,那天有747条命中了,比如针状焦,只有351条,右边只提到3条新闻,第四列是相关系数,什么意思?通过这个概念位置和平时的ID找相关的东西,所有提到针状焦都提到了这个。
下面是7月29日关于石墨系的关联个股,这些是动态的过程,可能过几天相关的个股推荐就变了,这就是我们所说的挖掘概念和热点,用自然语言推进的情况,现在我们已经在推荐这些东西。
图谱和专家知识,我们分三层。
第一层,大家看到左边这层图,更多依托华创研究所专业分析师做的,靠人工的一个过程,重点强调产业逻辑,可能基础性并不强,但是很奇怪的一件事情,大家都喜欢这种样子的东西,这种样子的图谱大家接受的程度比较高。对于在一个图谱里面,在我们网站里面我们展示了一张图,红色是商业的公司,绿色或者蓝色或者灰色部分是一个产业节点。对于产业节点我们一般会提供这样的东西,首先编制指数,可能大家不理解这个东西。现在雄安新区过去半年具体走势是怎么样,很难告诉我,拿不出来,我们现在编制了将近2千条、3千条的指数,把小的概念形成一个指数,方便大家沟通。
二是形成基本面的统计数据。
三是会把这个股票和概念的所有相关新闻列出来。对于个股提供交易信息、资金流、交易量数据、新闻内容和分析观点的总结。
我们来看一下这个是什么样子。大家看到的是化工类的一个产业链的样子,对于每一个点,红色对应的箭头、对应的地方都可以作为一个组合,大家可以看到现在的PTA,现在包含四支股票,这是整个石油化工类的图谱,非常强调是一个产业上的逻辑。
第二层标准的图谱算法,包括图谱的构建。左边这张图可能大家看得不清楚,这张图是一个产品,右边是产品生产商的一个图谱。如果落实到生产商里面,落实到任何一个生产商或上市公司,我们这里除了之前逻辑信息之外,增加了新的信息,包括产品和产品的数据,包括产能信息,股东和高管的图谱,自然语言处理,对所有做了一个区分,区分成跟价格相关的新闻,跟财务相关的新闻,跟法律相关的新闻。同时在这里面加上了工商信息和司法信息。
我们简单看一下。颜色越深表示选的热点,表示这个节点,以及节点下面新闻关注的内容比较多。现在这个展示在右键产能的走势,就是产品的价格走势。这个是涤纶长司产能分布的数据。往下推导的框架接口在这里,包括上市公司和非上市公司,如果是一家上市公司的话,现在大家看到是管理层的东西,主要股东,这里是结合股东、工商信息,包括上市公司,它的子公司和管理层、参股公司、子公司的一个图谱。接下来看到自然源处理把分为经营风险、财务风险,给了司法诉讼和工商变动的一些信息。
比如说刚刚这家公司,以这家公司以节点,想看一下这家公司涉及哪些产业,以及这个产业背后还有哪些上市公司?这是第二种图谱、产业链。
第三种是非常简化的产业链或者图谱,关注什么事情呢?只关注交易信息,其他信息通通不堪。这张图是新能源汽车非常简单的事例,红绿色表示涨跌,下面分为小的产业链,每个小产业链又有细分的产业链,我们称为新能源汽车主产业链。现在主产业链大概有200多个,支产业链有2000多个,红色表示这个有涨跌幅度。
首先大家可以看到,实时统计一段时间的涨跌幅、一周的涨跌幅,这样大家不用猜到底哪个在涨,就可以看。点进去以后是新能源充电板块里面,又包含,可能还有两个子领域,包含17支股票。所以它的信息内容非常简单,只有一些跟专业相关,不涉及太多图谱和其他图谱的提取。
目标:丰富组件和文件框架。
丰富组件什么意思呢?自己感觉有些地方做了一部分,做得不够细,组件不够丰富。要把市场海量信息做进一步分析,分析是重点,处理可以再和其他机构进行合作,重点是要做分析。另外一块要做专业的需求和专业的解答。把量化的专业知识贯彻到整个投研过程当中。完善框架,数据框架和算法框架今天就不说了,自己会对照数据来源分析性够不够。分析框架除了算法框架,比如产业逻辑、投资方法、书记统计、规则发现有没有问题。另外一块是上面的决策框架,虽然只有四个,但是是目前投研最核心的部分,择时判断市场的涨跌,行业和风格的选择很多人会选,个股分析、事件分析,把四块包含起来基本上对市场量化的分析。
这一块来看一下舆情,组建这一块我们做了哪些工作。我们做了一些图,如果鼠标点上去可以看到右边是一个个股的执行图。提供一个万能搜索,可以智能搜索。如果发现搜索一支个股给提供一些趋势信号、资金流、基本面的分析、分析师的分析。如果是产业链的结果,我们给你提供返回的模块,如果什么都没有匹配上,我会把相关新闻发给你看。
完善框架,怎么样构建一个完整的投研体系。我们首先做了一个市场监控。很多的东西其实可以用量化的方式把信息抽取出来。比如说这里看到一家Hurst指数,有标准描述紊乱的指数,有一些实时文档。各个行业,可以成为表述这个行业里面股票趋向性变化的东西,刚才那个是一个事件,经常出现的事件有27个,每一个事件给出这样一个分析结果。不同的测算逻辑下面,这种事件,如果进行事件投资,可能会得到不同的情况,收益情况,日收益情况、月度收益情况,接下来是量化分析,包括行业、板块、风格,最后会给出当前最新符合这个实践的股票热点,这是我们所说的实践研究这个模块里面,我们也补上去了。
量化研究,称为风格投资,我们需要一些平台,大家喜欢配估值还是成长,其实属于因子投资。这里每天会提供核心8大类,大概几十个因子监控结果。
这些不多说了,这是非常量化的一个内容,大家平常都会来看这个东西。这是我们所说的框架。把海外的一些投资方式移植到中国来,进行中国化的验证和跟踪。这里面大概有37位大师,他跟踪下不同的情况,会有一个策略的说明,会告诉你我们怎么进行测算和组合的。这是不同的风格的情况,就是行业的情况,可以非常随意去点左边,选择任何一个大师,来看看他们的策略和综合数据验证和效果。我们还给了一个排名,根据今天或者是过去一个月或者一年,找一些大师来看,这也是我们建议框架里面的一个部分,就是把一些策略的引进。
发展和挑战暂时不说了,一定是发展前景很美好,但是一定会有很多的挑战。
问题一,我们提供的东西有意义吗?我们提供的东西很有用。前段时间这张图在朋友圈很流行,南北方领导人会谈,指数就下跌。有意义吗?第一个问题是统计怎么说?这个东西过统计检验没有?
一共三次事件或者两次事件,这个过不过得去。我们在做挖掘的时候,统计能否说得过去,是我们自己内心非常重要的一个衡量标准,如果过不去的话,这种意义不大。现在我们很多东西是用数据驱动的,或者是数据挖掘,在逻辑上怎么说呢?
这个时候,如果你提供一个东西,是一个非常缺乏逻辑认可的东西,那么对于投资者来说,对于客户来说,他接受程度会非常困难。我们提供的东西,逻辑上会不会说得清楚。
三是“黑箱”怎么用?因为金融公司给我们提供了黑箱产品,算法不知道,中间过程不知道,作为一个负责任的有情怀的金融机构,给我黑箱敢不敢用。对于我们来说,提供的东西对于客户来说有没有意义。
另外一个有意义的东西我们提供吗?
一是信息的价值在于保密,一个有意义的在不断的传达过程,它的作用有可能编制恢复分散。找到一个非常好的交易模式,是不是直接去交易就算了,自己的开发者,扪心自问看一下,都说有意义,我们怎么去证明。我们每一个做金融科技的人,或者做量化的人,都说做出来的东西靠谱,你怎么证明?如果没有新风这样的东西,我们对被动投资不会这么热忱。金融科技是一个新的东西,没有这么多新的东西告诉我们这么有效,怎么去证明。地三是亲身经历的事情,就是量化打分。以前给网监做建议的时候,通过技术面打一个分数,但是后来被否了,因为后来我们遇到一个问题,两支个股从长期来看,一个8分,一个2分,8分好,2分不好,但是有散户告诉我过去2分比8分涨得多,我没法解决。
金融科技在不同的领域,针对客户做单独设计,这是很重要的,否则很多东西没办法用。一个量化打法,在这里面可能没有办法用。
问题二,投研服务的路线之选,是做加法还是做减少?到底提供原料做加法,还是消化这个原料做减法?二是投资决策辅助,给一个更全面的东西,一个深度细节的东西。
在制图谱展示方面,非常烧脑的一部分,到底把所有图谱都报给你,还是报一个非常小的节点。我要知道这个投资过程是正确的,更多给逻辑和推导逻辑。这些路径都是没有问题的,都是需要我们在做产品开发的时候做一个选择。
今天介绍就这么多,谢谢大家!
- 达索系统全球CEO:科学是公司的DNA 坚持长期主义 – 2023年12月28日
- 发改委:实施绿色低碳先进技术示范工程重点方向含“工业互联网+绿色低碳” – 2023年8月24日
- 如何以技术手段破解数据合规难题 – 2023年8月17日