kaiyun官方网app下载app 基于SmarTag系统的新闻情绪因子测试(一)

来宾用户怎么联网_物联网最新资讯_互联网资讯用户分析

1.数据库新闻舆情数据介绍

数据库利用其自主研发的信息采集平台,快速灵活地抓取互联网上海量金融信息,并利用强大的处理能力精准挖掘所需数据,如智能标签、实体识别、情感识别等。目前系统已覆盖中国大陆主流财经媒体及各大行业网站,共计超过3000个网站新闻页面,平均每5分钟抓取一次,每天抓取约2万条新新闻。关于数据库智能信息系统更详细的信息,请参考《数酷智能信息使用手册》和《数酷NLP技术白皮书》。

我们对捕获到的每条新闻做了以下处理:

1.提取基本信息:包括新闻标题、时间、来源、智能摘要

2、智能标签识别:识别新闻中的法人、自然人、SAM产品、行业、事件、概念等,算法除了识别标签,还能给出新闻与这些标签的关联性。

3、情感判断:对整条新闻以及新闻涉及的主体进行情感判断。情感分为三种,包括正面、负面、中性。算法会给出主体在三种情感中的概率分布,取概率最大的情感类型作为主体的情感。例如,一则新闻提到了股票A,算法给出A的情感概率为30%中性、10%负面、60%正面,则股票A的情绪为正面。

我们可以通过如下示例数据来更直观的了解数据库提供的新闻舆情数据。每一条原始数据都是一个多层嵌套的json字典。ItemRelevance为新闻与标签之间的相关度,emotionInfos为情绪得分信息,emotionIndicator为主体的情绪类型,1为正面,2为负面,0为中性。

海量、及时的新闻情绪数据,让我们可以快速了解并量化当前整个市场、每一家上市公司的情绪,通过这些数据,及时控制风险,并借助传统投资理论建立量化投资模型。

本报告基于上述新闻舆情数据,结合传统因子理论,构建了基于新闻舆情因子的因子模型。在因子构建过程中,测试了多种因子构建方法,并详细分析了不同方法的效果。报告主要利用了emotionInfos中的情感数据,未使用智能标签中的产品、行业、概念、事件标签。

来宾用户怎么联网_物联网最新资讯_互联网资讯用户分析

图 1:数据样本

2. 如何快速获取新闻情绪数据

数据库中新闻舆情历史数据最早可追溯至2008年,为了方便用户测试和使用新闻情绪相关数据,我们开放了部分经过处理后的情绪数据(而非图1中的原始数据)。您可以通过安装Python模块csf_kit快速方便地获取这些数据。具体安装和使用方法如下:

如果你使用Python进行数据研究,可以在命令行窗口输入以下内容:

pip 安装 csf_kit

快速安装开源示例代码库。

安装csf_kit后,运行以下代码导入示例数据:

从 csf_kit 导入 SAMPLE_SENTI_SCORE

其中,SAMPLE_SENTI_SCORE为2017年1月1日至2019年8月31日的A股情绪数据,具体数据及字段说明如下:

物联网最新资讯_来宾用户怎么联网_互联网资讯用户分析

图2:A股情绪数据

互联网资讯用户分析_来宾用户怎么联网_物联网最新资讯

图3:情绪数据字段描述

关于示例数据,有几点需要注意:

1、每条记录代表某只股票在某条新闻的情绪得分,数据仅包含A股数据;

2.senti_type对应原始数据中的emotionIndicator,原来的2代表negative改为-1代表negative;

3、trade_date为该记录对应的交易日期kaiyun下载app下载安装手机版,具体对应规则为t-2的15点到t-1的15点对应日期t,csf_kit提供了一个方便的函数align_trade_date,用户可以方便的使用,对应规则视情况而定。

3. 新闻情绪因素检验

1.新闻情感因素构建​​过程中的选择

新闻情绪因子的构建主要在于用什么算法把某只股票在一段时间内不同新闻中的情绪得分聚合成一个分数。对于这个问题,其实有很多因素和选项需要考虑。

1)保留中立记录还是删除中立记录?

相较于正负面判断,中性判断是最模糊的。在我们的NLP技术白皮书中也提到,中性新闻的准确率最低。另外,中性新闻被打0分是因为人们对其敏感度不高。极度正负面新闻对中性新闻的反应不同,尤其是当用平均分表征股票情绪得分时,中性新闻会扭曲极度正负面股票的得分。

虽然从逻辑上来说删除中性新闻记录更加合理,但我们稍后会用数据分析来验证我们的结论。

2)平均分还是总分?

平均分是指某只股票在一段时间内所有新闻中的得分平均值,所以基于平均分计算的股票情绪因子是固定在(-100,100)这个范围内的,这种计算方式会损失热度信息,比如出现在10篇新闻中,得分为100的股票A,和只出现在1篇新闻中,得分也是100的股票B,是一样的。

总分是某只股票在一段时间内的得分总和,总分的计算考虑了股票的热门程度,但造成股票得分分布不均,容易出现极值,因此总分的因素更符合逻辑,可以捕捉极端行情的股票,但股票数量不稳定。

3)是否考虑了新闻与股票之间的相关性?

在我们的原始数据和测试数据中,新闻和它出现的股票之间存在相关性,在测试数据中就是相关性字段,计算情感得分时,是否要乘以相关性?逻辑告诉我们应该乘以这个字段,因为这更能体现出同一则新闻中不同股票之间的差异。我们会在后面的分析中呈现两种情况的具体测试结果。

4)对于不同时间发生的新闻,是否应考虑情绪得分的衰减?

假设我们的交易决策是在 t-1 收盘时执行的,那么在这之前不同时刻发生的新闻是否也应该考虑时间衰减呢?比如某只股票在 t-2 收盘时的一条新闻中情绪得分为 80 分,而收盘时情绪得分为 -1 时是否应该仍为 80 分,还是应该以低于 80 分的得分来计算情绪得分,同时考虑到时间衰减呢?从逻辑上讲,考虑情绪衰减更为合理,但由于新闻中的情绪数据噪声很大,具体结论还得看测试结果。

2. 新闻情绪因子检验结果

基于以上不同的选择,我们进行了如下详细的测试。我们所有的因子测试都是使用开源因子测试工具 Alphalens 进行的。分组方法是使用等分位数间隔系统,将数据分为 0 上下 5 组。即根据今天的得分将每一天分为 10 个区间,将同一区间内的股票分组在一起。

我们用不同的字母来表示不同的处理方式,如下:

REL:计算情绪分数时使用的相关性指标

NOREL:计算情绪分数时不要使用相关性指标

TOT:计算情绪得分总分

MEAN:计算情绪得分的平均值

例如:删除中性新闻

NOEX:保持中性消息

EQUAL:不考虑时间衰减的同等权重情绪得分

TIME:按时间权重计算情绪得分

然后,例如,REL_TOT_EX_TIME 表示考虑相关性和情绪衰减并删除中性新闻后的总体情绪得分。

我们先回答第一个问题:要不要保留中性新闻?在图4中,我们统计了同一只股票每天在不同新闻报道中的得分分布的差异,我们用到了两个指标,左边的是Range(最大值-最小值如下图所示),右边使用的是标准差kaiyun下载app下载安装手机版,我们希望某只股票在不同新闻中的得分差异越小,对我们的因子构建越有利,我们可以发现,去除中性新闻之后,差异分布的密度明显变得更平坦,并且坐标轴左边的密度变得更大。图5表明,在对股票进行分组时,去除中性新闻之后,两边的分组(比如1,2,3和8,9,10)增加,而中间的股票数量减少,这意味着去除中性新闻有利于增加因子的分化。

物联网最新资讯_来宾用户怎么联网_互联网资讯用户分析

图4:删除中性新闻与不删除中性新闻的比较A

物联网最新资讯_来宾用户怎么联网_互联网资讯用户分析

图5:删除中性新闻与不删除中性新闻的比较B

下面的图表是所有组合的测试结果,基于这些数据,我们将进行详细的解读。

图7给出了我们期待的结果。从左到右,三列分别是1D、5D、10D的检验结果,从上到下,三行分别是TIME与EQUAL、NOEX与EX、REL与NOREL的比较。图中每一列代表因子计算法下投资组合的年化收益。我们有以下发现:

无论调仓周期是1D、5D还是10D,从收益角度来看,

a)TIME 的因子回报表现始终优于 EQUAL(应考虑情绪衰减因素);

b)EX的因子收益表现始终优于NOEX(中性消息应被剔除);

c)REL的因子回报表现始终优于NOREL(应考虑新闻与股票之间的相关性)。

TOT与MEAN的对比其实还是要看具体的需求,从图6中我们可以看到,按总分计算的TOP和BOTTOM因子的股票数量非常少,且BOTTOM组的收益明显低于按平均分计算的。这说明考虑了热度因子的总分因子更能体现负面情绪的影响,捕捉到负向Alpha。从图8中我们还可以发现,TOT因子对负面情绪的分层效果要好于MEAN因子,而MEAN因子对正面情绪的分层效果要好于TOT因子,整体来看,MEAN因子的分层效果更佳。因此在下面详细的回测测试中,我们将分别使用TOT和MEAN因子,具体如下两个因子分别是REL_TOT_EX_TIME和REL_MEAN_EX_TIME。

来宾用户怎么联网_物联网最新资讯_互联网资讯用户分析

图 6:因子检验结果 A

来宾用户怎么联网_物联网最新资讯_互联网资讯用户分析

图 7:因子检验结果 B

来宾用户怎么联网_互联网资讯用户分析_物联网最新资讯

图 8:因子检验结果 C

四、结论

本报告介绍了数据库的情绪数据,主要测试比较了各种情绪因子构建方法,测试结果符合逻辑,所以在构建因子时,需要去除中性新闻数据,考虑新闻与股票之间的相关性,并考虑情绪的时间衰减。使用总分还是平均分取决于具体的组合需求,因为总分选择的股票数量相对较少,而平均分选择的股票数量相对稳定。

下一篇报道中,我们会对REL_TOT_EX_TIME、REL_MEAN_EX_TIME这两个因子进行详细测试开yun体育官网入口登录app下载,以及在指数增强中使用这两个因子的具体效果,敬请期待。@雪球私企@今日专题

如需获取原始报告、数据样本及测试模块的清晰版本,请联系:business@chinascope.com

关于Shuku

数酷成立于2009年,连续三年入选毕马威中国金融科技50强,是一家数字化时代的数据科技SaaS公司,基于核心数据生产和整合能力,输出高精度、多维度、多格式的数据体系和数据流服务,广泛应用于金融机构资管科技、量化投资、智能风控、智能投研、智能资讯等各类应用场景,用成熟高效的数据解决方案助力金融机构数字化转型和技术升级,迎接数据科学驱动的投资新时代。

物联网最新资讯_互联网资讯用户分析_来宾用户怎么联网

数据库现已拥有SAM产业链体系、供应链、企业地图、新闻舆情、智能公告研流等全方位财经数据流服务,覆盖A股、科创板、新三板、港股、美股及2500万+非上市公司,数据库还拥有基于网页的新闻情报系统iNews,登录inews.chinascope.com,免费注册使用iNews,感受数据连接的魅力!

公司网站:网页链接

商务合作:business@chinascope.com

关键词:

客户评论

我要评论