查看原文
其他

新库上线 | 上市公司-定期财务报告文本数据库上线!包括65个年报文本指标

企研数据 社科大数据 2024-03-17


一、前言

年度报告作为上市公司管理层与外部投资者沟通的重要媒介,在引导投资者交易行为,提高资本市场定价效率方面发挥着重要作用。据企研数据统计显示,近20年来,中国上市公司发布的年度报告平均长度从2001年平均2.2万字增长到2021年7.4万字,从63页增加到220页,增幅高达3-4倍。基于现有文献研究需求,企研数据特研发了上市公司定期财务报告文本数据库(以下简称上市公司年报文本数据库)

二、数据库简介

上市公司年报文本数据库基于全部A股上市公司公开披露的年度财务报告(以下简称:年报)全文所构建。该数据库在统计有关文本指标时,剔除了转码失败或者乱码的年报,年报全文来源于巨潮资讯网,通过爬虫和手工整理获得。该库包括5张表、65个指标。

  • 该数据库主要包含如下5张表:

(1)年报基础文本指标是基于上市公司2001年以来的年报文本全文,结合结巴分词等技术构建了反映上市公司年报文本基本特征的指标库。具体包括年报总词数(未剔除停用词)、年报总的字符数(剔除停用词)和年报页数等字段,指标时间跨度为2001-2022年。

(2)年报文本语调指标是基于上市公司2001年以来的年报文本全文,并结合现有国内外文献所提供的情感词典和计算方法所构建。现有文献中常用的财经文本情感语调词典分别是Loughran and Mcdonald(2011)基于欧美上市公司10-K文本构建的的情感词典和Bian et al.(2021)基于中国上市公司年报文本和其他财经文本构建的情感词典。运用这两个词典来衡量年报文本语调有其合理性,并广泛应用于除年报以外的其他财经文本,如:MD&A (Dutta al., 2019;赵昕等, 2022; 周升师和苏昕, 2023)、CEO信函(Patelli and Pedrini, 2014)、业绩预告(Baginski et al., 2016)、分析师报告(马黎珺等,2019)、盈余电话会议(Davis et al., 2011; William and Venkatachalam, 2012)和业绩说明会(谢德仁和林乐, 2015; 林乐和谢德仁, 2017; 甘丽凝等, 2019)等文本信息。参照曾庆生等(2018)的研究,借助有道翻译和谷歌翻译等翻译软件,对Loughran and Mcdonald(2011)提供的情感词典进行翻译,并尽可能的保留同一个单词的多个中文翻译,最终共获得积极词 634 个,消极词 2400 个。另外,数据库也借助Bian et al.(2021)提供的情感词典(包含积极词 1109 个,消极词 1488 个),分别统计了年报中积极词和消极词数,并分别计算了反映上市公司年报文本情感语调的多个指标。

(3)年报可读性指标是基于上市公司2001年以来的年报文本全文,并结合现有国内外文献所提供的计算方法所构建。参照Li(2008),王克敏等(2018)和徐巍等(2021)的研究,该指标库构建了反映年报文本可读性的三种衡量方法,并统计了计算这三种可读性的基础指标,包括:句均字数、副词连词数、会计术语数和常用词数等指标。

(4)年报文本相似度指标是基于上市公司2001年以来的年报文本全文所构建的反映年报文本内容调整幅度的指标库。参照Brown and Tucker(2020)的做法,该指标库包含了反映年报文本相似度的常用指标,包括年报文本之间的余弦相似度、杰卡德相似度、最小编辑距离和欧式距离等,同时考虑到常用词等因素的影响,该指标库同时区分了用TF-IDF加权后的文本相似度和未加权的文本相似度指标。

(5)年报其他文本指标是基于上市公司2001年以来的年报文本全文所构建的反映年报文本特征的其他指标,主要包括数字个数、金额个数、百分比个数、数字占比以及金额和百分比占比等指标。

  • 数据详情如下:

三、数据库特色

全面的上市公司文本数据源

数据库涵盖了所有A股上市公司2001-2022年最新的年度财务报告,提供了丰富的数据源,可以为研究人员提供全面的数据基础,大大提高了数据的可用性和研究价值。

多维度的上市公司文本指标体系

数据库提供了多种文本指标,包括基础文本指标、文本语调指标、可读性指标、文本相似度指标以及其他文本指标,可以从多个维度分析和理解年报文本特征,全面和多维度的打开上市公司文本“黑箱”。

强时效性和可持续的数据更新

数据库的时间跨度从2001年到2022年,可以追踪和分析近20年的年报变化趋势。随着新一年度的年报发布,数据库会持续更新,保持数据的最新性。

四、数据库字段说明

1.  年报基础文本指标

字段名称字段说明
证券代码证券代码
年份年份
年报总词数
(未剔除停用词)
分词后,年报中包含停用词在内的总的词汇数。
年报总词数
(剔除停用词)
分词后,年报中不包含停用词在内的总的词汇数。
年报总字符数未分词的情况下,年报中总的字符数。
年报总句子数年报中总的句子数。
年报总页数年报的总页数。


2.  年报文本语调指标

3.  年报可读性指标

4.  年报文本相似度指标

5. 年报其他文本指标

五、样例数据

因篇幅有限,推文只展示部分字段。完整数据请登录企研·数据超市(https://m.qiyandata.com)进行查询!


图一 年报基础文本指标(部分)

图二 年报可读性指标(部分)

六、数据下载指南

  • 个人用户采购下载

企研·数据超市(https://m.qiyandata.com)上采购您所需的数据!

采购路径:

  1. 进入企研·数据超市网站(https://m.qiyandata.com);
  2. 点击“个人用户登录”;
  3. 登录成功后,页面将自动跳转至“数据超市”页面;
  4. 点击“获取全部模块”可查看全部可采购数据;点击“筛选专题库”,可对数据进行筛选;在搜索框内输入关键词,可快速获取相关数据。
图片来源:企研·数据超市 m.qiyandata.com

六、引用规范

本数据由企研数据提供。使用企研·社科大数据平台研究发表的社科论文或研究报告,需在中文成果中标明“ 本论文(报告)使用数据全部(部分)来自企研·社科大数据平台(CBDPS)”,英文成果中标注数据来源为“Qiyan China Big Data Platform for Social-Science(CBDPS)”。

如需咨询数据,👇请扫码系客服

长按扫码,添加客服
·END·

星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!



点击搜索你感兴趣的内容吧

往期推荐


数据应用推荐 |《经济研究》:市场一体化对企业数字创新的影响——兼论数字创新衡量方法

每周一图 | 全国生猪产能数据历年变化趋势图(2009-2022年)

佳文推荐 | 公司治理实践新动向:从ESG到反ESG

共同富裕(第53期)|  国家发展改革委、国家数据局印发《数字经济促进共同富裕实施方案》

数据应用推荐 |《中国工业经济》:市场监管与企业成长 ——基于行政处罚数据的经验分析

戳原文,更有料!
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存