查看原文
其他

数据质量检测|论数据质量差异的显著性

企研数据团队 社科大数据 2024-03-17

日前,一位热心粉丝给企研数据团队的客服提出了一个很有“挑战性”的问题,为什么有些网站都已经开始限时免费分享全国工商数据了,企研数据还要卖这么贵,而且还不允许全量数据下载到个人电脑上,只能在云桌面上使用?好吧,这的确是一个好问题!原因也有很多,比如我们是一家正规的公司,需要避免出现数据安全问题;数据一旦传开了,公司无法生存等等。

回到开始的问题,为了证明其所言不虚,这位粉丝还把Stata数据描述与回归的结果发给了客服。于是,作为专业科研数据服务商,团队对这些结果进行了“学习”,结果发现其统计出来的城市级某类企业的数量非常少,于是我们对此提出了质疑。但是这位粉丝坚决否认自己的统计方法有错,而且数据来源是目前圈内“颇具声望”的“某某数据网”(曾经把企研数据免费对外分享的统计数据放在其数据库中~~~,如图1所示),应该具有权威性。

图1 来自某位用户的咨询

于是,双方进行了你来我往的多次“交流”,最后我们一起得到了上面这张表格截图。基于该数据网统计出来的,概念上应该是某年新注册的企业数量。我们展示了用企研数据的工商库统计的2001-2019年新增企业数量,与该数据库的这一统计指标具有可比性。可以清晰地看到,从数据量上,两者相差不止一个数量级。当然,可能会有人抬杠,数量多就一定更加准确吗?当然不是,但是在这里我们一眼就能看出来,疫情前一年,2019年,全国新增企业16.5w家,这怎么可能嘛!横向的匹配比较工作,完全没有必要,两份数据根本没有可比性。

朋友们,是谁的数据更加靠谱呢?当然,我们某某数据网的数据来自热心网友的分享,不排除这些数据网有更全面完善的数据,也可能就是这位热心网友下载错了。那么情况究竟如何呢?欢迎大家留言,或者跟我们联系。

长按扫码,咨询客服


·END·

星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!



点击搜索你感兴趣的内容吧

往期推荐


CCAD | 新库上线 :“国家现代农业产业园”相关数据上线!引领农业农村现代化,推进乡村产业振兴

数据应用推荐 |《经济研究》:数字经济与边界地区污染治理

数据应用推荐 | 《经济研究》:普惠金融与小微企业破产风险——来自小微支行设立的准自然实验

收藏!《管理世界》2024最新审稿工作管理规定

每周一图 | 历年上市公司人才招聘信息数量图(2014年-2022年)



戳原文,更有料!
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存