查看原文
其他

企业数据库匹配系列(四)|海关库与工商库匹配报告(下)

企研数据 社科大数据 2022-12-31


前言

企业数据库之间的横向匹配,贯穿了企研数据团队的整个创业历程。自2018年始,各个数据库之间的匹配报告几易其稿,2020年疫情爆发之初的那个半年陆续完成。但囿于我本人的堕怠和一些顾虑,一直都没有最后定稿推送,这次发狠心一定要一口气把积攒的这几篇报告推送完成。这就是近期推送企业数据库匹配系列的来由,希望社科大数据公众号读者们批评指正。

——杨奇明(企研数据CEO)

2022年8月16日于杭州·海聚中心



本文承接自企业数据库匹配系列(四)|海关库与工商库匹配报告(上),欢迎阅读查看。(原文标题序号有误)

公众号对话框内发送关键词“20220930”即可获取海关库与工商库匹配报告PDF版。

目录(滑动查看)

一、引言

二、海关数据库清理

(一)各个版本数据库的对比

(二)数据存在的问题及处理

    1. 指标数量不一致

    2. 信息缺失或错误

    3.  数据重复问题 

三、海关库与工商库的匹配

(一)匹配方法

    1. 融合变量

    2. 匹配思路

(二)匹配结果

参考文献 

附录


海关数据库与工商库的匹配报告(下)

Part3海关库与工商库的匹配

(一)匹配方法

融合产品层面的贸易数据与工商部门的登记信息会面临一定的技术问题,不当的方法选择会导致匹配率与准确率大打折扣。从匹配方法上看,共有字段是两个数据库融合匹配的基石,且共有字段的选择要遵循可唯一识别的原则,即能够通过一个字段或多个字段的组合,使得数据的重复尽可能低。

1.  融合变量

为了把海关数据库与工商库进行科学精准的横向匹配,挑选合适的关键融合变量和采取有效的融合方法是非常重要的。通过比对海关数据库和工商库中相互联系的共同字段,我们筛选出在两个数据库中均能识别企业身份信息的字段作为我们的关键融合变量,具体如表5所示。

表5 融合变量清单

  • 海关注册编码:即海关注册号,是报关单位《进出口货物收发货人报关注册登记证书》上的 10 位数字登记编码,为企业唯一的和终身的经营单位编码。
  • 统一社会信用代码:工商企业数据库中,企业登记的是工商注册号。2015 年商事制度改革后,企业统一登记“统一社会信用代码”。
  • 组织机构代码:参考《全国组织机构代码编制规则(GB11714-1997)》和《法人和其他组织统一社会信用代码编码规则(GB32100-2015)》。
表5列出了我们整个匹配过程中所用的融合变量(其在两个数据库中存在于不同的字段当中)对其详细的解释说明。我们选取了“组织机构代码”和“企业名称”作为融合变量,用于识别两库中样本企业身份能否一一对应,也即是能否匹配到同一家企业。

2. 匹配思路

整个匹配框架主要分成“组织机构代码”匹配和“企业名称”匹配这两个部分。

①“组织机构代码”的匹配涵盖了整个匹配过程的前四步。

STEP1:对海关库进行海关注册编码去重。逐年抽取进出口贸易数据,以海关注册编码为关键词将样本进行去重,确保海关注册编码能唯一识别企业。

STEP2:对海关信用注册信息表进行海关注册编码去重。为了增加与工商库的融合字段,我们引入了海关信用注册信息表[1] ,其既包含了海关注册编码字段,也包含了统一社会信用代码。与海关库类似,为了确保海关库与海关信用注册信息表的匹配结果都是在唯一识别的前提下进行,我们同样对海关信用注册信息表按照海关注册编码进行去重处理。

STEP3:以海关注册编码为媒介,为海关库匹配上统一社会信用代码。通过海关注册编码,我们将海关库与海关信用注册信息表联结起来,为海关库匹配上统一社会信用代码,进而为后续与工商库的匹配提供了必要基础。

STEP4:匹配海关库与工商库,为海关库获取企业唯一识别码。利用海关库已匹配好的统一社会信用代码与工商库联结,可以获取工商库的工商企业唯一识别码。在实际匹配过程中,会出现唯一匹配、非唯一匹配、无法匹配三种情况,唯一匹配是指海关库与工商库的统一社会信用代码一一对应,非唯一匹配是指海关库的统一社会信用代码可能指向多家工商库企业(如,在海关信用注册信息表中,多个海关注册编码对应着同一个社会信用代码,就会造成后文社会信用代码的非唯一匹配),无法匹配是指海关库的统一社会信用代码无法匹配上工商库的统一社会信用代码。为了保证匹配的精确程度,该步骤我们仅取唯一识别部分,并将唯一识别部分以海关注册编码字段为连接条件,匹配回原始海关数据。

以上是以“海关信用注册信息表”作为桥梁,利用“海关注册编码+统一社会信用代码”进行匹配的主要步骤。保留经过“海关注册编码+统一社会信用代码”进行匹配后没有成功匹配上的剩余样本,再进行下一步“企业名称”匹配。

②“企业名称”匹配:

STEP5剩余样本企业名称标准化后去重。由于企业名称匹配是精确匹配,因此任一字符不一致都会导致匹配失败。如一家企业名称包含括号的企业,在海关库中显示为英文括号“()”,而在工商库中为中文括号“()”,精确匹配方法下,若不进行企业名称文本标准化处理,就会因为括号而导致无法匹配。基于以上说明,我们针对剩余样本的企业名称进行了标准化处理,包括去除中英文括号,替换中文数字为阿拉伯数字等等(详细处理方案参见《中国工业企业数据库与专利数据库匹配报告》)。如字母全角转换成半角、括号格式统一成“()”、空格符的删除等等。在标准化的基础上,我们根据标准化后的企业名称对剩余样本进行去重处理。

STEP6工商库企业名称标准化后去重。参照STEP5的做法,我们对工商库中企业的名称同样进行标准化处理,然后去重得到名称唯一的企业。

STEP7以海关库与工商库的共有变量“企业名称”企业名称为连接条件,为剩余样本企业获取唯一识别码。同样,在唯一匹配、非唯一匹配、无法匹配三种结果中,仅保留唯一匹配部分,并将唯一匹配部分匹配回剩余样本。

以上为海关库与工商库匹配的全部过程,详细流程如图5所示。
图5 匹配流程图

(二)匹配结果

根据以上匹配办法,匹配成功的数据量和匹配率见表6。版本1的匹配率总体上呈现出螺旋上升的趋势,2000-2004年匹配率保持着稳定上升,随后在2005年、2007年、2011年出现三个相对低点后于2013年达到匹配率的峰值99.65%。版本2的匹配率则呈现出两个明显分化的阶段,第一阶段为2007-2013年,这一阶段,匹配率呈现出缓慢增加的趋势,由2007年的97.00%增加至2013年的99.65%;第二阶段为2014-2016年,这一阶段呈现出“V”字形反转,2014年98.32%的匹配率相对2013年的99.65%略有下滑,随后下滑至 2015年的历史低点90.36%,紧接着快速反弹至2016年的99.86%,为版本2的历史最高匹配率。
表6 不同渠道海关数据库去重后匹配情况

Part4参考文献

[1] 戴觅、余淼杰、Madhura Maitra.中国出口企业生产率之谜:加工贸易的作用.经济学(季刊)2014(1):675-698.

[2] 余淼杰.加工贸易与中国企业生产率:企业异质性理论和实证研究[M].北京:北京大学出版社,2013:318-321.

Part5附录

附表 两个版本海关数据库指标分布比较


数据导入Oracle过程中遇到的问题及解决方法
2000-2013版本的海关数据库是Stata 13 版本的dta格式文件,而海关数据需要存储至Oracle数据库中以备后续使用,且Stata文件不能直接导入到数据库,需要使用Python3进行前期的预处理,所以需要将其转换为具有普适性的csv类型的数据。在使用Stata将其转为csv后,使用Python3读取时会抛出“Unicode Error”错误出来,即部分字符不能解码,也就是我们所熟知的乱码,从而导致文件不能进行正常读取。
Stata 13及之前的版本编码格式一般采用GB2312或GBK或GB18030编码,而Stata 14之后的更高级版本以及其他数据处理工具Python3、R语言等默认采用的是UTF-8编码。虽然他们也支持其他编码方式,但不同的字符编码有不同的映射关系。所以即便是相同的文字,在不同的编码下,含义也会不同,此外UTF-8以外的编码方式存在没有收录的文字。这时用高级版本的Stata或Python打开早期版本保存的文件,非英文字符出现乱码也就不奇怪了。
版本1的海关数据使用默认的GB18030编码方式,在将其转为csv类型的文件后,其编码方式仍为GB18030,这就是Python3读取文件会报错的原因。编码导致的乱码无疑给数据的后续清理、融合、分析造成很大麻烦。Python3使用兼容性更强的UTF-8的编码方式,因此只需要将使用GB18030编码的Stata数据转换为UTF-8编码的数据即可解决中文乱码的问题。
Stata从14版本之后默认使用的是UTF-8编码,同时Stata开发者也考虑到高版本兼容低版本数据的问题,因此保留了高版本可以打开低版本数据的能力,只是需要指定编码方式。利用这一特性可以将低版本的数据使用高版本的Stata打开,再重新指定编码为UTF-8,然后就方便其他应用读取数据了。Stata也确实提供了这样的代码可以让我们对低版本的stata文件进行转码,以Stata 16转Stata 13版本的数据为例,转换单个文件的代码如下:
需要注意的是,使用该方法转码UTF-8格式的dta数据会覆盖当前文件夹的原数据,可以先对原来的dta文件进行备份,最后再将转码后的数据替换原始数据。另外,我们转码前需要设置编码格式为GB18030。因为GB18030是在 GBK基础上的扩容,而GBK又是在GB2312基础上扩容。也就是说,GB18030 编码包含GBK,而GBK又包括GB2312,所以转码前可以统一设置编码为GB18030。当需要批量转换时,只需写个循环即可。

注释

[1]

海关信用注册信息表: 海关信用注册信息表来源于中国海关企业进出口信用信息公示平台。



系列推文
企业数据库匹配系列(一)| 工企库与工商库匹配报告(上)
企业数据库匹配系列(一)| 工企库与工商库匹配报告(下)
企业数据库匹配系列(二)| 用文本相似度算法为中国工业企业数据库筛选重复样本
企业数据库匹配系列(三)|专利库与工企库匹配报告(上)企业数据库匹配系列(三)|专利库与工企库匹配报告(下)企业数据库匹配系列(四)|海关库与工商库匹配报告(上)
学术RA丨如何用机构代码唯一识别企业(科普篇)
学术RA | 如何用机构代码唯一识别企业(实践篇)


关于数据匹配与数据清洗,您有任何想要交流的,欢迎加入
企研·社科大数据平台数据分享群




·END·

星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!



点击搜索你感兴趣的内容吧

往期推荐


成绩报告单 | 首篇《经济研究》!CCAD再助学者发顶刊!

课题资讯 | 2022国家社科立项:普惠金融领域立项课题有哪些?

课题资讯 | 2022国家社科 — 共同富裕领域立项课题

课题资讯 | 绿色发展领域的国家社科立项:这几个省份立项课题最多!

CCAD学术周报(第101期)|  “三农”期刊最新文章合集


戳原文,更有料!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存