查看原文
其他

【观点】开源情报分析需警惕数据来源缺陷

dingba 丁爸 情报分析师的工具箱 2023-01-02

8月27日,微博博主“数据之枭”发表了一篇有关命案侦破率推算的文章,引起较大争议。

博主“数据之枭”根据卫生部统计年鉴上公布的命案被害人数和裁判文书网以及威科法律信息库上公布的故意杀人案件判决书数推算出我国命案实际侦破率在30%-40%。

对于不了解中国警方的人来说这个推算是有依有据的,而且数据都是来源于官方网站,可信度较高。


但对于从警多年,又非常熟悉刑侦业务的人来说,肯定知道这个推算与实际情况误差是十万八千里。


为什么通过官方公布的数据会得出错误的推算结果呢?


从国家统计局官网可看见历年公安机关立杀人案件数量:http://data.stats.gov.cn/easyquery.htm?cn=C01

指标2017年2016年2015年2014年2013年2012年2011年2010年2009年2008年2007年2006年2005年2004年2003年2002年2001年2000年1999年
 
公安机关立案的杀人刑事案件(起)
79908634920010083106401128612015134101466714811161191797320770247112439326276275012842927426


其中2017年公安机关立杀人案件7990起。


现在分析微博博主“数据之枭”推算错误的原因:

1、没有理解数据背后的一些知识,仅仅从字面上理解了这些数据。

比如裁判文书网上的故意杀人案,不一定是杀死了人的案件;另外被杀死的人又不一定是立故意杀人案,还包括故意伤害、寻衅滋事、聚众斗殴和过失致人死亡等情况;因此,用故意杀人判决书与卫生部统计数据进行比对肯定有非常大的误差。

还比如,公安机关立的杀人案,起诉和公诉以及判决时就不一定是故意杀人来起诉和判决了,这个里面也会有很多变化。


2、部分数据虽然是官方公布,但是本身并不完整,所以在引用时必然导致推算偏差。

比如裁判文书网上的判决书,并不是法院的所有判决文书都全部上传到网上了,裁判文书网自2014年正式启用,整个文书上网工作都还在不断的完善中,就笔者所知,目前裁判文书上网率在50%左右。


从这个例子可以发现,在开源情报分析中,了解相关业务和熟悉相关数据来源情况才能更准确的进行分析判断。


这里就还要谈到小编昨天发送的有关“战略情报急需加强”的文章,因笔者引用的仅限于知网的内容,故这个判断也难免有较大偏差。不过相关思路可以给一些需要找论文题材的同学一些方向。

【观点】中国战略情报急需加强----从知网论文检索情况窥探


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存