【技术】基于数据挖掘聚类方法识别串并多发性侵财案件平台的设计与实现

明略数据丁爸情报分析师的工具箱 2023-01-02

摘要：多发性侵财案件量广面大，直接损害广大人民群众切身利益，严重影响人民群众的幸福感、安全感，人民群众反映强烈，各级党委政府高度重视。多发性侵财案件具有高发性、地域性、选择性等特点，识别串并案件的难度较大，讨论一种基于数据挖据聚类的数学方法，以期实现对多发性侵财案件的机器识别和串并。

关键词：数据挖掘聚类多发性侵财案件串并机器识别

本文内容转自微信公众号：警察技术杂志。

作者：张超张金波伍坤

一、引言

多发性侵财案件具有高发性、地域性、突然性、现场信息少等特点[1,2]。高发性是指案件的发案频率、数量相比其它案件要高出许多；地域性是指作案人员相对集中，往往是团伙作案或者具有地缘性犯罪特征；突然性是指案件往往随机发生，出人意料；现场信息少是指案件现场指纹、足迹、DNA等传统刑侦信息缺乏。侦破此类案件，往往面临取证难、侦办难的困境，在更大范围内串并案件是实施有限侦查的主要途径之一。目前，串并案件主要靠人工分析，效率不高、串并不准，应当充分利用数据挖掘方法辅助实现多发性侵财案件的自动识别串并。

二、基本原理

（一）多发性侵财案件实现自动识别串并的特点条件

抢劫、抢夺、诈骗等多发性侵财案件，（1）犯罪嫌疑人与被害人之间往往有相互接触，被害人可以描述犯罪嫌疑人的细节特征，如性别、种族、身高、体型、大概年龄、眼睛、发色、发型、纹身、口音、搭档人特征等等；（2）犯罪嫌疑人作案规律性比较明显，如对侵害目标、作案地点、时间、工具和方式的选择，同一团伙的作案特征有明显规律性；（3）犯罪嫌疑人反侦查措施相对较少，犯罪嫌疑人往往使用同一交通工具、作案工具、作案手法和方式。

（二）数据挖掘聚类方法介绍

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程[3]。聚类分析方法，就是按一定的规则将对象分组为多个簇，在同一个簇中的对象具有较高的相似度[4]。聚类分析主要用于探索性的研究，其分析结果可以提供多个可能的解，选择最终的解需要研究者的主观判断和后续分析。

（三）多发性侵财案件自动识别串并平台处理流程

1. 数据采集

侦查人员日常接警、处警，将案件相关信息录入系统平台。

2. 数据预处理

将输入的条件转化成为计算机能够识别计算的数字编码。

3. 聚类分析

对输入的规范化数据进行分析，得出一个或多个具有若干相同或相近的规范化数据条件的簇。

4. 人工决策

对聚类的影响因子进行调节，也就是要选择相似度有多高的数据可以作为一个聚类的分类标准。

三、多发性侵财案件自动识别串并平台的设计与实现

（一）多发性侵财案件数据采集

本文中，选取多发性侵财案件犯罪嫌疑人年龄、身高、性别、发色、发长、体型、同伙人数、交通工具等8个特征，对n个犯罪嫌疑人用p个（8个）变量来描述形成n个对象×p个变量的矩阵。

（二）数据预处理

1. 噪声数据

对数据采集的过程中发生错误或存在偏离期望的孤立点值采用数据平滑技术进行处理，将噪声数据替换为箱平均数据、箱中值数据或者箱边界数据等。

2. 空缺数据

采用忽略该属性、人工填写空缺值、使用全局常量填充或使用与给定元组属同一类的所有样本的平均值来填充的方法，其中最常用的是用最可能的值填充空缺值。

3. 数据标准化

为了避免变量对度量单位选择的依赖，通过标准化的方法将变量转换为无单位值。对于给定的变量f的度量值，可以进行如下的变换：

其中x1f ,…, xnf 是 f 的 n 个度量值，mf 是 f 的平均值，即

（三）多发性侵财案件聚类算法

1. 计算2个对象之间的欧几里得距离

得到n个对象的相异度n×n矩阵。

2. 层次化方法聚类

采用凝聚迭代的方法，初始将每个对象作为一个簇，相继地合并相近的对象或簇，直到所有的簇合并为一个，或者达到一个终止条件。

3. 对每一个簇进行描述

将n个对象划分为m个簇后，分别计算出对于任一簇m中r个对象的p个变量的平均值和取值空间：

平均值：，Ai 是簇中对象第i（i={1…p}）个变量的平均值；

最小值：mini=minj={1…r}xij，mini是簇中对象第i个变量的最小值；

最大值：maxi=maxj={1…r}xij，maxi是簇中对象第i个变量的最大值。

（四）多发性侵财案件自动串并人工决策

采用最小距离法来做为终止条件，将所有对象聚合成多个簇，以实现串并案件。在判断一个对象i是否能够加入某一簇m时，计算该对象i与该簇m的平均值点的欧几里得距离，如果该距离小于我们约定的最小距离min的，则该对象i 可以并入簇m，并入后，重新计算该簇m的平均值点，反之，则该对象i不能并入簇m。

四、实验验证及结果

（一）验证数据集

协调湖南省长沙市开福公安分局，调阅开福区四方坪国防科学技术大学周边2012年以来发生的200余起多发性侵财案件记录。按照年龄、身高、性别、发色、发长、体型、同伙人数、交通工具等8个变量构造数据集，形成样本数为236的样本数据集，并对已经明确为同一团伙作案的样本添加类标签。

（二）实验方法及设置

基于Python语言完成了实验平台中的算法开发。运用本文聚类算法，计算两个样本之间欧式距离，并将每个维度上的差异归一到0～1之间。识别后的簇将同数据集上的类标签进行比较，查看是否存在错误。同时，对本文算法与k-均值聚类的正确率进行比较。

（三）实验结果

记录了本文提出的串并算法在不同的簇最小距离设定下的串并正确率，如表1所示。

当簇最小距离设定为0.04时，串并正确率最高，为92.6%。簇最小距离过大或过小，都会使串并正确率下降。

对比基于k-means聚类算法的串并正确率，如表2所示。

可以发现，本文提出的串并算法具备更高的串并正确率。

五、未来发展探讨

对本文的聚类串并算法可以在两个方面进一步加强和改进：

（一）不同特征的权值问题

本文串并聚类算法将不同对象的同一类特征按照同样的方式对待。在实际工作中，某些特征相对其它特征来说的指向性更强，如犯罪嫌疑人的性别、身高、交通工具等特征相对其发型、发色的特征来说区分的意义更大，应当考虑为不同特征赋予不同的权重值。

（二）聚类簇的不规则形状问题

本文串并聚类算法中利用对象间的欧几里得距离作为判定能否聚类的依据，这样的距离度量的算法趋向于发现具有相近尺度和密度的球状簇。在实际中，一个簇可能是任意形状的，应当考虑采用“基于密度的方法”来实现任意形状簇的聚类。

六、结语

在机器辅助办案决策方面的探索，西方国家走在我国前面，2000年，英国伍尔弗汉普顿大学的研究人员和西米德兰兹郡警务人员用2年时间在英格兰进行了相关研究，他们从三年内在辖区内发生的800起假冒工作人员行窃案中，挑选了89起吸引房屋主人注意力的作案人为女性的案件，其中涉及犯罪嫌疑人105人，根据受害嫌疑人的描述，运用聚类方法进行了分析，据参加研究的各方都声称该方法是行之有效的。当然，运用聚类等方法辅助案件判定决策还有很长的路要走，在计算机技术高速发展的今天，相信能够取得更好的效果。

参考文献：

[1] 公安部刑侦局. 2012年打击多发性侵财犯罪专项行动方案[EB/OL].http://www.xz.ga/c/cn,2012-02-23.

[2] 曾文雄. 多发性侵财案件的侦查举措[J]. 政法学刊, 2012.06:91-93.

[3] 百度百科词条.http://baike.baidu.com/view/7893.htm.

[4] 王大龙,秦琦. 关于数据挖掘原理与算法的浅析[J]. 科技创新导报，2010，02:193.

[5] 百度百科词条.http://baike.baidu.com/view/903740.htm.

[6] R. Adderley and P. B. Musfrove. General Review of Police Crime Recordingand Inverstigation Systems. Policing: An International Journal of PoliceStrategies and Management, 24(1), 2001, pp.110-114.

来源：明略数据

明略软件云集了清华、北大、中科大、卡内基梅隆等国内和国际顶级大学的计算机、数学和信息学等领域专业人才，形成了高效、专业的算法、产品及行业客户实施团队。凭借出色、可定制化的大数据实施及数据分析、应用能力，明略软件已帮助了来自金融、电商及政府等多个领域的客户实现了由海量规模数据支撑的业务提升。

公司官网：http://www.mininglamp.com/

“家属和记者取得联系”：记者的退场意味深长

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

这位副市长，跨省升正厅

女主播性感斗舞，直播间惨遭拿下！知名团播整大活，邀女嘉宾家人做节目

要么空仓！要么盯紧这个！

【技术】基于数据挖掘聚类方法识别串并多发性侵财案件平台的设计与实现

您可能也对以下帖子感兴趣

“家属和记者取得联系”：记者的退场意味深长

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

这位副市长，跨省升正厅

女主播性感斗舞，直播间惨遭拿下！知名团播整大活，邀女嘉宾家人做节目

要么空仓！要么盯紧这个！

生成图片，分享到微信朋友圈

【技术】​基于数据挖掘聚类方法识别串并多发性侵财案件平台的设计与实现

您可能也对以下帖子感兴趣

【技术】基于数据挖掘聚类方法识别串并多发性侵财案件平台的设计与实现