【图文资料】基于开源情报网络分析与网页分析
1. 网络分析和网页分析导论
a. OSINT:开源情报
b. 基础设施评估
c. 技术技能
2. 信息来源,检索和提取
3. 网络分析
a. 图形构造
b. 连接度,连接组件和巨型组件
c. 中心性措施:影响
d. 社区
4. 使用R和Gephi的实际例子
联邦调查局(FBI)
联邦调查局是一个以情报为导向、以威胁为重点的国家安全组织,在美国负有情报和执法的双重职责。
FBI情报周期描述了将未经精炼的数据发展成供决策者使用的精炼情报的过程。
他们定义了6个步骤:需求、规划和指导、收集、加工和开发、分析和生产和传播。
墨西哥调查与国家安全中心(CISEN)
CISEN生成战略和运营情报,旨在维护墨西哥州的完整性,稳定性和持久性。
CISEN定义了一个五步循环,其中包括:计划,收集,过程和分析,传播和利用以及反馈。
中情局(CIA)
中情局是美国总统在与国家安全有关的情报事务上的主要顾问。
CIA收集,准备信息并生成情报报告,以帮助美国领导人做出决定。它定义了一个包含五个步骤的循环。
加拿大安全情报局(CSIS)
CSIS处于加拿大国家安全机构的前列。它的主要作用是调查涉嫌对加拿大安全构成威胁的活动,并向加拿大政府报告。
CSIS收集情报信息并将其分发给适当的政府决策者。他们定义了五个步骤的周期:政府指导,计划,收集,分析和传播。
跨行业数据挖掘标准流程(CRISP-DM)
定义一个数据挖掘过程模型,该模型描述了数据挖掘专家用来解决问题的常用方法。
CRISP-DM于1996年构思,由五家公司领导:SPSS,Teradata,Daimler AG,NCR Corporation和OHRA。它定义了一个由六个相互关联的步骤组成的周期:业务理解,数据理解,数据准备,建模,评估和部署。
Autoritas商业情报周期
what?概念化品牌
when?危机管理
where?两个维度
对话在哪里发生?谈话的重点是?
how?不仅是情感分析
极性只是一个维度,情感、价值观、SWOT……所有这些都可以回答“HOW”的问题。
who?社交网络分析
如果我想传递一个成功的信息, 谁能帮助我?如果有冲突,我要看谁?
why?作者分析
共同的任务
- 了解业务
- 收集,准备,清理资料
- 分析、评估和解释信息
- 传播情报
开源情报、人力情报、地理空间情报、测量情报、信号情报、技术情报、医学情报、网络情报、数字情报、金融情报
基础设施
技术专长
总之,一个好的数据科学家应该是一个能够:
1. 了解业务基础,将业务需求转化为数据问题;
2. 管理计算机工具,准备、检索和清理数据;
3. 掌握统计和数学分析和评价信息;
4. 与其他团队成员合作;
5. 以适当的方式交流结果。
几乎有无限不同的来源,但它们可以分为:
- 搜索引擎
- RSS频道
- 快讯
- 开放数据
- 社交媒体
搜索引擎有不同的种类:
- 通常使用的
- 谷歌,雅虎,必应。。。
- 专业的
- carrot2:http://search.carrot2.org
- 专利
- 国家机构(例如http://consultas2.oepm.es/InvenesWeb)
- 谷歌专利(https://patents.google.com )
- 合法的
- 公共法律图书馆 http://www.plol.org
- 国家机构(例如http://www.poderjudicial.es/search/indexAN.jsp)
RSS频道
丰富的网站摘要或非常简单的说明,发布网站的最新消息与完整或总结的文本和元数据, 比如发布数据或作者的名字。
实践:
-使用Google快讯创建快讯
-从快讯生成RSS摘要
开放数据
-国家机构(例如http://www.ine.es)
-欧洲统计局
(http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database)
-美国人口普查局
(http://www.census.gov/population/international/data/idb/informationGateway.php)
-美国人口普查局-国家统计机构名单
(http://www.census.gov/population/international/links/stat_int.html)
-世界银行(http://data.worldbank.org)
-联合国(http://data.un.org)
-CEPAL统计信息(http://websie.eclac.cl/infest/ajax/cepalstat.asp)
-亚太统计资料(http://www.unescap.org/stat/data/swweb_syb2011/DataExplorer.aspx)
-OMPI专利(http://www.wipo.int/patentscope/search/zh/search.jsf)
-OMPI品牌(http://www.wipo.int/madrid/zh/romarin)
社交媒体
- 创建Twitter帐户
- 创建Twitter应用程序并获得API凭据
- 用R应用程序检索推文
- 用R应用程序提取用户提到的内容
- 用R应用程序提取标签
网络分析
有不同种类的网络表示:
—图
—邻接矩阵
—链接列表
—邻接表
需要移除的节点或边缘的最小数量,以断 开其余节点之间的相互连接。
每个节点度是该节点与图中其他节点之间的边数。
图中有两个度:
- 到达节点的独立或边数。
- 出度或离开节点的边数。
每个节点的独立度和外度是多少?
连通分量是一个子图,其中任意两个顶点通过路径相互连接。
巨型组件是一个连接的组件,它包含整个图的顶点的恒定分数。
中心度度量表示图中最重要的顶点:
- 社交网络中最有影响力的人。
- 基础设施(如互联网)中最关键的节点)。
- 疾病的最高传播者。“重要”一词有许多不同的含义,例如不同的中心度:- 度中心性
- 紧密性中心性
- 中间中心性
- 特征向量中心性
- ...
特征向量中心性衡量图中节点的影响取决于连接到它的其他节点的影响。换句话说, 给定一个节点,连接到它的高分节点比低分节点贡献更多。
它是一种递归度量。给定图及其邻接矩阵A=(a v,t )在哪里 v,t 如果节点v链接到节点t,则为1,否则,我们可 以计算节点v的特征向量中心性分数为:直观地说,与v连接的影响越大的节点越多 有影响力的v是。
中间性中心性计算一个节点的次数 图中相互对节点之间的最短路径。
换句话说,节点v的中间性中心性是图中从一个节点到通过v的任何其他节点的所 有短路路径的比率。
数学上:从s到t经过v的所有最短路径之和除以s到t的所有最短路径。
直观地说,中间性衡量一个节点有多重要,取决于有多少其他节点依赖它来连接。
在中世纪,谁有更多的友谊?和特征向量?
1. 小贩,知道每一个市长和警卫队长,主要零售商和供应官员的所有城市,城堡,修道院,男爵和县通过它。
2. 伯爵,他俯瞰着主城堡和该地区的所有贵族,拜访他,知道他所在县的主要公民。
3. 夜班警卫,白天谁必须睡觉,谁不是能够找到不认识人的合作伙伴。
4. 主教,他与他的主教区的所有修道院和主要长老的修道院的修道院有关,超出了任 何县或地方的领地
节点间最大的距离是什么?
一个网络据说有一个社区, 它的节点是否可以很容易地分组成一组节点,这样每一组节点在内部都是密集连接的。
网络分析练习
-推特对话分析
- 用户标签分析
原文PDF文档已上传小编知识星球,扫描或长按识别下面二维码可下载