网络安全相关数据集
1. 入侵检测
1.1. DARPA
数据集简介
DARPA 数据集是 1998 年美国国防部高级研究计划局(Defense Advanced Research Projects Agency,DARPA)在麻省理工学院进行的一个入侵检测评估项目生成的,它包含 1998、1999、2000 这 3个数据集,包括 5 种主要的攻击类型1:Denial of Service(DoS)、User to Root(U2R)、Remote to Local(R2L)、Probes 和 Data。
DARPA 1998 包括审计日志数据和网络流量数据两个部分,审计日志数据使用 Sun 公司的 Basic Security Monitoring (BSM) 收集,网络流量数据使用 tcpdump 收集。数据集中每一行代表一个会话,每一个会话对应两台计算机之间单独的 TCP/IP 连接,一个 TCP 会话过程包括建立三次握手到关闭连接时最后收到的 FIN 和 ACK 数据包。每一个会话通过 5 元组唯一标识,此 5 元组即开始时间、源 IP、目的 IP、源端口、目的端口。数据集在模拟的入侵环境中收集:路由器内部网上有两个工作站,外部有一个工作站。
内部工作站 IP 分别为 192.168.0.20 和 192.168.0.40,BSM 在 192.168.0.20 这台工作站上运行;外部工作站 IP 为 192.168.1.30
下面展示了 tcpdump 的样本及对应的特征,收集的样本仅包括内部和外部工作站之间的 TCP/IP 连接,特征包括 唯一会话索引,会话开始日期,会话开始时间,会话持续时间,服务名,源端口,目的端口,源IP,目的IP,会话攻击分数和攻击名
,其中 会话攻击分数
表示这个会话是攻击的可能性,分数越高则此会话是攻击的可能性越大,训练数据会将此特征设置为 1 或 0 明确此会话是否为攻击,测试数据则会将此特征设为 0。攻击名
表明了此会话的攻击,具体可查阅 1998 Training Data Attack Schedule。
1 | Start Start Src Dest Src Dest Attack |
下面展示了 BSM 审计数据的样本和对应的特征,它的格式和 tcpdump 是相同的,但因为只有 1 台工作站上装了 BSM,所以 BSM 会话数会少于 tcpdump 收集到的会话数。
1 | Start Start Src Dest Src Dest Attack |
DARPA 19992/20003 与 DARPA 1998 相比,除新增了一些攻击之外,最大的不同在于增加了一个 Windows NT 工作站作为受害者,因此数据集还多了 Windows NT 的审计数据,没有像 DARPA 1998 那样提供了 tcpdump.list 这样已经处理好的文本文件,需要自己解析,比如想获取 Snort 的告警日志,在安装和配置好 Snort 之后,可通过执行以下命令实现:
1 | snort -c ./Snort/snort.conf -r ./DARPA1999/inside.tcpdump -l ./Snort/log |
这两个数据集的相关介绍可以参考下面三篇文章:
数据集获取
本文最后访问数据集时间:2021-06-05
https://www.ll.mit.edu/r-d/datasets/1998-darpa-intrusion-detection-evaluation-dataset
https://www.ll.mit.edu/r-d/datasets/1999-darpa-intrusion-detection-evaluation-dataset
https://www.ll.mit.edu/r-d/datasets/2000-darpa-intrusion-detection-scenario-specific-datasets
1.2. KDD99
数据集简介
KDD99 数据集4基于 DARPA 1998 数据集,它对 DARPA 1998 数据集进行了特征分析和数据预处理。KDD99 将攻击分成了 4 大类,分别是 DoS、R2L、U2R 和 Probing。下面展示了 1 条 KDD99 的样本,它有 42 个字段,其中包括 41 项特征,最后 1 项是标签。
1 | 0,tcp,http,SF,181,5450,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,9,9,1.00,0.00,0.11,0.00,0.00,0.00,0.00,0.00,normal. |
这 41 个特征又可以分成 3 类4,基于 TCP 连接的基本特征、基于 TCP 连接内容的特征、基于时间的网络流量特征(这里使用 2 秒的窗口),具体内容可查阅 KDD-CUP-99 Task Description。
数据集获取
本文最后访问数据集时间:2021-06-05
http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
1.3. NSL-KDD
数据集简介
NSL-KDD5 数据集去除 KDD99 数据集中冗余的数据,克服了分类器偏向于重复出现的记录等问题,需要填写一些个人信息,提交表单后才能获得数据集。
数据集获取
本文最后访问数据集时间:2021-06-05
https://www.unb.ca/cic/datasets/nsl.html
1.4. UNSW-NB 15
数据集简介
KDD99 等数据集距离现在已经十分久远,不能反映当前的网络威胁环境,所以新南威尔士大学(The University of New South Wales)创造了此数据集。UNSW_NB15_training-set.csv 和 UNSW_NB15_testing-set.csv 是预处理过的数据集,训练集有 175341 个样本,测试集有 82332 个样本。
下图给出了 UNSW-NB 15 没有预处理过的 CSV 数据集,它有 49 个字段,其中包括 2 个标签,最后两个字段分别为attack_type
和 label
,attack_type
用字符串的形式标识此记录的攻击类型,label
以 0-1 的方式标识此记录是否为攻击,攻击则此字段为 1,否则为 0,具体的每个字段的内容可以查看 UNSW-NB15_features.csv,或者阅读文献 UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set)6。
下图给出了 UNSW-NB 15 数据集的文件内容(UNSW_NB15_training-set.csv 和 UNSW_NB15_testing-set.csv),它有 45 个字段,其中包括 2 个标签,attack_type
和 label
。
数据集获取
本文最后访问数据集时间:2021-06-05
项目地址:https://research.unsw.edu.au/projects/unsw-nb15-dataset
数据集下载:https://cloudstor.aarnet.edu.au/plus/index.php/s/2DhnLGDdEECo4ys
项目地址依然可以访问,但是数据集不能正常下载,需要到下面的 cloudstor 中下载。
1.5. UGR’16
数据集简介
收集了西班牙一些具有战略性地位的 ISP 网络中的流量,它由两个不同的数据集组成:,一个从收集了 2016 年 3月到 2016 年 6 月 这 4 个月的校准数据集,它包含真正的后台业务数据; 还有一个收集了 2016 年 7 月到 2016 年 8 月这 2 个月的测试数据集,它包含真实数据和生成的流量数据,这些生成的数据覆盖了许多已知的攻击类型。
数据集获取
本文最后访问数据集时间:2021-06-06
https://nesg.ugr.es/nesg-ugr16/index.php
2. 僵尸网络
2.1 CTU-13
数据集简介
CTU-13 是 2011 年在捷克理工大学(Czech Technical University in Prague)捕获的僵尸网络流量数据集。CTU-13 数据集包含 13 个不同场景下捕获到的数据,在每个场景中,我们都执行了一个特定的恶意软件,这个恶意软件使用了多种协议并执行了不同的操作,详细内容请查阅 THE CTU-13 DATASET. A LABELED DATASET WITH BOTNET, NORMAL AND BACKGROUND TRAFFIC.。
数据集获取
本文最后访问数据集时间:2021-06-06
3. WEB 攻击
3.1. HTTP CSIC 2010
数据集简介
CSIC 2010 西班牙国家研究委员会信息安全研究所(Consejo Superior de Investigaciones Científicas)开发,包含 36000 个正常请求和 25000 多个异常请求,包括但不限于 SQL 注入、信息收集、敏感文件泄露 和 XSS 等 WEB 攻击。
下图给出了 CSIC 2010 数据集的文件内容,这是 2 个 SQL 注入的 HTTP 请求样本,CSIC 2010 的样本都是这样的 HTTP 请求,请求方法包括主要是 GET 和 POST,还有少量 PUT 请求。
数据集获取
本文最后访问数据集时间:2021-06-05
https://www.tic.itefi.csic.es/dataset/
4. 垃圾邮件&垃圾短信
4.1. UCI Spambase
数据集简介
加州大学尔湾分校(Irvine, CA: University of California)收集的垃圾邮件数据集,它有 4601 个样本。
下面是 UCI Spambase 的一个样本,它有 58 个字段,包括 57 个特征和 1 个标签,最后一列是标签,0 代表该样本不是垃圾邮件,1 代表该样本是垃圾邮件。特征的具体说明可以查阅 spambase.names。
1 | 0,0.64,0.64,0,0.32,0,0,0,0,0,0,0.64,0,0,0,0.32,0,1.29,1.93,0,0.96,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.778,0,0,3.756,61,278,1 |
数据集获取
本文最后访问数据集时间:2021-06-05
https://archive.ics.uci.edu/ml/datasets/Spambase
4.2. UCI SMS Spam
数据集简介
加州大学尔湾分校收集的垃圾短信数据集,它有 5574 个样本,每个样本由 2 部分组成,第 1 部分是标签,第 2 部分是短信内容。
下面是此数据集的 2 个样本示例,标签和短信内容由制表符 \t
分隔,spam 代表这是一条垃圾短信,ham 代表这一条不是垃圾短信。
1 | ham Ok lar... Joking wif u oni... |
数据集获取
本文最后访问数据集时间:2021-06-06
https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection
5. 钓鱼网站&钓鱼邮件
5.1. UCI Website Phishing Data Set
数据集简介
加州大学尔湾分校收集的钓鱼网站数据集,它有 1353 个样本。
下面是此数据集的 2 个样本示例,它有 10 个字段,其中包括 9 个特征和 1 个标签。最后一个字段代表标签,它有 3 个可取值 {1,0,-1}
,1 代表合法,0 代表可疑,说明它可能是钓鱼网站,也可能不是钓鱼网站,-1 代表钓鱼网站。
1 | 1,-1,1,-1,-1,1,1,1,0,0 |
这 9 个特征分别是 SFH, popUpWidnow, SSLfinal_State, Request_URL, URL_of_Anchor, web_traffic, URL_Length, age_of_domain 和 having_IP_Address
,特征的具体含义和取值算法阅读文献 Phishing Detection based Associative Classification Data Mining,比如 SFH 是 Server Form Handler 的缩写7,URL_Length 就是 URL 的长度,如果长度小于 54 则为 1,代表合法网站,长度在 [54,74]
之间代表可疑网站,长度大于 74 则代表是钓鱼网站,取值为 -1。
数据集获取
本文最后访问数据集时间:2021-06-06
https://archive.ics.uci.edu/ml/datasets/Website+Phishing
5.2. Phishing Features Dataset
数据集简介
马来西亚砂拉越大学计算机科学与信息技术学院8制作的一个数据集,数据集从 2015 年 1 月至 2017 年 5 月收集了钓鱼网页和合法网页, 5000 个钓鱼网页和 5000 个合法网页,从 PhishTank 和 OpenPhish 的 URL 中选择了 5000 个钓鱼网页,还有 5000 个来自 Alexa 和 Common Crawl 存档的合法网页的 URL。
下面是此数据集的样本示例,包括 49 个字段,其中 48 项是特征,最后 1 项是标签。
1 | 3,1,5,72,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,21,44,0,0,0,0,0.0000000000,0.2500000000,1,1,0,0,0,0.0000000000,0,0,0,0,0,0,0,1,1,0,1,1,-1,1,1 |
数据集获取
本文最后访问数据集时间:2021-06-06
https://data.mendeley.com/datasets/h3cgnj8hft/1
6. DGA
6.1. 360 DGA
数据集简介
360 提供的 DGA 数据集,全是恶意样本。
下面是此数据集的样本示例,包括 4 个字段,分别是 所属DGA家族,域名,有效的开始时间,有效的结束时间
。
1 | nymaim uvegpylvsj.net 2021-06-08 00:00:00 2021-06-08 23:59:59 |
数据集获取
本文最后访问数据集时间:2021-06-08
http://data.netlab.360.com/dga/
7. 数据集仓库
7.1. 加拿大安全研究所
需要填写一些个人信息,提交表单后才能获得数据集。
本文最后访问页面时间:2021-06-05
https://www.unb.ca/cic/datasets/index.html
7.2. SecRepo
本文最后访问页面时间:2021-06-05
7.3. CAIDA Data
本文最后访问页面时间:2021-06-06
https://www.caida.org/catalog/datasets/overview/
7.4. Security & Privacy Laboratory
本文最后访问页面时间:2021-06-06
https://secplab.ppgia.pucpr.br/?q=trabid
7.5. Jason Trost 博客
这是汇丰银行网络安全分析引擎主管的博客网站,分享了一些数据集的地址
本文最后访问页面时间:2021-06-06
http://www.covert.io/data-links/
参考资料
1. https://archive.ll.mit.edu/ideval/docs/attackDB.html ↩
2. Lippmann, Richard, et al. “The 1999 DARPA off-line intrusion detection evaluation.” Computer networks 34.4 (2000): 579-595. ↩
3. 杨怡, 边媛, 张天桥. 基于机器学习的网络安全态势感知[J]. 计算机科学与应用, 2020, 10(12): 2431-2438. ↩
4. http://kdd.ics.uci.edu/databases/kddcup99/task.html ↩
5. 翟明芳, 张兴明, 赵博. 基于深度学习的加密恶意流量检测研究[J]. 网络与信息安全学报, 2020, 6(03): 66-77. ↩
6. Moustafa, Nour, and Jill Slay. “UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set).” 2015 military communications and information systems conference (MilCIS). IEEE, 2015. ↩
7. Abdelhamid, Neda, Aladdin Ayesh, and Fadi Thabtah. “Phishing detection based associative classification data mining.” Expert Systems with Applications 41.13 (2014): 5948-5959. ↩
8. Chiew, Kang Leng, et al. “A new hybrid ensemble feature selection framework for machine learning-based phishing detection system.” Information Sciences 484 (2019): 153-166. ↩