网络安全相关数据集

1. 入侵检测

1.1. DARPA

数据集简介

DARPA 数据集是 1998 年美国国防部高级研究计划局(Defense Advanced Research Projects Agency,DARPA)在麻省理工学院进行的一个入侵检测评估项目生成的,它包含 1998、1999、2000 这 3个数据集,包括 5 种主要的攻击类型1:Denial of Service(DoS)、User to Root(U2R)、Remote to Local(R2L)、Probes 和 Data。

DARPA 1998 包括审计日志数据和网络流量数据两个部分,审计日志数据使用 Sun 公司的 Basic Security Monitoring (BSM) 收集,网络流量数据使用 tcpdump 收集。数据集中每一行代表一个会话,每一个会话对应两台计算机之间单独的 TCP/IP 连接,一个 TCP 会话过程包括建立三次握手到关闭连接时最后收到的 FIN 和 ACK 数据包。每一个会话通过 5 元组唯一标识,此 5 元组即开始时间、源 IP、目的 IP、源端口、目的端口。数据集在模拟的入侵环境中收集:路由器内部网上有两个工作站,外部有一个工作站。

内部工作站 IP 分别为 192.168.0.20 和 192.168.0.40,BSM 在 192.168.0.20 这台工作站上运行;外部工作站 IP 为 192.168.1.30

下面展示了 tcpdump 的样本及对应的特征,收集的样本仅包括内部和外部工作站之间的 TCP/IP 连接,特征包括 唯一会话索引,会话开始日期,会话开始时间,会话持续时间,服务名,源端口,目的端口,源IP,目的IP,会话攻击分数和攻击名,其中 会话攻击分数 表示这个会话是攻击的可能性,分数越高则此会话是攻击的可能性越大,训练数据会将此特征设置为 1 或 0 明确此会话是否为攻击,测试数据则会将此特征设为 0。攻击名 表明了此会话的攻击,具体可查阅 1998 Training Data Attack Schedule

1
2
3
4
   Start      Start                     Src   Dest Src         Dest         Attack
Date Time Duration Serv Port Port IP IP Score Name
1 01/27/1998 00:00:01 00:00:23 ftp 1755 21 192.168.1.30 192.168.0.20 0.31 -
2 01/27/1998 05:04:43 67:59:01 telnet 1042 23 192.168.1.30 192.168.0.20 0.42 -

下面展示了 BSM 审计数据的样本和对应的特征,它的格式和 tcpdump 是相同的,但因为只有 1 台工作站上装了 BSM,所以 BSM 会话数会少于 tcpdump 收集到的会话数。

1
2
3
4
   Start       Start                     Src  Dest Src          Dest        Attack
Date Time Duration Serv Port Port IP IP Score Name
1 01/27/1998 00:00:21 00:00:22 ftp 1755 21 192.168.1.30 192.168.0.20 1.13 -
2 01/27/1998 05:05:03 67:59:00 telnet 1042 23 192.168.1.30 192.168.0.20 25.0 guess

DARPA 19992/20003 与 DARPA 1998 相比,除新增了一些攻击之外,最大的不同在于增加了一个 Windows NT 工作站作为受害者,因此数据集还多了 Windows NT 的审计数据,没有像 DARPA 1998 那样提供了 tcpdump.list 这样已经处理好的文本文件,需要自己解析,比如想获取 Snort 的告警日志,在安装和配置好 Snort 之后,可通过执行以下命令实现:

1
snort -c ./Snort/snort.conf -r ./DARPA1999/inside.tcpdump -l ./Snort/log

这两个数据集的相关介绍可以参考下面三篇文章:

数据集获取

本文最后访问数据集时间:2021-06-05

https://www.ll.mit.edu/r-d/datasets/1998-darpa-intrusion-detection-evaluation-dataset

https://www.ll.mit.edu/r-d/datasets/1999-darpa-intrusion-detection-evaluation-dataset

https://www.ll.mit.edu/r-d/datasets/2000-darpa-intrusion-detection-scenario-specific-datasets

1.2. KDD99

数据集简介

KDD99 数据集4基于 DARPA 1998 数据集,它对 DARPA 1998 数据集进行了特征分析和数据预处理。KDD99 将攻击分成了 4 大类,分别是 DoS、R2L、U2R 和 Probing。下面展示了 1 条 KDD99 的样本,它有 42 个字段,其中包括 41 项特征,最后 1 项是标签。

1
0,tcp,http,SF,181,5450,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,9,9,1.00,0.00,0.11,0.00,0.00,0.00,0.00,0.00,normal.

这 41 个特征又可以分成 3 类4,基于 TCP 连接的基本特征、基于 TCP 连接内容的特征、基于时间的网络流量特征(这里使用 2 秒的窗口),具体内容可查阅 KDD-CUP-99 Task Description

数据集获取

本文最后访问数据集时间:2021-06-05

http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html

1.3. NSL-KDD

数据集简介

NSL-KDD5 数据集去除 KDD99 数据集中冗余的数据,克服了分类器偏向于重复出现的记录等问题,需要填写一些个人信息,提交表单后才能获得数据集。

数据集获取

本文最后访问数据集时间:2021-06-05

https://www.unb.ca/cic/datasets/nsl.html

1.4. UNSW-NB 15

数据集简介

KDD99 等数据集距离现在已经十分久远,不能反映当前的网络威胁环境,所以新南威尔士大学(The University of New South Wales)创造了此数据集。UNSW_NB15_training-set.csv 和 UNSW_NB15_testing-set.csv 是预处理过的数据集,训练集有 175341 个样本,测试集有 82332 个样本。

下图给出了 UNSW-NB 15 没有预处理过的 CSV 数据集,它有 49 个字段,其中包括 2 个标签,最后两个字段分别为attack_typelabelattack_type 用字符串的形式标识此记录的攻击类型,label 以 0-1 的方式标识此记录是否为攻击,攻击则此字段为 1,否则为 0,具体的每个字段的内容可以查看 UNSW-NB15_features.csv,或者阅读文献 UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set)6

image-20210605213417521

下图给出了 UNSW-NB 15 数据集的文件内容(UNSW_NB15_training-set.csv 和 UNSW_NB15_testing-set.csv),它有 45 个字段,其中包括 2 个标签,attack_typelabel

image-20210605212229333

数据集获取

本文最后访问数据集时间:2021-06-05

项目地址:https://research.unsw.edu.au/projects/unsw-nb15-dataset

数据集下载:https://cloudstor.aarnet.edu.au/plus/index.php/s/2DhnLGDdEECo4ys

项目地址依然可以访问,但是数据集不能正常下载,需要到下面的 cloudstor 中下载。

1.5. UGR’16

数据集简介

收集了西班牙一些具有战略性地位的 ISP 网络中的流量,它由两个不同的数据集组成:,一个从收集了 2016 年 3月到 2016 年 6 月 这 4 个月的校准数据集,它包含真正的后台业务数据; 还有一个收集了 2016 年 7 月到 2016 年 8 月这 2 个月的测试数据集,它包含真实数据和生成的流量数据,这些生成的数据覆盖了许多已知的攻击类型。

数据集获取

本文最后访问数据集时间:2021-06-06

https://nesg.ugr.es/nesg-ugr16/index.php

2. 僵尸网络

2.1 CTU-13

数据集简介

CTU-13 是 2011 年在捷克理工大学(Czech Technical University in Prague)捕获的僵尸网络流量数据集。CTU-13 数据集包含 13 个不同场景下捕获到的数据,在每个场景中,我们都执行了一个特定的恶意软件,这个恶意软件使用了多种协议并执行了不同的操作,详细内容请查阅 THE CTU-13 DATASET. A LABELED DATASET WITH BOTNET, NORMAL AND BACKGROUND TRAFFIC.

数据集获取

本文最后访问数据集时间:2021-06-06

https://mcfp.weebly.com/the-ctu-13-dataset-a-labeled-dataset-with-botnet-normal-and-background-traffic.html

3. WEB 攻击

3.1. HTTP CSIC 2010

数据集简介

CSIC 2010 西班牙国家研究委员会信息安全研究所(Consejo Superior de Investigaciones Científicas)开发,包含 36000 个正常请求和 25000 多个异常请求,包括但不限于 SQL 注入、信息收集、敏感文件泄露 和 XSS 等 WEB 攻击。

下图给出了 CSIC 2010 数据集的文件内容,这是 2 个 SQL 注入的 HTTP 请求样本,CSIC 2010 的样本都是这样的 HTTP 请求,请求方法包括主要是 GET 和 POST,还有少量 PUT 请求。

image-20210605205632632

数据集获取

本文最后访问数据集时间:2021-06-05

https://www.tic.itefi.csic.es/dataset/

4. 垃圾邮件&垃圾短信

4.1. UCI Spambase

数据集简介

加州大学尔湾分校(Irvine, CA: University of California)收集的垃圾邮件数据集,它有 4601 个样本。

下面是 UCI Spambase 的一个样本,它有 58 个字段,包括 57 个特征和 1 个标签,最后一列是标签,0 代表该样本不是垃圾邮件,1 代表该样本是垃圾邮件。特征的具体说明可以查阅 spambase.names

1
0,0.64,0.64,0,0.32,0,0,0,0,0,0,0.64,0,0,0,0.32,0,1.29,1.93,0,0.96,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.778,0,0,3.756,61,278,1

数据集获取

本文最后访问数据集时间:2021-06-05

https://archive.ics.uci.edu/ml/datasets/Spambase

4.2. UCI SMS Spam

数据集简介

加州大学尔湾分校收集的垃圾短信数据集,它有 5574 个样本,每个样本由 2 部分组成,第 1 部分是标签,第 2 部分是短信内容。

下面是此数据集的 2 个样本示例,标签和短信内容由制表符 \t 分隔,spam 代表这是一条垃圾短信,ham 代表这一条不是垃圾短信。

1
2
ham	Ok lar... Joking wif u oni...
spam Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's

数据集获取

本文最后访问数据集时间:2021-06-06

https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection

5. 钓鱼网站&钓鱼邮件

5.1. UCI Website Phishing Data Set

数据集简介

加州大学尔湾分校收集的钓鱼网站数据集,它有 1353 个样本。

下面是此数据集的 2 个样本示例,它有 10 个字段,其中包括 9 个特征和 1 个标签。最后一个字段代表标签,它有 3 个可取值 {1,0,-1},1 代表合法,0 代表可疑,说明它可能是钓鱼网站,也可能不是钓鱼网站,-1 代表钓鱼网站。

1
2
1,-1,1,-1,-1,1,1,1,0,0
-1,-1,-1,-1,-1,0,1,1,1,1

这 9 个特征分别是 SFH, popUpWidnow, SSLfinal_State, Request_URL, URL_of_Anchor, web_traffic, URL_Length, age_of_domain 和 having_IP_Address ,特征的具体含义和取值算法阅读文献 Phishing Detection based Associative Classification Data Mining,比如 SFH 是 Server Form Handler 的缩写7,URL_Length 就是 URL 的长度,如果长度小于 54 则为 1,代表合法网站,长度在 [54,74] 之间代表可疑网站,长度大于 74 则代表是钓鱼网站,取值为 -1。

数据集获取

本文最后访问数据集时间:2021-06-06

https://archive.ics.uci.edu/ml/datasets/Website+Phishing

5.2. Phishing Features Dataset

数据集简介

马来西亚砂拉越大学计算机科学与信息技术学院8制作的一个数据集,数据集从 2015 年 1 月至 2017 年 5 月收集了钓鱼网页和合法网页, 5000 个钓鱼网页和 5000 个合法网页,从 PhishTank 和 OpenPhish 的 URL 中选择了 5000 个钓鱼网页,还有 5000 个来自 Alexa 和 Common Crawl 存档的合法网页的 URL。

下面是此数据集的样本示例,包括 49 个字段,其中 48 项是特征,最后 1 项是标签。

1
3,1,5,72,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,21,44,0,0,0,0,0.0000000000,0.2500000000,1,1,0,0,0,0.0000000000,0,0,0,0,0,0,0,1,1,0,1,1,-1,1,1

数据集获取

本文最后访问数据集时间:2021-06-06

https://data.mendeley.com/datasets/h3cgnj8hft/1

6. DGA

6.1. 360 DGA

数据集简介

360 提供的 DGA 数据集,全是恶意样本。

下面是此数据集的样本示例,包括 4 个字段,分别是 所属DGA家族,域名,有效的开始时间,有效的结束时间

1
nymaim	uvegpylvsj.net	2021-06-08 00:00:00	2021-06-08 23:59:59

数据集获取

本文最后访问数据集时间:2021-06-08

http://data.netlab.360.com/dga/

7. 数据集仓库

7.1. 加拿大安全研究所

需要填写一些个人信息,提交表单后才能获得数据集。

本文最后访问页面时间:2021-06-05

https://www.unb.ca/cic/datasets/index.html

7.2. SecRepo

本文最后访问页面时间:2021-06-05

http://www.secrepo.com/

7.3. CAIDA Data

本文最后访问页面时间:2021-06-06

https://www.caida.org/catalog/datasets/overview/

7.4. Security & Privacy Laboratory

本文最后访问页面时间:2021-06-06

https://secplab.ppgia.pucpr.br/?q=trabid

7.5. Jason Trost 博客

这是汇丰银行网络安全分析引擎主管的博客网站,分享了一些数据集的地址

本文最后访问页面时间:2021-06-06

http://www.covert.io/data-links/

参考资料

1. https://archive.ll.mit.edu/ideval/docs/attackDB.html
2. Lippmann, Richard, et al. “The 1999 DARPA off-line intrusion detection evaluation.” Computer networks 34.4 (2000): 579-595.
3. 杨怡, 边媛, 张天桥. 基于机器学习的网络安全态势感知[J]. 计算机科学与应用, 2020, 10(12): 2431-2438.
4. http://kdd.ics.uci.edu/databases/kddcup99/task.html
5. 翟明芳, 张兴明, 赵博. 基于深度学习的加密恶意流量检测研究[J]. 网络与信息安全学报, 2020, 6(03): 66-77.
6. Moustafa, Nour, and Jill Slay. “UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set).” 2015 military communications and information systems conference (MilCIS). IEEE, 2015.
7. Abdelhamid, Neda, Aladdin Ayesh, and Fadi Thabtah. “Phishing detection based associative classification data mining.” Expert Systems with Applications 41.13 (2014): 5948-5959.
8. Chiew, Kang Leng, et al. “A new hybrid ensemble feature selection framework for machine learning-based phishing detection system.” Information Sciences 484 (2019): 153-166.