基于深度学习的恶意 URL 识别
原文作者:陈康, 付华峥, 向勇
原文期刊:计算机系统应用,2018,27(6):27–33
原文链接:http://www.c-s-a.org.cn/1003-3254/6370.html
一、论文主要内容
在本文工作中,我们提出一种基于深度学习的恶意 URL 识别模型。本文的模型基于 URL 词法特征进行检测。首先通过正常 URL 样本训练得到 URL 中的字符的分布表示。将 URL 转化成二维图像,然后通过训练 CNN 模型对二维图像进行特征抽取,最后使用全连接层进行分类。
二、作者工作
2.1 相关工作
目前的恶意 URL 识别工作使用的主要是黑名单、启发式技术和机器学习技术。黑名单技术只能给与用户最低程度的保护,并不能及时检测出恶意网站,阻断用户对恶意网站的访问。启发式算法是对黑名单技术的一种补充算法,其主要原理是利用从恶意网址中发现的黑名单相似性规则来发现并识别恶意网页。但是启发式算法有误报率高以及规则更新难等缺点。
机器学习算法通过分析网页 URL 以及网页信息,提取域名的重要特征表示,并训练出一个预测模型。有监督算法也叫分类算法,此算法的准确率较高而且误报率相对较低,但是却对标注数据以及特征工程比较敏感,标注数据的准确率以及选择使用的特征会严重影响算法的准确率和效率。无监督机器学习方法又称聚类方法。此类方法的具体分类过程主要由特征提取、聚类、簇标记和网页判别等步骤组成。主要做法是首先将 URL 数据集划分为若干簇,使得同一簇的数据对象之间相似度较高,而不同簇的数据对象之间的相似度较低。然后,通过构造和标记数据集中的簇来区分恶意网页和良性网页。
深度学习通过学习深层非线性网络结