欢迎光临无标度网络科技(蝙蝠软件)!



恶意网址实时检测系统上线

2018-02-23 18:06    编辑:蝙蝠    阅读: 2707
电子商务为生活带来便利的同时,也表现出了其黑暗的一面。互联网诈骗者反复利用虚假电子商务进行违法犯罪活动,如金融诈骗、钓鱼类虚假电子商务网站、在线赌博、虚假网络营销、在线兑奖诈骗。仅在2014与2015年,中国大陆居民因此类诈骗造成的损失高达200亿元人民币,更严重的是,诈骗的操作者与网站服务器均位于国外,诈骗者难以追踪。正因如此,近年来网络违法活动呈现增长趋势。

恶意电子商务网站的检测通常被认为是一个分类问题:即通过分类模型将恶意网址从正常网址中分离出来。事实上,此过程涉及到持续、复杂的系统性的数据收集、特征提取、数据预处理、分类器训练。由于网址的相关特征难以提取,网址信息动态变化,因此还需要有持续工作的专业“在线信息系统”提供支持。近年来电子商务网站表现出的新的特征,如大规模、高维度、稀疏性、模式迁移等,已对传统的用于此领域的检测恶意电子商务网址的分类模型构成重大挑战。

很多国际数据挖掘竞赛(如:Kaggle)的获胜者,认为取胜的关键在于:用更好方法表现数据,即提取更好的数据特征,而不是更专注于更复杂的挖掘模型或者算法。数据的“预处理”过程是如此重要,而使近年来出来了一个新的名词术语:“特征工程”,其强调数据的预处理过程中涉及到很多专业的、科学的、系统的理论方法与技术,而不是一项简单工作。

此领域以往的大量研究主要集中分类器的提升上。少部分涉及到特征的筛选和提取,但是并未专注于数据的预处理过程。而本文的基本观点是:“特征工程”在分类问题中,如恶意电子商务网址检测中,扮演着非常重要的角色。本项目的目标是提出与整合一系列的线性与非线性空间变换方法,以提高传统分类器的分类检测效果。

该项目的主要贡献如下:

(1)整合了数个线性、非线性以及综合空间变换方法(即:奇异值分解法、距离度量学习、Nystrom法、综合方法),以提高基本分类器处理大规模URL数据集的效率与效果;
(2)开发了一个专门的系统,以持续地支撑特征提取、空间变换以及快速的网址分类。该系统使用了最前沿的技术,如分布式缓存、MAP-REDUCE计算、NOSQL数据库。该系统收集了331622条网址,并提取了相关的62个特征。在该数据集上的实验表明,本研究提出的特征工程方法解决了网址数据中存在的典型问题,并显著提高了传统分类器识别恶意网址的能力。


系统访问地址:http://url.jspfans.com/
-------------------------------------------------------------------------------
System Introduction:

Internet is frequently used by criminals for illegal activities, such as financial fraud, global voice phishing, online gambling, fake TV shopping, fraudulent prize winning and spam SMS in social networks. The dark side of Internet has emerged and bedeviled the world.

In recent years, mainland Chinese citizens suffered more than 20 billion Yuan loss per year from global voice phishing, most of which were with the aid of phishing or fake websites located outside China. Besides, widespread usage of smart phones also stimulates the rapid increase of mobile and OR code phishing activities, especially towards old people without much knowledge about phishing. More than 10000 phishing websites were reported to Anti-phishing Alliance of China (APAC) per month on average from Aug 2011 to May 2017.

This project is launched by us to collect malicious URLs dataset, extract features, and provide sustainable malicious detection support for anti-phishing researches and industrial applications. We here call for the global cooperation and effort to fight against the dark side of the Internet, and make the online world a better place for all people.