文档库 最新最全的文档下载
当前位置:文档库 › 反垃圾邮件参考文献

反垃圾邮件参考文献

反垃圾邮件系统设计

班级:通信工程0301班

姓名:李靖

指导教师:刘树君

反垃圾邮件系统设计

摘要

电子邮件是人们使用较多的一种通信方式,然而在给人们带来大量快捷的同时,其副产品垃圾邮件也给人们的生活增添了无穷的烦恼。如今我们接收到了大量的垃圾邮件,这对收件人的时间、带宽和存储资源产生了无效占用,网络链路因此造成拥塞,它还被作为不良信息的载体被到处散发。因此本文主要讨论了一些常用的反垃圾邮件技术,主要包括关键字匹配技术,实时黑名单技术,反向查询技术,详细介绍了贝叶斯技术的基本原理及其代码实现,最后对应用实验的不足进行了总结并提出了进一步的研究方向。

关键词:反垃圾邮件,关键字匹配,实时黑名单,贝叶斯算法

Design of anti-spam systerm

Abstract

E-mail is one manner of communication between us that we use frequently,for its convenience and rapidness,but spam whose byproduct bring endless bother to our life. Now,the amount of the spam we received has exceeded that of needed mail,the time,bandwidth and memory resource of addressees’ is tied up ineffectively,thereby,network connection generate congestion.The text discusses some commen anti-spam technology,such as keyword-matching,real-time black list,reverse query,and elaborate on basic theory and code realization of Bayesian technology,at last the thesis summarize the lack of the experiment and bring forward the direction of father research.

Keywords: anti-spam ,e-mail filtering,RBL ,Bayesian categorization

目录

1.绪论 (6)

1.1研究背景 (6)

1.2垃圾邮件的定义 (7)

1.3研究现状及相应法规 (8)

1.3.1国内外反垃圾邮件技术研究现状 (8)

1.3.2反垃圾邮件法律与政策 (9)

1.4论文的主要内容和章节安排 (10)

1.4.1论文的主要内容 (10)

1.4.2论文的章节安排 (11)

2反垃圾邮件的基本原理 (12)

2.1电子邮件简介 (12)

2.1.1邮件的格式 (12)

2.1.2邮件的传送 (13)

2.2 POP3与SMTP简介 (14)

2.2.1SMTP协议 (14)

2.2.2POP3协议 (17)

2.3反垃圾邮件的系统架构 (18)

3反垃圾邮件技术 (20)

3.1 过滤 (20)

3.1.1 关键词过滤 (20)

3.1.2 黑白名单 (21)

3.1.3 HASH技术 (21)

3.1.4 基于规则的过滤 (21)

3.1.5 智能和概率系统 (22)

3.1.6 过滤技术的局限性和缺点 (22)

3.2 验证查询 (23)

3.2.1 反向查询技术 (23)

3.2.2 局限性和缺点 (24)

4反垃圾邮件系统的实现 (25)

4.1中文分词理论 (25)

4.1.1 基于字符串匹配的分词方法 (25)

4.1.2基于理解的分词方法 (27)

4.1.3基于统计的分词方法 (27)

4.2关键字匹配与实时黑名单技术 (28)

4.3贝叶斯算法及其代码实现 (30)

4.3.1贝叶斯算法基本原理 (30)

4.3.2贝叶斯算法举例及代码实现 (34)

4.3.3对于贝叶斯技术的一些建议 (41)

5总结与展望 (43)

5.1总结 (43)

5.2展望 (44)

致谢 (46)

参考文献 (47)

1.绪论

1.1研究背景

随着Internet的广泛普及,越来越多的人走进了Internet。互联网极大的方便着现代社会中的人们,而电子邮件作为网络中的一部分,起到了很好的拉近人与人之间距离的作用,它已经成为网络交流沟通的重要途径。然而也随之带来了其副产品——垃圾邮件,它给每一位网络用户,网络管理员和ISP带来了无尽的烦恼。据统计,全世界因为垃圾邮件每年要损失1000万美元,近来的调查也显示,93%的被调查者都对他们接受到的大量垃圾邮件非常不满。由于垃圾邮件的泛滥,使得原本畅通的互联网速度变的逐渐缓慢,并且浪费了用户大量的时间。企业员工每天正常处理业务的时间被接受、打开、删除垃圾邮件等动作白白浪费了。对于企业来说,垃圾邮件不仅浪费了企业员工的宝贵时间,而垃圾邮件中可能附带的病毒、间谍软件等对企业造成的损失更是巨大的。若用户无意中不小心打开一些含有不安全因素的垃圾邮件,木马、病毒、间谍软件等就很可能不知不觉地潜入企业内部盗取机密文件,造成企业重大的安全隐患。更加严重的是它还带来了严重的社会问题。有些国内的IP站点被列入了国外某些组织的“黑名单”,来自某些IP地址的邮件在国际出口被屏蔽等,影响了国内用户对电子邮件的正常使用。目前垃圾邮件随着互联网的不断发展而大量增加,不再像以前一样只是一个小小的骚扰,现在的垃圾邮件可以说是铺天盖地,而纵观垃圾邮件的发展,很容易看到,最初,垃圾邮件主要是一些不请自来的商业宣传电子邮件,而现在更多的是有关色情、政治的垃圾邮件不断增加,甚至达到了总垃圾邮件量的40%左右,并且仍然有持续增长的趋势。而更重要的一方面是,垃圾邮件成为了计算机病毒新的、快速的传播途径。

有效的制止垃圾邮件是刻不容缓的。

1.2垃圾邮件的定义

某种程度上,对垃圾邮件的定义可以是:那些人们没有意愿去接收到的电子邮件都是垃圾邮件。比如:

商业广告。很多公司为了宣传新的产品、新的活动等通过电子邮件的方式进行宣传。

政治言论。目前会收到不少来自其他国家或者反动组织发送的这类电子邮件,这就跟垃圾的商业广告一样,销售和贩卖他们的所谓言论。

蠕虫病毒邮件。越来越多的病毒通过电子邮件来迅速传播,这也的确是一条迅速而且有效的传播途径。

恶意邮件。恐吓、欺骗性邮件。比如phishing,这是一种假冒网页的电子邮件,完全是一种诡计,来蒙骗用户的个人信息、账号甚至信用卡。

普通个人的电子邮箱怎么成为了垃圾邮件的目标呢,造成这样的结果有很多原因,比如在网站、论坛等地方注册了邮件地址,病毒等在朋友的邮箱中找到了你的电子邮箱,对邮件提供商进行的用户枚举,等等。通常情况下,越少暴露电子邮件地址越少接收到垃圾邮件,使用时间越短越少接收到垃圾邮件。一些无奈的用户就选择了放弃自己的邮箱而更换新的电子邮箱。

其安全问题如下:

垃圾邮件给互联网以及广大的使用者带来了很大的影响,这种影响不仅仅是人们需要花费时间来处理垃圾邮件、占用系统资源等,同时也带来了很多的安全问题。

垃圾邮件占用了大量网络资源,这是显而易见的。一些邮件服务器因为安全性差,被作为垃圾邮件转发站为被警告、封IP等事件时有发生,大量消耗的网络资源使得正常的业务运作变得缓慢。随着国际上反垃圾邮件的发展,组织间黑名单共享,使得无辜服务器被更大范围屏蔽,这无疑会给正常用户的使用造成严重问题。

垃圾邮件和黑客攻击、病毒等结合也越来越密切。随着垃圾邮件的演变,用恶意代码或者监视软件等来支持垃圾邮件已经明显地增加了。2003年12月31日,巴西的一个黑客组织发送包含恶意javascript脚本的垃圾邮件给数百万用户,那些通过Hotmail来浏览这些垃圾邮件的人们在不知不觉中已经泄露了他们的账号。另外一个例子就是,近来IE的URL显示问题,在主机名前添加"%01"可以隐藏真实的主机地址,在被发布之后几个星期内就出现在垃圾邮件中了。越来越具有欺骗性的病毒邮件,让很多企业深受其害,即便采取了很好的网络保护策略,依然很难避免,越来越多的安全事件都是因为邮件产生的,可能是病毒、木马或者其他恶意程序。Phishing的假冒诡计对于普通使用者来说,的确很难做出正确的判断,但是造成的损失却是很直接的。

1.3研究现状及相应法规

1.3.1国内外反垃圾邮件技术研究现状

一般来说,反垃圾邮件的方法有服务器端和客户端两种。就技术而言,大致可以从两个方面着手:一是服务商配备反垃圾技术模块;二是服务商向客户提供有效的反垃圾工具。

比较理想的方法是,在邮件服务器端直接将垃圾邮件屏蔽掉,这样不仅用户不会受到垃圾邮件的骚扰,而且服务器可以减少邮件的处理量,节

约处理器资源和带宽流量,但实施起来很困难。

一封电子邮件,从邮件分析的角度可以大致分为以下五部分:邮件头、发件人、收件人、邮件主题、邮件内容。在收件客户端反垃圾邮件可以针对这五部分内容进行过滤。反垃圾邮件手段不断更新。过去采用得较多的反垃圾邮件手段有:IP黑名单、用户帐户黑名单、主题关键字拒收、内容关键字拒收、RBL技术。详见第二、三章叙述。

1.3.2反垃圾邮件法律与政策

在解决垃圾邮件泛滥的问题上,国外许多国家制定了反垃圾邮件法,希望规范互联网上发送电子邮件的行为,通过法律手段对发送垃圾邮件者或公司进行处罚。在美国、日本、韩国、英国、法国、意大利、瑞典、挪威、加拿大、印度等国都制定相应的反垃圾邮件法。韩国《新法》规定,任何人都不许通过明确禁止使用的软件或通过提供自动搜索电子邮件地址服务的网页搜集电子邮件地址,而且不允许在违反该规定的情况下出售或传播电子邮件地址;美国、日本、韩国、丹麦和奥地利等国家在反垃圾邮件的行动中,对垃圾邮件发送采取了严厉的惩罚措施,包括对肇事者进行罚款和监禁,其中美国和日本最为严厉。美国通过了CAN-SPAM反垃圾邮件法,可以对发送垃圾邮件者处以最高到600万美元以及5年的监禁。美国AOL公司利用该法对垃圾邮件发送者进行了起诉,来保护自己的合法权益。日本《反垃圾邮件法》规定,任何违反该法律的企业最高可罚款256万美元,个人可判处最高两年的有期徒刑。

与国外对垃圾邮件的立法现状对比,中国明显滞后,目前还没有专门反垃圾邮件法。网民和企业都呼吁能尽快对反垃圾邮件立法,保护网民的合法权益,对垃圾邮件发送者给予制裁。在这种状况下,2002年底,由中国互联网协会、263网络集团、新浪网共同发起的“反垃圾邮件协调小组”在北京正式成立,国内20多家邮件服务商首批加入。在2003年8月“反

垃圾邮件协调小组”公布了首批垃圾邮件服务器“黑名单”,封杀了全球 127个发送垃圾邮件的服务器.同时民间组织上的中国反垃圾邮件联盟(CASA)于2003年9月11日正式推出了中国第一个公开的实时邮件黑名单(RBL)。

采用相应的法律和措施,在一定程度上节制了垃圾邮件泛滥问题,但许多国家在建立了反垃圾邮件法后,垃圾邮件问题仍然很突出,收效不大。美国的业界官员称美国反垃圾邮件法生效后垃圾邮件的状况跟以前差不多,垃圾邮件仍然占总邮件的55%左右。他们分析原因:第一是该法没有得到有力的执行,网民和企业对垃圾邮件采取了默许的态度,没有起诉垃圾邮件发送者,让垃圾邮件继续泛滥;第二,也是最重要的原因,互联网是无国界的,当美国立法后,垃圾邮件的模式发生了很大的变化,垃圾邮件发送者通过国外的服务器来发送垃圾邮件,使得美国的反垃圾邮件法鞭长莫及。由于国际上没有一个统一的反垃圾邮件法律或措施,当通过其他国家来转发垃圾邮件时,本国法律就无法适用,因此光通过立法来治理垃圾邮件问题还远远不够。垃圾邮件与反垃圾邮件之间就像在进行一场军备竞赛,魔高一尺,道高一丈。目前还没有那种技术能完善地解决垃圾邮件问题。科研者正在不断总结经验,开发更加准确、可靠、实用的技术。

1.4论文的主要内容和章节安排

1.4.1论文的主要内容

本文的主要内容是:通过了解垃圾邮件的定义以及垃圾邮件对现代正常生活的影响,提出了对于垃圾邮件的一些常用的处理方法,主要包括贝叶斯过滤,关键字匹配,实时黑名单,以及反向查询等技术,并详细叙述了贝叶斯过滤技术的实现及其代码分析,最后对于垃圾邮件的发展做出自己的看法。

1.4.2论文的章节安排

本文第二章主要阐述了反垃圾邮件的基本原理包括电子邮件发送的一般原理以及反垃圾邮件的系统架构,第三章介绍了一些现有的常用的一些反垃圾邮件的技术,第四章系统地分析了贝叶斯技术,并分析了以后需要的研究方向,第五章对本文进行了总结并对反垃圾邮件的未来做出了自己的看法与预测。

2反垃圾邮件的基本原理

2.1电子邮件简介

2.1.1邮件的格式

为了让邮件能够顺利地在Internet上传送,能够被不同的邮件服务器正确识别,并且在各种各样的终端上显示出来,就需要遵循一定的格式。在高层信件是非常简单的,它含有一系列的文本,每一行以回车(CR)和换行(LF)组成。信件有信头、信件体和之间的空行组成。信头有定义的格式,以使得MTA、MDA和MUA能对他进行程序分析。信头是必须的,信件体是可选的。下面介绍一些关键字段的含义:

⑴From:

From:caoql@https://www.wendangku.net/doc/d21485010.html,表示生成该信件的人。

⑵To:

To:caoql100@https://www.wendangku.net/doc/d21485010.html, 指出收件人

⑶Subject:

邮件的主题

⑷Reply—to:

标识发件人希望回复的地址

⑸Message_ID:

Message_ID:<000001c1df73$0378dc50$173270ca@kylintp>唯一的标识一个信件,该字段由MUA或者第一个MTA产生。

2.1.2邮件的传送

电子邮件与普通邮件有类似的地方,发信者注明收件人的姓名与地址(即邮件地址),发送方服务器把邮件传到收件方服务器,收件方服务器再把邮件发到收件人的邮箱中,如图2.1所示。

图2.1 高层SMTP

下面解释邮件传送中涉及到的几个概念:

MUA (Mail User Agent) 邮件用户代理,帮助用户读写邮件。

MTA(Mail Transport Agent)邮件传输代理,负责把邮件由一个服务器传到另一个服务器或邮件投递代理。

MDA(Mail Delivery Agent)邮件投递代理,把邮件放到用户的邮箱里。

整个邮件传输过程如图2.2所示。

图2.2 邮件代理

目前使用的SMTP协议是存储转发协议,意味着它允许邮件通过一系列的服务器发送到最终的目的地。服务器在一个队列中存储到大的邮件,等待发送到下一个目的地。下一个目的地可以使本地用户,或者是另一个邮件服务器,如图2.3所示。

图2.3存储转发

如果下游的服务器暂时不可用,MTA就暂时在队列中保存信件,并在以后尝试发送。

2.2 POP3与SMTP简介

在这里我们对支持服务器之间以及客户端与服务器之间邮件交换的协议SMTP、POP3进行简要说明。

2.2.1SMTP协议

SMTP(Simple Mail Transfer Protocol:简单邮件传输协议)是服务器间进行邮件传送的协议,在通信过程中,发件方SMTP与收件方SMTP采用对话式的交互方式,发件方提出要求,收件方进行确认,确认后再进行下一步动作。整个过程由发件方控制,有时需要确认几回才可以,如图2.4所示:

图2.4 SMTP交互

为了保证回复命令的有效,SMTP要求发件方必须提供接收方的服务器及邮箱。邮件的命令和答复有严格的语法定义,并且回复具有相应的数字代码。SMTP的基本命令参见表2.1:

表2.1 SMTP基本命令命令概要HELO 开始通信,同时通知发送端的域名例:HELO Hitachi.co.jp

MAIL FROM 将电子邮件发送端地址通知接收端。例:MAILFROM:user@sdl.Hitachi.co.jp

RCPT TO 指定电子邮件接收端。

例:RCPT TO:user@ohmsha.co.jp

DATA 通知开始发送电子邮件正文。用句号通知正文发送结束。

RSET 发送流程的初始化。

VRFY 确认用户名。

格式:VRFY用户名

EXPN 打开邮件发送清单

格式:EXPN邮件发送清名单

QUIT 通知退出SMTP的消息交换流程

2.2.2 POP3协议

POP3(Post Office Protocol Version3:邮局协议版本3)是用于从服务器上的各用户的邮箱中提取邮件的协议。在提供服务的过程中,使用表2.2所示的命令,与SMTP一样,以命令的发送与应答形式进行处理。

表2.2 POP3基本命令

命令概要

APOP 进行具备防止重放攻击的用户的认证。

格式:APOP用户名消息摘要

例:APOP terada c4c9334bac560ecc979e58001b3e22fb QUIT 通知结束

PASS 通过USER命令,用于在用户名发送后的密码发送中

格式:PASS密码

USER 发送邮箱的用户名

格式:USER用户名

STAT 查询邮箱状态

LIST 查询邮箱的消息清单

格式:LIST[消息号]

RETR 从邮箱获取消息

格式:RETR[消息号]

DELE 从邮箱中删除消息

格式:DELE[消息号]

NOOP 服务器什么都不做,只返回应答代码“+OK”

REST 取消消息的删除记号

TOP 格式:TOP[消息号行数]

UIDL 查询消息的ID

格式:UIDL[消息号]

QUIT 结束的通知

在考虑了SMTP 与POP 后,一个实际的邮件传输的过程如图2.5所示: 本地电子邮件服

务器SMTP1

SMTP2本地电子邮件服务器客户3客户1客户2客户4

POP POP 直接发信SMTP 直接收信SMTP 图2.5 邮件的传输

2.3反垃圾邮件的系统架构

反垃圾邮件的核心模块是当客户端服务器接收到邮件以后对于邮件的处理部分,处理之后将正常邮件发送到客户邮箱中,而过滤掉垃圾邮件,主要构架如图2.6所示:

接收邮件邮件过滤器

垃圾邮件有用邮件收件人邮箱

Mail 服务器

图2.6 系统架构

本文的主要研究核心即为邮件过滤器部分的主要功能的实现。

3反垃圾邮件技术

本文将在下面的内容讨论过滤器(Filter)、反向查询(Reverse lookup)技术。

3.1 过滤

过滤(Filter)是一种相对来说最简单却很直接的处理垃圾邮件技术。这种技术主要用于接收系统来辨别和处理垃圾邮件。从应用情况来看,这种技术也是使用最广泛的,比如很多邮件服务器上的反垃圾邮件插件、反垃圾邮件网关、客户端上的反垃圾邮件功能等,都是采用的过滤技术。

3.1.1 关键词过滤

关键字过滤是最早的反垃圾邮件技术之一。它是将一些会在垃圾邮件中经常出现的字符(如广告、化妆品、发票等)收集起来形成一个庞大的数据库,当一封邮件来的时候对其信头、信标题、主题和信体几部份进行检查,看里面是否有数据库中的关键字,如果有就被判定为垃圾邮件,如果没有就判断不是垃圾邮件。该技术主要采用的是关键字匹配。

此技术的优点就是:技术比较容易实现,判断处理速度比较快,缺点是误判率比较高。并且,一般躲避关键词的技术比如拆词,组词就很容易绕过过滤。

为了减少误判率,故可采用关键字权重的方法来对垃圾邮件进行判断。关键字权重过滤,是根据关键字数据库中比较经常出现的关键字分别赋予相应的权重,权重的大小是根据关键字在垃圾邮件中出现的可能性和严重性来决定。当收到一封垃圾邮件时,就对其进行扫描,若发现有其中一个关键字就加相应的权重(此权重值用户可自定义),最有将所有的权重累加

相关文档
相关文档 最新文档