名单追踪小型的团体或垃圾邮件发送者,是力不从心且容易误判的。 2.2 数量控制 2.2.1 带宽/连接限制 这是网络层的重复限制。使用QoS策略限制每一个IP向自己发送邮件的可用网络带宽,用防火墙策略限制每个IP向自己发送邮件的并发SMTP连接数目。 2.2.2 邮件重复限制 这是应用层的重复限制。一般根据发件IP、发件人、邮件主题三个元素在一段时间内的重复速率做限制。这种限制虽然技术简单,但对从一个IP发出的大量邮件非常有效。 2.3 新型技术 2.3.1 贝叶斯分析 贝叶斯过滤器是根据贝叶斯准则和贝叶斯定理,以已知垃圾邮件和非垃圾邮件为样本、来判断下一封邮件是垃圾邮件的概率。 因此贝叶斯过滤器需要已知的邮件作为样本进行自学习。 2.3.2 分布协作的内容指纹分析 分布协作分析是基于这样的实际情况:垃圾邮件发送者将相同的邮件发送给巨大数量的邮件地址,可能试图从中取得某些商业、政治利益。 这种邮件绝大部分是使用假的邮件地址、伪造了邮件头或利用了OpenRelay发送的,只有内容是这种垃圾邮件要传递的信息。但每个收件人必须看了内容以后才知道这是垃圾邮件。因此分布协作分析是基于这样的方法:从邮件中提取出可以代表内容的指纹数据(一般是利用加密哈希算法或检查和的算法来产生指纹特征),不同的内容会产生不同的指纹(为了防止垃圾邮件发送者利用小的变化,比如大小写等,来躲避反垃圾系统,一般还做模糊指纹,使相似内容的邮件产生相同的指纹),用这些指纹代表邮件,全球的兼容用户会提交邮件(或只提交垃圾邮件)的指纹,从服务器得到响应以知道有多少封相同的邮件在全球传播,这样来识别邮件是否垃圾邮件。 分布式Hash数据库是分析邮件内容并根据指纹算法产生指纹。分布式Hash数据库是将认为是垃圾的邮件(或全部邮件)的指纹特征提交给分析服务器,由分析服务器根据提交总数量、频率等参数认定它是垃圾邮件的可能性。这样的系统可以集合全球的邮件特征,将大范围发送、但局部数量并不多的垃圾邮件甄别出来。所有支持分布式Hash数据库的防垃圾邮件系统都回互相促进、提高准确性。 2.3.3 集中的分领域内容分析 智能内容分析是根据目前垃圾邮件的主要内容特征认定其是垃圾的可能性。
2.4 辅助工作 2.4.1 打分机制 上面提到了大量的目前的反垃圾邮件方法,但除了黑名单、白名单,所有方法、包括可追查性检查在未完全实施前,都可能发生误判,而对于用户来说,少量的漏判是可以忍受的,但即使是极少量的误判可能用户都不愿接受,因此一般的反垃圾邮件产品都使用多种反垃圾技术,并对每种技术做加权打分,以总分值作为一封邮件是垃圾邮件的可能性高低的判断。 但仍然要强调的是:即使使用打分机制,仍然存在误判的可能性,只不过可以将分值极高的邮件认为是垃圾邮件,分值极低的邮件认为是正常邮件,而中间分值的邮件建议采用标记的方法,而不是直接拒绝,由收件人去判断它是否垃圾邮件。 2.4.2 降噪 智能降噪系统是指例如一个合法邮件发送者平时都是发送正常邮件、突然大量发送垃圾邮件时的情况,有可能是因为某种原因的错误判断,也就是可能是噪声,因此对其进行降噪处理,认为他发送的邮件是垃圾的概率相对降低。 2.4.3 互动 系统的所有引擎和子引擎应该是互动的,即包括可追查检查、智能实时黑名单、智能集中分析和智能内容分析得出的垃圾邮件和非垃圾邮件都会作为贝叶斯自学习的样本,同时贝叶斯过滤器认为是垃圾邮件的邮件会作为智能集中分析等子引擎的提交邮件,充实智能集中分析系统的特征库。 2.4.4 垃圾探针邮箱 首先,垃圾邮件发送者要得到邮件地址,他们可能这样得到: 从邮件列表得到 从网页得到 交换和购买 邮件地址收集软件可以自动扫描新闻组、邮件列表和网页,从中找到任何看起来象邮件地址的字符串,存入数据库或文件,作为发送垃圾邮件的目标地址列表,这个列表可能非常大。当你向新闻组提交一篇文章,或把邮件地址放到任何网页上时,就可能被邮件地址收集软件捕捉到。 根据垃圾邮件发送者搜集、共享邮件清单的方法,我们可以建立多种垃圾探针邮箱,这些探针邮箱有的可以100%保证是垃圾邮件,有些可能会引来一些正常邮件。 隐蔽邮件帐号:在邮件系统上建立完全不对外公开的隐蔽邮件帐号,开放不存在用户的退信。这样,邮箱地址搜索方式(例如随机发邮件等候退信或无退信)会得到这些隐蔽邮件帐号。由于隐蔽邮件帐号完全不对外,因此凡是向这些帐号发来的邮件肯定100%是垃圾邮件。 非显示邮件帐号:在网页上公布探针邮件帐号,但该邮件帐号的文字颜色与网页背景颜色相同,正常的人是无法看到该帐号地址的,但用于搜索垃圾邮件发送目标的软件可以发现(当然了,软件看的是网页源代码),因此该探针邮件地址收到的邮件必然100%是垃圾邮件。 网站注册:使用专门的邮件帐号,不用于任何其他目的,仅用于在各网站上注册。对于不负责人的网站,会将注册用户的邮件地址泄漏出去,成为垃圾邮件发送者的目标。只要过滤掉网站来的邮件,剩下的就肯定是垃圾邮件。 订阅邮件列表:使用专门的邮件帐号,同样不用于其他目的,仅用于订阅邮件列表。对于不负责任的邮件列表,会将订阅人的邮件地址泄漏出去,成为垃圾邮件发送者的目标。收件系统只要将从邮件列表发来的邮件过滤掉,剩下的就肯定是垃圾邮件。另外,有些垃圾邮件发送者可能直接利用邮件列表发送垃圾邮件,这时正常的邮件列表邮件和利用邮件列表的垃圾邮件就更难以区分了,因此邮件列表应该要求必须使用列表的注册用户作为发件人才予以转发。 其他公开方式:例如在论坛上公开探针邮箱等。但这种方法可能引来合法的邮件,无法100%保证收到的是垃圾邮件。 在上述公开方式中,有可能引来正常邮件,因此针对垃圾邮件收集程序不可能理解邮件地址的情况,可以将用户名定义为人可以理解、看到这个邮件地址正常人就不会向这个地址发送邮件的用户名。 作为具体的方法,为了方便,可以使用一个垃圾邮件探针邮箱,给这个探针邮箱设置多个别名,这样所有的垃圾邮件都用这个邮箱保存,而对外仿佛是很多个邮箱,容易迷惑垃圾发送者。同时,在不同的发布地点使用不同的探针邮箱别名(或干脆不同的探针邮箱地址)还可以分析出垃圾邮件发送者如何收集邮件地址,这些地址又是如何被传播的。 2.5 彻底技术:源头认证 源头认证是防止邮件伪装的方案,保证了发件人不是伪装的,就断绝了垃圾邮件发送者躲避法律制裁的路,因此可以断绝大部分垃圾邮件。 2.5.1 可追查性检查 笔者在对于邮件协议、smtp协议漏洞、垃圾邮件产生及泛滥原因等进行分析后,考察了大量的垃圾邮件的发送路径、邮件头信息,认为基于黑名单(包括动态黑名单RBL)及内容分析等反垃圾邮件方案偏离了垃圾邮件产生的根本原因,无法根除垃圾邮件。在考虑的smtp服务器已经遍及全球的事实情况下,于2001年初提出了如下方案,命名为"可追查性检查"方案,但直到2003年初,才有人使用该方案产生了产品或雏形产品。 可追查检查方案是一个保证收到的邮件都是可以追查来源的方案。对于无法追查来源的邮件,用户无法回复(这些垃圾邮件也无需用户回复)、公安监管无法查找(使监管人员被大量无法追查的邮件淹没)、加大了反垃圾邮件其他技术的负荷(内容智能分析很耗系统资源)。 当然,存在未做伪装来源的垃圾邮件,但这种垃圾邮件经常是广告等发件人愿意负责的邮件,这样的垃圾邮件实际上定义不清,有些人认为是垃圾,有些人可能认为不是垃圾。这种垃圾邮件可以靠已有防垃圾技术(如黑名单)、投诉机制、法律法规等方法解决。 不可追查的邮件是伪造了邮件作者、发件人、邮件转发路径等信息的邮件,使接收人无法根据邮件找到发件人。原先的不可追查邮件曾使用不存在的域名,这样,有些MTA在接收邮件时,增加了域名解析,如果发现发件人域名不存在,则拒收邮件,这曾很大程度上阻止了垃圾邮件。 而如今的垃圾邮件(和病毒邮件)都使用存在的域名,病毒邮件经常还是在被感染者的通信簿中寻找发件人和收件人邮件地址,这样使垃圾邮件和病毒邮件更具迷惑性(因为收件人会认为邮件是从他所熟悉的发件人发来的)。 这样的垃圾邮件还导致一个恶劣后果,就是被冒用的发件人邮件地址可能要承担垃圾邮件导致的后果,例如可能被受害的收件人抱怨、被列入黑名单,甚至面临法律问题。 可追查性检查的基本理念 把关注重点放在中国互联网协会的最后一个定义上 重新定义垃圾邮件:做了任何伪装的、不愿承担邮件后果的邮件是垃圾邮件;反之:负责任的邮件服务器上的负责任的合法用户发出的邮件为合法邮件。 有效性和易实施性的统一 不企图追查所有邮件的来源,拒绝不可追查的邮件,只接收可追查的邮件,如需追查来源也只追查可追查的邮件。 凡是不符合诚信规定的邮件和服务器,我们都认为它是垃圾邮件予以拒收。 我们不认为所有的广告邮件都是垃圾邮件,如果广告邮件出自负责任的服务器和用户,我们可以知道该服务器的固定IP和托管地点,如果我们不厌烦则允许接收,如果我们厌烦了,只需要增加黑名单即可。 2.5.2 国外类似可追查性检查的技术 可追查性检查方案已经在国内近十家的反垃圾邮件产品中应用或即将应用,类似的方案,在国内一直无人提出,亦无人重视,甚至笔者与一些同业者交流、探讨后,依然有许多人不理解其意义所在,令笔者十分诧异。 在国外的类似技术中,名声最大的当属微软公司的SenderID,2004年7月Bill Gates来北京,宣称微软有最先进的反垃圾邮件技术,同时微软向IETF提交了RFC建议标准的申请,但被IETF拒绝。 SenderID使用XML格式定义,并兼容SPF。SPF是新加坡Pobox公司于2003年12月10日公布的类似方案,目前已经有一定规模的使用。 国外最早的类似技术是德国人于2002年12月提出RMX(反向MX)方案,目的就是要指出一个邮件域的合法发件服务器。该作者曾多次抱怨后来的许多方案,尤其是美国人提出的类似方案和他的方案完全类似,而美国媒体在宣扬这种方案是反垃圾邮件的有效方案的同时却从不曾提及他的功劳。 2.5.3 其他源头认证方法 其他一些源头认证,例如DomainKey、Challenge-Response及一些基于密码技术的源头认证,由于法律问题(比如有些国家不可以随便使用密码技术)、易用性问题(对SMTP协议改动过大)等诸多原因,推广起来有一定的难度。
3. 各种方法的协同 多种反垃圾算法在系统中存在协同问题。同时,各种网络安全设备之间也存在协同问题。例如,当垃圾邮件、病毒邮件大量泛滥时,应该凭借防火墙分流,将邮件流量交由邮件安全系统处理,而将非邮件流量交IDS监控,否则大量的邮件流量会淹没IDS,甚至导致IDS死机。 优化的引擎控制流程: 【动态引擎】-【同时连接数】:动态控制引擎的同时连接数在网络层限制大量同一IP的SMTP连接,并可能阻挡未知病毒和垃圾的泛滥程度; 【动态引擎】-【重复控制】:动态控制引擎的用户重复、邮件重复和连接频率三个重复控制引擎限制同一发件人、同一主题、同一IP的邮件的发送频率,并可能阻挡未知病毒和垃圾的泛滥程度; 【垃圾引擎】-【黑白名单】:垃圾引擎的黑白名单将已知的垃圾发送者摒弃、放进已知的非垃圾发送者,黑白名单匹配的项不会再做其他垃圾检测工作; 【垃圾引擎】-【可追查检查】:垃圾引擎的可追查性检查高效地发现伪造了来源、路由的邮件,这样的垃圾邮件占所有垃圾邮件的95$\%$以上,阻挡的同时降低了高负荷的内容过滤和智能垃圾分析所需要的系统资源要求; 【垃圾引擎】-【智能检测】-【智能实时黑名单】:智能实时黑名单将这些黑名单列入的匹配邮件(注意:不仅是最早的RBL的IP列表)判断为垃圾 上一页 [1] [2] [3] 下一页 |