网络内容过滤技术应用浅谈

日期: 2008-01-12 来源:TechTarget中国

        随着互联网的迅速普及,网络内容“垃圾”已经开始侵入我们的生活,像现在互联网上大量的不良信息,以及垃圾邮件、病毒邮件、泄密邮件和网络聊天等问题,已经逐渐侵袭到人们的灵魂。如何对互联网取其精华、去其糟粕,从而保护我们自己以及抵御力极差的青少年?一种新的技术——内容过滤因此孕育而生,引起人们的关注。

  刻不容缓 网络潘多拉的盒子打开

  我们知道,互联网内容带来的负面问题,一般分为两个方面:一是娱乐性内容对人们时间的浪费;一是不良信息对人们灵魂的危害。

  对于前者,互联网上无数的娱乐性内容正在吞噬我们的宝贵时间,这些与工作无关的活动包括在线游戏、网上购物、股票交易、网上电台、流媒体和MP3下载等,它们对我们网上用户来说是全新的诱惑。据美国Websense公司最新公布的一份调查结果显示,四分之一的美国员工每个星期至少会花费超过一个工作日的时间上网浏览与工作无关内容。此外,美国管理协会做的一项调查还表明,企业员工全部上网活动中,50%以上都是与工作无关的,这意味着这些员工每个月拿到的薪水当中一部分与他们的工作无关。为此美国一年将付出几十亿美元的代价。另外,专门研究上网成瘾症状的专家表示,25%到50%的上网成瘾的人都是在办公室里上网的,如果企业对员工在上班时间上网的情况不闻不问,而且也不对某些不良网站进行禁止,那么很有可能会引发一系列严重的后果。

  如果这在根本上还不是绝对有害的话。后者就不同了,据有关机构调查显示,有34.6%的青少年网民承认自己曾经浏览过色情网站,有4.9%的人承认“经常”去看。很多青少年因此而荒废学业,成为“网络海洛因”的吸食者。

  技术担纲 内容过滤的“两板斧”

  采取适当的技术措施,对互联网不良信息进行过滤,既可阻止不良信息对人们的侵害,适应社会对意识形态方面的要求,同时,通过规范用户的上网行为,提高工作效率,合理利用网络资源,减少病毒对网络的侵害,这就是内容过滤技术的根本内涵。

  一般来说,内容过滤技术包括名单过滤技术、关键词过滤技术、图像过滤技术、模板过滤技术和智能过滤技术等,如果再细致分析,现阶段的内容过滤技术主要分为基于网关和基于代理两种。

  首先,基于网关的内容过滤,一般嵌入专门的安全网关或者防火墙等网关设备中,此种网络设备一般通过静态和动态内容过滤来进行。所谓静态过滤,就是可自定义可信站点和禁止站点。比如,静态过滤可以阻塞对“交友社区”的访问,以拒绝访问“交友社区”的网站内容。动态过滤也很重要,因为Internet 和Web 都不是静态的。相反,新的网页正以每年数以亿计的速度添加到Web,每分钟都有新的站点和页面出现。此外,Web 页也不是一个单一的实体,而是由众多独立的组件组成,每个组件都有它们自己的URL,浏览器可以单独和独立地获取它们。其中每个组件都可以通过其URL 直接访问,因此也可能是过滤对象。动态内容过滤可以通过设定URL中的关键词来过滤含此关键词的站点以确定用户是否应获取某一请求的URL,即便该URL 没有明确定义。比如,动态过滤可以拒绝访问URL 中有“Porn”字样的所有站点。理想的防火墙不仅应支持静态内容过滤,还应能让您选择一个可以自行决定阻塞的广泛类别列表,如拍卖、聊天、就业搜索、游戏、仇恨/歧视、历史、玩笑、新闻、股票、泳衣,等等。这种功能可使办公室管理员和父母允许或阻塞对任何站点类别的访问。而且,由于Internet 始终都在变化,因此应当定期用被归入站点类型的新URL更新类别列表。

  其次,基于代理的内容过滤。主要以专用的硬件代理上网设备实现,一般是将设备配置成代理缓存服务器,并部署在企业用户和Internet之间,这些优化的专用设备就能够智能地管理用户的内容请求。当用户请求一个URL时,请求首先到达设备相应端口安全专用设备进行认证和授权。如果请求的页面中的对象已经在该专用设备的本地缓存中,它们就从本地直接访问给用户,如果不在本地缓存中,安全专用设备就作为用户的代理,通过Internet和源服务器通信。当对象从源服务器返回时,就保存在本地缓存中以为后续的访问请求服务,同时传送一个拷贝给访问的用户。整个过程被全程监控,并作记录,供访问报告统计和为企业计划提供依据。

  任重道远 互联网仍在正邪之间

 

  现在的内容过滤产品使用黑名单、关键词和简单模板相结合的判断方式对不良内容进行过滤,但由于互联网上的内容变化迅速,这就要求名单和模板能够及时地更新,因此产品技术先进性的一个非常重要的指标就是生产商提供的黑名单库大小和过滤的有效比率。

  专家也认为,目前过滤技术大多在网络处理的应用层实现,适应性和安全性较差。基于网络层的实现,最大的挑战有两个方面:首先,应用层分析技术必须全面,因为直接对网络包进行应用层分析,需要充分了解需要过滤的所有应用在网络层是如何实现的,有多少种状态,是否有特殊的实现等; 其次,是实现兼容性,为实现与操作系统网络底层处理融合,需要充分了解操作系统网络实现机制,甚至替代部分功能,如何不影响操作系统的原有功能是相当困难的,特别是在Windows环境缺乏底层资料的情况下。

  然而,尽管内容过滤技术和产品面临一些困难和瓶颈,但是,随着网络的发展,人们基于保护自身的需要而对“绿色网络空间”的呼唤,已经极大促进了“内容安全”产业的发展,据统计,美国内容过滤软件整个市场每年的营业额达数十亿美元。

  发展到现在,尽管基于代理和网关的两大内容过滤系列技术,包括名单过滤技术、关键词过滤技术、图像过滤技术、模板过滤技术和智能过滤技术等,已经比较成熟,而且,产品主要包括单机版(家庭版)、网吧版、企业版、校园版、酒店版、ISP版、电信版等,基本涵盖了各个领域,但是值得一提的还是,内容过滤技术还处于初级阶段,实用的技术相对比较单一,主要表现在名单过滤和关键词过滤技术基本成熟,而图像过滤与模板过滤技术还处于起步阶段,面临着图片的智能识别和过滤对机器或网络性能存在负面影响的障碍。现阶段的内容过滤技术主要是对URL网址过滤和网页文字等固定内容过滤,还无法做到智能的判断,这是内容过滤技术在现阶段的状况。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。