网络爬虫与网站存在的利弊详细解释_推广优化_黑客防线网安服务器维护基地--Powered by WWW.RONGSEN.COM.CN

网络爬虫与网站存在的利弊详细解释

作者:黑客防线网安维护基地 来源:黑客防线网安网站维护基地 浏览次数:0

本篇关键词:网络爬虫网站爬虫
黑客防线网安网讯:网络爬虫就是我们平时所说的蜘蛛,专业术语称做为网络蜘蛛(Web Spider)或网络机器人(Web  Robot),是一种按照一定的规则自动抓取万维网资源的程序或者脚本。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、
网络爬虫就是我们平时所说的蜘蛛专业术语称做为网络蜘蛛(Web Spider)或网络机器人(Web Robot)是一种按照一定的规则自动抓取万维网资源的程序或者脚本搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应 的索引技术组织这些信息,提供给搜索用户进行查询
平时我们都很注意蜘蛛是否来访自己的网站,因为蜘蛛的来访会为我们带来流量,带来PV,增加网站的知名度,却往往只看到了利己一面而忽略了蜘蛛给我们所带来的弊端。今天我们就来看下爬虫对网站存在的利弊关系。
    网络爬虫的安全性问题
    由于网络爬虫的策略是尽可能多的“爬过”网站中的高价值信息,会根据特定策略尽可能多的访问页面,占用网络带宽并增加Web服务器的处理开销,不少小型站 点的站长发现当网络爬虫光顾的时候,访问流量将会有明显的增长。恶意用户可以利用爬虫程序对Web站点发动DoS攻击,使Web服务在大量爬虫程序的暴力 访问下,资源耗尽而不能提供正常服务。恶意用户还可能通过网络爬虫抓取各种敏感资料用于不正当用途,主要表现在以下几个方面:
    1)搜索目录列表
   互联网中的许多Web服务器在客户端请求该站点中某个没有默认页面的目录时,会返回一个目录列表。该目录列表通常包括可供用户点击的目录和文件链接,通 过这些链接可以访问下一层目录及当前目录中的文件。因而通过抓取目录列表,恶意用户往往可获取大量有用的资料,包括站点的目录结构、敏感文件以及 Web服务器设计架构及配置信息等等,比如程序使用的配置文件、日志文件、密码文件、数据库文件等,都有可能被网络爬虫抓取。这些信息可以作为挑选攻击目 标或者直接入侵站点的重要资料。
   2)搜索测试页面、手册文档、样本程序及可能存在的缺陷程序
   大多数Web服务器软件附带了测试页面、帮助文档、样本程序及调试用后门程序等。这些文件往往会泄漏大量的系统信息甚至提供绕过认证直接访问Web服务 数据的方法,成为恶意用户分析攻击Web服务器的有效情报来源。而且这些文件的存在本身也暗示网站中存在潜在的安全漏洞
   3)搜索管理员登录页面
   许多网络产品提供了基于Web的管理接口,允许管理员在互联网中对其进行远程管理与控制。如果管理员疏于防范,没有修改网络产品默认的管理员名及密码,一旦其管理员登录页面被恶意用户搜索到,网络安全将面临极大的威胁。
   4)搜索互联网用户的个人资料
   互联网用户的个人资料包括姓名、身份证号、电话、Email地址、QQ号、通信地址等个人信息,恶意用户获取后容易利用社会工程学实施攻击或诈骗。
   因此,采取适当的措施限制网络爬虫的访问权限,向网络爬虫开放网站希望推广的页面,屏蔽比较敏感的页面,对于保持网站的安全运行、保护用户的隐私是极其重要的。
   基于网络爬虫技术的Web漏洞扫描
   前面提到的网络爬虫对网站的间接安全威胁,是通过对网络站点的信息收集为不法份子的非法访问、攻击或诈骗作准备。随着安全技术的发展,利用网络爬虫技术 对Web漏洞的直接探测已经出现,这会直接影响到Web服务器的安全。Web服务器漏洞中,跨站脚本(Cross Site Script)漏洞与SQL注入(SQL Injection)漏洞所占比例很高,这两种漏洞均可以通过对网络爬虫的改进来进行探测。由于缺乏足够的安全知识,相当多的程序员在编写Web应用程序 时对网页的请求内容缺乏足够的检查,使得不少Web应用程序存在安全隐患。用户可以通过提交一段精心构造的包含SQL语句或脚本的URL请求,根据程序的 返回结果获得有关的敏感信息甚至直接修改后台数据。基于目前的安全现状,网络爬虫技术在Web漏洞扫描上的应用,大大提高了发现漏洞的效率。
   基于网络爬虫技术的Web漏洞扫描大至分为如下过程:
   1)页面过滤:通过自动化的程序抓取网站页面,对包含等标签的Web页面进行URL提取处理,这些HTML标签中包含URL信息,便于恶意用户进行更深入的Web访问或提交操作。
   2)URL 匹配:对Web页面中的URL进行自动匹配,提取由参数组合而成的动态查询URL或提交URL,进行下一步的漏洞探测。如动态查询 URL“http://baike.xxxx.com/searchword/?word=frameset&pic=1”,其中 frameset为URL中动态的参数部分,可以进行参数变换。提交URL用于把Web用户的输入提交到服务器进行处理,其参数多为用户输入,同样可以进 行参数变换。
   3)漏洞试探:根据动态查询URL或提交URL,自动在参数部分进行参数变换,插入引号、分号(SQL注入对其敏感)及 script标签(XSS对 其敏感)等操作进行试探,并根据Web服务器返回的结果自动判断是否存在漏洞。如“URL匹配”中的动态查询URL可以变换成 http://baike.xxxx.com/searchword/?word= &pic=1进行跨站脚本漏洞探测。
   如何应对爬虫的安全威胁
   由于网络爬虫带来的安全威胁,不少网站的管理人员都在考虑对爬虫访问进行限制甚至拒绝爬虫访问。实际上,根据网站内容的安全性及敏感性,区别对待爬 虫是比较理想的措施。网站的URL组织应该根据是否为适合大范围公开,设置不同的URL路径,在同一Web页面中既有需要完全公开信息也有敏感信息时,应 通过链接、标签嵌入网页等方式显示敏感内容,另外尽可能把静态页面等经评估安全性较高的页面与安全性较差的动态页面从URL上分开。当限制爬虫时可以针对 URL路径的安全性与敏感性对不同种类的爬虫与代理进行限制。
    黑客防线网安服务器维护方案本篇连接:http://www.rongsen.com.cn/show-16945-1.html
网站维护教程更新时间:2012-07-30 23:15:57  【打印此页】  【关闭
我要申请本站N点 | 黑客防线官网 |  
专业服务器维护及网站维护手工安全搭建环境,网站安全加固服务。黑客防线网安服务器维护基地招商进行中!QQ:29769479

footer  footer  footer  footer