Skip to main content
 主页 > 创说公益 >

范姜:爬虫是什么,每天到底在爬什么?

2020-11-15 07:45 浏览:

范姜:爬虫是什么,每天到底在爬什么?

  网络爬虫,跟着python火了。而网络爬虫的概念,能追溯到万维网-互联网刚诞生之时。

  当时互联网还没有google、百度这样的搜索引擎,互联网只是集合了全部的文件传输站点,用户只能通过手动查找需要的文件。

  一开始还没什么,大家在50份的文件中很快就能找到想要的,但是随着文件的积累,人们发现,要从50000份文件中找到需要的,实在是太难了。

  方法总比困难多,为了精确省时地找到特定文件,聪明的人创造了自动化的探测程序,没错,它就是网络爬虫。

  网络爬虫我们简称爬虫,爬虫是兢兢业业的记录者,它们每天穿梭在互联网的各个角落,把分散的数据记录到数据库中。搜索引擎在爬虫的基础上,为人们提供以文字/图片搜索的查找平台。

  互联网越来越丰富,图片、音频、视频等文件的加入,改变了信息的传输方式。我们使用百度等搜索引擎,输入关键词后,就能轻而易举地找到需要的文件。

  爬虫大类可分为:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫,一个完整的爬虫系统存在几种类型的虫。

  通用网络爬虫什么数据都搜集,主要用于搜索引擎;聚焦网络爬虫主要收集特定主题的数据,满足特定人群的需求;增量式网络爬虫用于更新数据,做各种有限策略;深层网络爬虫最重要的是填写表单。

  爬虫在提高网络覆盖率上功不可没,但是爬虫只是一种“益虫”吗?爬虫给正经引擎打工,它就是友好的,爬虫被用来制造混乱时,它就是妥妥的害虫。

  逢年过节买车票买机票时,我们就能体会到被爬虫支配的恐惧。数据显示,五分之一的爬虫都集中在出行相关的平台上。

  回首历年来出行平台被爬的辛酸往事,作为铁路一哥的12306首当其冲(接近90%的出行爬虫占比),即使是使用了图片验证码,平均每秒164.5万次的点击量也让人大吃一惊。

  平台放出车票,票贩子利用爬虫,大量抢票,然后高价转手给非常需要车票的人,找到买家后,放出车票,再利用爬虫将车票抢到,把购买人填为买家。

  所以我们看到突然多出来的车票时,抢到的概率也非常小,毕竟有上万的爬虫也盯着这张票的,它们在短短0.00001秒的时间里就能拍下,我们的手速还真拼不过这些小虫子。

  现在网红盛行,但是我们许多人都是没有本事也没有天时地利的。但是有的人没有机会,就自己创造机会?利用爬虫在某个平台给自己刷上几万几十万的僵尸粉,再刷点点赞刷点评论,伪造出自己是大IP的假象,坐等金主爸爸上门。

  更别说抢红包、抢限量物品这些低级操作了,坏人真有心想搞事的话,我们也是真的拼不过。

  爬虫与电商等行业的大战也在火热进行,恶意竞争在互联网上不断加剧。平台任由爬虫横行就会垮掉,金主有再多钱也不想被骗。

  因此很多平台都在打压虚假账号以及增加复杂的验证方式,这是为了保障正常用户的利益,也是平台的求生手段。

  爬虫不是防不住的,web应用防火墙可对抗爬虫。(云漫TTWAF,就是CDN专用的web应用安全防御引擎,有需要的朋友可以了解一下哦~)

  没有爬虫就没有清晰便捷的互联网冲浪通道,科技无罪,有罪的是那些动歪脑筋的人。