爬行和抓取 是搜索引擎工作中的第一步,进行数据采集每日任务。
1、蜘蛛:
搜索引擎用于爬行和浏览页面的程序流程被称作蜘蛛(spider),也称之为智能机器人(bot)。
2、追踪连接:
为了更好地抓取在网上尽可能多的页面,搜索引擎蜘蛛会追踪页面上的连接,从一个页面爬到下一个页面,就仿佛蜘蛛在蜘蛛在网上爬行那般,这也是搜索引擎蜘蛛这一名字的来历。
3、吸引住蜘蛛:
理论上蜘蛛能爬行和抓取全部页面,但事实上不可以,也不会那么做。SEO工作人员要想让自身的大量页面被百度收录,就需要想尽办法吸引住蜘蛛抓取。
4、详细地址库:
为了更好地防止反复爬行和抓取网址,搜索引擎会创建一个详细地址库,纪录早已被发觉都还没抓取的页面,及其早已被抓取的页面。
5、文档存款:
搜索引擎蜘蛛抓取的数据信息存进初始页面数据库查询。别的的页面数据信息与客户电脑浏览器获得的HTML是彻底一样的。每一个URL全是那样一个与众不同的文件编号。
标签内容: 抓取 蜘蛛 页面 搜索引擎 爬行 网址