如何告诉搜索引擎该抓取什么内容?robots文件介绍
如何告诉搜索引擎该抓取什么内容?这一点对网站优化很有影响,下面来介绍一下robots文件介绍。
首先要了解什么是robots文件,比如,在芜湖优斗士的首页网址后面加入“/robots.txt”,即可打开该网站的robots文件。
文件里显示的内容是要告诉搜索引擎哪些网页希望被抓取,哪些不希望被抓取。因为网站中有一些无关紧要的网页,如“给我留言”或“联系方式”等网页,它们并不参与SEO排名,只是为了给用户看,此时可以利用robots文件把它们屏蔽,即告诉搜索引擎不要抓取该页面。
蜘蛛抓取网页的精力是有限的,即它每次来抓取网站,不会把网站所有文章、所有页面一次性全部抓取,尤其是当网站的内容越来越多时,它每次只能抓取一部分。那么怎样让它在有限的时间和精力下每次抓取更多希望被抓取的内容,从而提高效率呢?
此时可以利用robots文件。小型网站没有该文件无所谓,但对于中大型网站来说,robots文件尤为重要。因为这些网站数据库非常庞大,蜘蛛来时,要像对待好朋友一样要给它看重要的东西,因为这个朋友时间精力有限,每次来都不能把所有的东西看一遍,所以就需要robots文件屏蔽一些无关些页面。
结合芜湖优斗士whudows.com的文章来说,比如,我不想让搜索引擎抓取文章,可以在图6-35中接着写“Disallow:/news/120.htm1”,表示禁止搜索引擎抓取该网页。所以一定要对网站进行robots设置哦。