最新公告
  • 欢迎您光临牛品源码网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 搜索引擎神马Spider介绍

    1. 神马Spider

    神马Spider是神马访问互联网,自动化抓取网页的程序。Spider抓取下网页,建立索引,使用户可通过搜索引擎搜索到互联网上的资源。

    搜索引擎神马Spider介绍

    2. 神马Spider的user-agent及ip地址

    user-agent,是http协议中的一个属性,代表了终端的身份。神马Spider的user-agent为:Yisouspider,因为历史原因此user-agent名称将会继续使用。

    神马Spider的ip地址是一组ip池,会动态变,因此不在此列举

    3. 神马Spider的网站访问频率

    神马会根据网站的规模、服务能力、页面质量、更新速度等因素来决定对网站的访问频率。通常质量高、网页更新快的网站神马spider访问的频率相对会高,以保证高质、时效的能够展现给用户。

    搜索引擎神马Spider介绍

    4. 神马spider如何发现新网页

    神马spider发现新网页的方式有多种,最典型的是在已发现的网页中分析超链关系,选取url并抓取,如此不断拓展,尽可能多的抓取到有价值的网页。另外,神马会从dns服务商处获取新网站域名,能够及时抓取到新建网站。

    5. 关于robots协议

    robots.txt是搜索引擎访问网站是要访问的第一个文件,以确定哪些网页是允许或禁止抓取的。神马搜索遵守互联网robots协议,如您希望完全禁止神马访问或对部分目录禁止访问,您可以通过robots.txt文件来设置内容,限定神马Spider的访问权限。

    robots.txt必须放在网站根目录下,且文件名要小写。

    具体的写法:

    1) 完全禁止神马Spider抓取:

    User-agent: Yisouspider

    Disallow: /

    2) 禁止神马spider抓取指定目录

    User-agent: Yisouspider

    Disallow: /update

    Disallow: /history

    禁止抓取update、history目录下网页

    6. 神马Spider是否会造成带宽负担

    神马Spider有规范的抓取流程,同时也会考虑网站的忙闲时段来抓取,因此不会给网站造成带宽负担。如您发现名为Yisouspider的user-agent抓取严重影响到了网站的正常访问,您可将该时段的访问日志信息反馈至zhanzhangpingtai@service.alibaba.com,神马同学会将分析结论发送给您。

    RIPRO主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
    牛品源码 » 搜索引擎神马Spider介绍

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    站壳网
    一个高级程序员模板开发平台

    发表评论

    • 264会员总数(位)
    • 66769资源总数(个)
    • 1本周发布(个)
    • 0 今日发布(个)
    • 1860稳定运行(天)

    提供最优质的资源集合

    立即查看 了解详情