博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
网络爬虫入门系列(一) (纯定义,可跳过不看)
阅读量:4709 次
发布时间:2019-06-10

本文共 495 字,大约阅读时间需要 1 分钟。

      网络爬虫入门系列(一)

    
    1.什么是网络爬虫
    百度百科的说法是  是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本  
    通俗的说法是 :将网络中的信息下载下来,然后进行一定的处理以得到你想要的信息。
    
    2.网络爬虫的爬行策略
    1) 深度优先策略:其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。 爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。 当所有链接遍历完后,爬行任务结束。 这种策略比较适合垂直搜索或站内搜索, 但爬行页面内容层次较深的站点时会造成资源的巨大浪费。
    2) 广度优先策略:此策略按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。 当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。 这种策略能够有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题,实现方便,无需存储大量中间节点,不足之处在于需较长时间才能爬行到目录层次较深的页面
    
    
    3.java 中的网络爬虫基本手段
        请看下一篇

转载于:https://www.cnblogs.com/szw-blog/p/8565944.html

你可能感兴趣的文章
IP,子网掩码,交换机,路由
查看>>
3. 股票投资方法
查看>>
linux详解sudoers
查看>>
java MAT 分析
查看>>
poj2828
查看>>
vs2015 Android SDK
查看>>
虚拟分区安装
查看>>
GeSHi Documentation
查看>>
PAT甲级1057 Stack【树状数组】【二分】
查看>>
Google内部培训过1.8万人的机器学习速成课
查看>>
基变换与坐标变换
查看>>
高观点下的初等数学
查看>>
Latex 琐碎
查看>>
卷积神经网络(CNN)的理解与总结
查看>>
关于parseInt你不知道的事
查看>>
java学习笔记day05
查看>>
Python-绑定与未绑定方法通俗讲解
查看>>
笨方法学python--打印
查看>>
WPF程序中App.Config文件的读与写
查看>>
day5-1继承
查看>>