`

python网络爬虫(一,抓取网页的含义和URL基本构成)

阅读更多

1,网络爬虫的定义

网络爬虫(Web Spider),把互联网比作一张蜘蛛网,Spider就是在这张蜘蛛网上面爬来爬去的蜘蛛。Spider从网站的某一个页面开始读取网页内容,找到这个网页的链接地址,然后通过这个链接地址找下一个网页内容,这样一直循环直到将整个网站的所有网页抓取完为止。

2,浏览网页的过程

浏览器中输入“www.baidu.com”后,向服务器发送了一次请求,把服务端的文件抓取过来,浏览器再进行解析、展现出来给我们看。HTML是一种标记语言,用标签标记内容并加以解析和区分。

3,URI的理解

我们通常看到的是类似“www.baidu.com”这样的是URL,这样在浏览器里面输入的字符串。

那么URI是什么呢?Web上每种资源,如html文档、图像、视频、程序等都是一个通用资源标识符(Universal Resource Identifier,简称URI)进行定位。

URI分为三个部分组成:

①,访问资源的命名机制

②,存放资源的主机名

③,资源自身的名称,由路径表示。

比如:http://xiaojingjing.iteye.com/admin/blogs/new ,这个就是URI。我们可以这样解释:

①,这是通过http协议访问的资源

②,位于主机xiaojingjing.iteye.com上

③,通过路径“/admin/blogs/new”来访问

4,URL的理解

URL是URI的一个子集,它是Uniform Resource Locator的缩写,意思是“统一资源定位符”。

可以说URL是Internet上描述信息资源的字符串,采用URL可以用统一的格式来描述各种信息资源,包括文件、服务器地址和目录等,主要用在www客户端和服务器程序上。

URL分为三个部分组成:

①请求协议(或称为服务方式)

②存放该资源主机的IP地址,有时候也包括端口号。

③主机资源的具体位置,如目录和文件名等。

 

爬虫最重要的处理对象是URL,它根据URL地址取得所需要的文件内容,然后对它进一步处理。因此,准确的理解URL对理解网络爬虫至关重要。

分享到:
评论

相关推荐

    Python网络编程基础+python网络爬虫(抓取网页的含义和URL基本构成) 中文 PDF版

    Python网络编程基础+python网络爬虫(抓取网页的含义和URL基本构成) 中文 PDF版 更多内容见: Python学习资料篇 - 趣思行的博客 - CSDN博客 http://blog.csdn.net/bjarnecpp/article/details/78702210

    Python3简单爬虫抓取网页图片代码实例

    现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正。 ...

    Python网络爬虫

    网络爬虫是一个自动提取...另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

    python模拟爬虫抓取网页内容 采集网页.rar

    python爬虫模拟抓取网页内容,采集网页的内容,这里主要是模拟抓取新浪微博中的内容,里面包括了[源码] 爬取客户端微博信息、[源码] 爬取移动端个人信息 关注id和粉丝id (速度慢)、[源码] 爬取移动端微博信息 (强推)...

    利用Python爬虫抓取网页上的图片(含异常处理)

    利用Python爬虫抓取网页上的图片,当遇到不合法的URL时,会自动处理异常,不会导致程序崩溃。直到下载完整个页面的图片,程序才会退出

    网络爬虫-python和数据分析

    网络爬虫-python和数据分析,网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取...

    Python网络爬虫的设计与实现

    网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。对网络爬虫的连接网络设置连接及读取时间,避免无限制的等待。为了适应不同需求,使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。研究网络爬虫的原理...

    Python网络爬虫爬取数学建模论文

    网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法...

    零基础写python爬虫之爬虫的定义及URL构成

    一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去...网络爬虫的基本操作是抓取网页。 那么如何才能随心所欲地获得自己想要的页面? 我们先

    支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    基于Python的网络爬虫与数据分析学年论文

    全文介绍了基于Python的网络爬虫从确定论题到最终实现效果的过程,具体内容入下: (1)第一章绪论主要说明本次设计项目的背景和目的,以及本次论文的结构。 (2)第二章相关技术介绍主要说明本次毕业设计项目涉及到的...

    python网络爬虫零基础入门-思维导图合集,01-爬虫基础、02-requests模块、03-数据提取、04-selenium

    网络爬虫,也称为网页爬虫,是一种用于抓取和提取网络信息的程序。它可以模仿人类在网络上浏览和查找信息的行为,自动地检索、提取和存储网络上的信息。本文将为读者介绍如何使用Python语言进行网络爬虫,从零基础开始...

    Python入门网络爬虫之精华版

    Scrapy是一个基于Twisted的开源的Python爬虫框架,在工业中应用非常广泛。 相关内容可以参考基于Scrapy网络爬虫的搭建,同时给出这篇文章介绍的微信搜索爬取的项目代码,给大家作为学习参考。 参考项目:使用...

    python 编写的DHT Crawler 网络爬虫,抓取磁力链接.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    Python网络爬虫实例讲解

    聊一聊Python与网络爬虫。 1、爬虫的定义 爬虫:自动抓取互联网数据的程序。 2、爬虫的主要框架 爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待爬取的URL链接,...

    python爬虫万能代码-获取网页

    Python爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。 调度器:相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工作。 ...

    python网络爬虫-入门基础学习.zip

    网络爬虫(又被称为网页蜘蛛,网络机器人,在 FOAF 社区中间,更经常的称为网页追逐 者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的 名字还有蚂蚁、自动索引、模拟程序或者蠕虫...

    python网络爬虫-入门基础学习.docx

    网络爬虫(又被称为网页蜘蛛,网络机器人,在 FOAF 社区中间,更经常的称为网页追逐 者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的 名字还有蚂蚁、自动索引、模拟程序或者蠕虫...

    Python网络爬虫项目开发实战_下载缓存_编程案例解析实例详解课程教程.pdf

    如果我们还想抓取另外一个字段,比如国旗图片的URL,那么又该怎么做呢?要想抓取这些新增的字段,我们需要重新下载整个网站。对于我们这个小型的示例网站而言,这可能不算特别大的问题。但是,对于那些拥有数百万个...

    Python数据挖掘与机器学习开发实战_Python网络爬虫技术实现对网站票务信息的爬取任务_优秀案例实例源代码源码.zip

    通过 Python爬虫技术来实现一个网站票务信息的爬取任务实例。 网络爬虫的总体设计: 根据本例网络爬虫的概要设计,本例的网络爬虫是一个自动提取网页的程序,根据设定的主题判断其是否与主题相关,再根据配置文件中的...

Global site tag (gtag.js) - Google Analytics