标签:网络爬虫

网络爬虫

5. 网络爬虫-使用Cookie登陆

5. 网络爬虫-使用Cookie登陆
我们经常有这样的上网经历,就是如果你采用用户名密码登陆一个网站之后,如果在一段不长的时间内,再次访问这个本来需要你登陆的网站,你会很轻易地访问,而不需要再次输入用户名密码。这种“免登陆”的体验无疑给用户带来了非常好的体验,那为什么会“免登陆”呢?是什么在起作用呢? 答案就是Coo...

fireling 2年前 (2015-02-10) 5956℃ 0评论 17喜欢

网络爬虫

4. 网络爬虫-POST请求示例

4. 网络爬虫-POST请求示例
POST请求比较常见的一种情况就是用户名密码登陆情况,这里介绍一种用程序登陆豆瓣账号的流程。   在豆瓣需要我们输入用户名密码,才能获得我们用户里面相关的数据。那么我们通过POST方式传给服务器的数据在哪里呢?与GET方式一样,我们可以在Chrome浏览器中查看请求头...

fireling 2年前 (2015-01-27) 59083℃ 0评论 9喜欢

网络爬虫

3. 网络爬虫-GET请求示例

3. 网络爬虫-GET请求示例
GET请求一般用于我们向服务器查询的过程,比如说,百度搜索“宁哥的小站”,如图所示,浏览器的url会跳转成如图所示   在其中我们可以看到在”http://www.baidu.com/s?”之后出现一个长长的字符串,其中就包含我们要查询的关键词...

fireling 2年前 (2015-01-27) 5483℃ 0评论 17喜欢

网络爬虫

2. 网络爬虫-GET请求与POST请求

2. 网络爬虫-GET请求与POST请求
HTTP定义了与服务器交互的不同方法,最基本的方法有4种,分别是GET,POST,PUT,DELETE。URL全称是资源描述符,我们可以这样认为:一个URL地址,它用于描述一个网络上的资源,而HTTP中的GET,POST,PUT,DELETE就对应着对这个资源的查,改,增,删4个...

fireling 2年前 (2015-01-27) 5011℃ 0评论 29喜欢

网络爬虫

1. 最基本的爬虫

1. 最基本的爬虫
网络爬虫是当前互联网比较流行的概念,特别是对于搜索引擎、数据处理等,都需要我们从网上去“取”一些符合要求的数据。总的来说,一般的爬虫分为两个功能模块,也就是取数据和存数据。 取数据是爬虫的关键,特别对于一些具有“防御性”的情况,比如说网站需要登陆的情况,需要挂代理访问的情况,需要...

fireling 2年前 (2015-01-23) 8418℃ 0评论 72喜欢