Python爬虫一步步抓取房产信息
專 欄
❈
Garfield_Liang,Python中文社区专栏作者。
简书地址:http://www.jianshu.com/u/cac1d39abfa9
❈
嗯,这一篇文章更多是想分享一下我的网页分析方法。玩爬虫也快有一年了,基本代码熟悉之后,我感觉写一个爬虫最有意思的莫过于研究其网页背后的加载过程了,也就是分析过程,对性能没有特殊要求的情况下,编程一般是小事。
以深圳地区的X房网为例吧。XX房网的主页非常简洁,输入相应的地区就可以找到对应的二手房或者一手房。这一篇文章主要就给大家介绍我在做XX房网爬虫的分析过程。
注意:本文采用Chrome作为分析加载工作,如果使用其他浏览器,请参考具体的规则。 首先想到的
嗯,你首先要跳出编程,从使用者甚至是产品经理的角度去思考:在浏览这个页面的时候,如何就能看到全市的二手房的情况。通过主页的一个区一个区的输入,搜索,然后将页面的单元下载,嗯这是一个方法。
南山区首页的情况
如上图所示,只要更改keyword后面的参数,就可以获得不同区的二手房数据。编程的时候只需要手动写入一个含有各个区的list,然后通过循环去更改keyword后面的参数,从而开始一个区域,再爬取其中的链接。这个方法确实是可行的,深圳一共也没有多少个区。这个方法我试过是可行的。
我实际想说的
上面的这个方法固然可行,但并不是我想推荐的方法,大家看回首页,搜索栏旁边有一个地图找房。点进去你就能看到深圳全区域的房子,要是能在这里弄个爬虫,不就简单多了。
地图找房位置
深圳全区域的二手房
可以看到截图的右侧有所有二手房的链接,我们的任务就是下载右边的所有二手房的数据。首先第一步就先查看页面的源代码(Ctrl+U),可以从右边链表那里复制一些关键字,在源代码里面找找看,在源代码里面Ctrl+F搜索观澜湖试试,结果是没有,再尝试几个关键词好像都没有,但通过检查元素(Ctrl+Shift+I),是可以定位到这些关键词的位置。这样可以初步判断右边的链表是通过Js来加载,需要证实。
关键词观澜湖的在源代码里面的搜索结果
关键词观澜湖的在页面元素里面的搜索结果
尝试对观澜湖上方的元素在源代码里面定位,例如no-data-wrap bounce-inup dn,就可以在源代码里面找到。仔细对比一下两边的上下文,可以看到在节点下面的内容有非常大的差异。通过这个roomList作为关键词继续查找。
no-data-wrap bounce-inup dn 在检查元素内的位置
no-data-wrap bounce-inup dn 在源代码的位置
在检查元素里面可以发现roomList下面的加载的内容就是我们所需要的房屋列表,并且这部分内容再源代码里面没有。而在源代码页通过搜索roomList,却发现出现在script里面,证实roomList里面的内容是通过Js来加载的:
源代码中roomList出现的位置
下面就变成是找这个roomList了,由于是通过js加载的,打开控制台的network,并重新刷新页面,查看页面里面各个元素的加载过程,在过滤器里面输入roomList,可以找到一条信息:
roomList的搜索结果
点开看response里面下载的内容,发现那不就是我们要找的东西吗!里面有给出详细的页面数量(roomPageSize),那一个个的八位数字显然就是每一个房子的id嘛,然后每一页的加载数量是一定的,下面有对应id里面有房子的经纬度、户型、面积以及朝向等等信息(在这里做一个提醒,需要做heatmap的同学注意了,这里的经纬度用的是百度坐标,如果你后续可视化用的是google地图、高德或者GPS,是需要转换坐标的)。
roomList的内容
找到内容之后,接着就是看他的Headers,看看是如何加载的。
- Request Url表明其访问的链接,Request Method表明他的请求方法是Post;
- Request的头定义(Headers)里面包括Host、Origin、Referer、User-Agent等;
- 请求的参数(parameters)里面有三个参数,这三个参数是直接放映在其Url链接上面,里面包括当前页的页码(currentPage)、页面大小(pageSize)以及s(这个s一开始也不同清楚是什么,但是发现每一次请求都有变化,后面才知道这个是时间戳,表示1970纪元后经过的浮点秒数);
- 此外Post函数还可以发送数据到服务器做请求,这里所发送的数据包括始末经纬度、gardenId(这个到后期发现是对应的小区编号)和zoom(代表地图上面放大以及缩小的倍数,数字越大,放大倍数越高)
Header第一页
Herader第二页
基本扒到这里,对整个页面就比较清晰了,也知道我们的爬虫要怎么去写了。 开始写代码了
逻辑整理出来后,整个代码就写的非常轻松了。首先通过post方式访问http://shenzhen.XXfang.com/map/sale/roomList
,通过正则表达式提取Reponse里面的roomPageSize,或者最大页数。然后对每一页的内容进行爬取,并将信息输出。
第一部分,加载库,需要用到requests, bs4, re, time(time是用来生成时间戳):
from bs4 import BeautifulSoupimport requests, re, time
第二部分,通过设定合理的post数据以及headers,通过post下载数据。其中payload里面包括地图所展示的经纬度信息(这个信息怎么获得,在X房网页面上通过鼠标拖拉,找到合适的位置之后,到控制台Header内查看此时的经纬度就好了),headers则包含了访问的基本信息(加上有一定的反爬作用):
页面下载后,对于第一次下载首先需要用正则表达式获得最大页面数,我们真正需要的内容结合Beautiful的get和find以及re来抓取就可以了:
给一个在控制台里面输出的效果:
最后的效果
最后,这篇文章给出了我在写X房网爬虫的整个分析的思路。
- 通过几个Hello World感受.NET Core全新的开发体验
- ASP.NET MVC三个重要的描述对象:ControllerDescriptor
- 基于自制数据集的MobileNet-SSD模型训练
- .NET Core采用的全新配置系统[1]: 读取配置数据
- ASP.NET MVC三个重要的描述对象:ActionDescriptor
- 升级比特币区块链后,以特币已叩响成功的大门
- .NET Core采用的全新配置系统[2]: 配置模型设计详解
- 采用双拼域名meicai.cn的美菜网融资4.5亿美元
- 区块链技术或将迎来突破性进展,以特币未来生机勃勃
- 配置多个网卡的OpenStack VM
- .NET Core采用的全新配置系统[3]: “Options模式”下的配置是如何绑定为Options对象
- 游戏用户中心开发
- .NET Core采用的全新配置系统[4]: “Options模式”下各种类型的Options对象是如何绑定的?
- js运算符优先级笔记
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Java——类集框架:Set集合接口的详解及应用举例
- 如何有效地进行代码 Review?
- Java——对象序列化
- Android——MPAndroidChart折线图/柱状图/饼形图的使用
- Java——对String类型的时间进行加减操作
- Java——枚举基础应用总结(多例设计模式、Enum类、枚举的实际应用)
- Java——Annotation注解基本总结(简介、覆写、过期声明、压制警告)
- JavaWeb——一文快速入门BootStrap(栅格系统、全局CSS样式、组件、插件、基于BootStrap的官网案例实战)
- JavaWeb——XML入门详解(概述、语法、约束、Jsoup解析、Xpath解析)
- JavaWeb——CSS应用实例详解(概述、语法、选择器、属性、用户登录界面实例)
- JavaWeb——JavaScript精讲之事件监听机制与表单校验案例实战
- Java——扩展概念(匿名内部类、包装类、装箱与拆箱、数据类型的转换)
- Java——接口的基本总结(基本定义、使用接口定义标准、工厂设计模式、代理设计模式、抽象类与接口的区别)
- JavaWeb——HTML表单标签详解(input、label、select、textarea)
- Java——设计辅助概念(final关键字、对象多态性基本概念)