Ajax数据的爬取(淘女郎为例)
mmtao
Ajax数据的爬取(淘女郎为例) 如有疑问,转到 Wiki
淘女郎模特抓取教程
网址:https://mm.taobao.com/search_tstar_model.htm?spm=5679.126488.640745.2.1b545b81FfMEMX
判断一个页面是不是 Ajax 加载的方法:
查看网页源代码,查找网页中加载的数据信息,如果源代码中不显示,证明是 Ajax 加载。 如果是网站源代码中就包含要爬取的信息,那么就直接只用正则拿数据出来就行了 但是如果网页源码中没有,那么就是 Ajax 了,可以进行抓包找到获取数据的相关接口,操作如下(以爬取淘女郎美女信息为例):
一、初级
- 寻找 API 接口:获取模特列表。
如果使用的是 Chrome 的话,可以首先选中 XHR 来更快速的找出获取数据的 API,如果在 XHR 里面没有再去 JS 里面一个个的寻找。
- 找到 API 的 URL 为:https://mm.taobao.com/alive/list.do
经过尝试,后面的参数都是可以去掉的,访问的时候默认 page 为 1 ,所以如果要获取到所有页,需要使用 for 循环分别获取每一页的模特列表。
- 然后打开一个模特的详情页面,使用红框圈住的地方都是我们要获取到的数据
- 打开开发者工具,然后进行和刚刚相似的抓包操作。首先选中 XHR 进行快速的找出获取数的 API 接口,可以很容易的找到这个地址:
二、中级
下面我们抓取所有的妹子数据到文件中:
- 但是我们发现在地址的 GET 参数中只有一个_input_charset=utf-8,而且默认获取的是第一页的妹子列表,正常情况下我们在 GET 参数中可以看到page=1类似的项,但这里没有,那么很显然它没有用GET就肯定用了 POST ,结果一看发现确实是这样子的。
- 那么,这就简单了,使用 requests 库 post 请求数据,将请求来的 json 数据保存成表格,这项工作就结束了。
下面贴出代码:
a. myheaders.py ----这个文件里保存了一些常用的 headers 头信息
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Date: 2018-02-02 19:40:50
# @Author : cnsimo (2020745751@qq.com)
# @Link: http://www.scriptboy.com
# @Version : 1.0
import random
uaStr = '''Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)
Mozilla/5.0 (Windows NT 6.1; rv,2.0.1) Gecko/20100101 Firefox/4.0.1
Mozilla/5.0 (Windows NT 6.1; rv,2.0.1) Gecko/20100101 Firefox/4.0.1
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11
Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)
MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1'''
def getUA():
uaList = uaStr.split('n')
length = len(uaList)
return uaList[random.randint(0,length-1)]
if __name__ == '__main__':
print(getUA())
b. mmtao.py -----主程序
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Date: 2018-02-02 23:11:08
# @Author : cnsimo (2020745751@qq.com)
# @Link: http://www.scriptboy.com
# @Version : 1.0
from myheaders import getUA
import requests
import re
import time
import csv
mmListUrl = 'https://mm.taobao.com/tstar/search/tstar_model.do?_input_charset=utf-8'
mmUrl = ''
# 获得总共的页数
def getTotalPage():
headers = {'User-Agent': getUA()}
req = requests.get(mmListUrl, headers=headers)
res = req.json()
return res['data']['totalPage']
# 获取列表的函数
def getMMList(cpage = 1):
headers = {'User-Agent': getUA()}
payload = {'currentPage': cpage, 'pageSize': 100, 'sortType': 'default', 'viewFlag': 'A'}
req = requests.post(mmListUrl, headers=headers, data=payload)
res = req.json()
if 'data' in res.keys():
return res['data']['searchDOList']
else:
return
if __name__ == '__main__':
totalPage = getTotalPage()
with open(r'mmlist.csv', 'w+', newline='') as fs:
count = 1
cpage = 1
csvwriter = csv.writer(fs, dialect='excel')
page1 = getMMList(cpage)
csvwriter.writerow(page1[0].keys())
print('正在处理第%s页。。。' % cpage)
for mm in page1:
csvwriter.writerow(mm.values())
print(str(count)+' ', end='')
count += 1
print()
while cpage < totalPage:
cpage += 1
print('正在处理第%s页。。。' % cpage)
time.sleep(2)
mmList = getMMList(cpage)
if not mmList:
break
for mm in mmList:
csvwriter.writerow(mm.values())
print(str(count)+' ', end='')
count += 1
print('')
print('所有数据处理完毕!')
导出的数据如下:
三、高级
虽然说数据已经出来了,但是对模特的描述还是不够具体,想要更具体的数据得通过他们的模特卡获得,例如:https://mm.taobao.com/self/model_info.htm?spm=719.7800510.a312r.22.bKq7m9&user_id=277949921
这里的信息要更加全面一些,所以我们从列表也只获取模特 ID ,然后通过模特卡来拿到更加详细的信息。
- 首先分析模特卡页面,还是通过开发者工具,我们很容易找到了获取数据的 URL :https://mm.taobao.com/self/info/model_info_show.htm?user_id=277949921
- 这次响应的数据并不是格式的,不过没有关系,我们还可以使用正则表达式将信息匹配出来。
- 这样我们仅仅比刚才编写的程序多了一个分析模特卡的步骤,很快就能写出来这个代码了。
部分数据截图:
代码详见: mmtao_plus.py ,如有疑问,转到 Wiki
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Android仿京东首页秒杀倒计时
- 超实用的android自定义log日志输出工具类
- spring进行mock测试
- RecyclerView实现纵向和横向滚动
- Android ListView列表视图的使用方法
- 滴滴自动化运维平台夜莺实战部署
- Android UI使用HorizontalListView实现水平滑动
- python操作yaml说明
- python由已知数组快速生成新数组的方法
- Git 修改已提交 commit 的信息
- 解决windows下python3使用multiprocessing.Pool出现的问题
- 解决pyqt5异常退出无提示信息的问题
- TensorFlow2.1.0安装过程中setuptools、wrapt等相关错误指南
- 来来来,让咱重新认识一下算法的复杂度!
- 带你通过字节跳动面试---操作系统复习