python爬虫beautifulsoup4系列4-子节点
前言
很多时候我们无法直接定位到某个元素,我们可以先定位它的父元素,通过父元素来找子元素就比较容易,简单一点来说就是通过父亲找儿子。
一、子节点
1.以博客园首页的摘要为例:<div class="c_b_p_desc">这个tag为起点
2.那么div这个tag就是父节点
3."摘要: 前言 本篇详细。。。"这个string就是上面div的子节点(string通常看成是一个tag的子节点)
4."<a class="c_b_p_desc_readmore" href="http://www.cnblogs.com/yoyoketang/p/6906558.html">阅读全文</a>"这个也是div的子节点
二、.contents
1.tag对象contents可以获取所有的子节点,返回的是list
2.len()函数统计子节点的个数
3.通过下标可以取出对应的子节点
# coding:utf-8
from bs4 import BeautifulSoup
import requests
r = requests.get("http://www.cnblogs.com/yoyoketang/")
# 请求首页后获取整个html界面
blog = r.content
# 用html.parser解析html
soup = BeautifulSoup(blog, "html.parser")
# find方法查找页面上第一个属性匹配的tag对象
tag_soup = soup.find(class_="c_b_p_desc")
# len函数获取子节点的个数
print len(tag_soup.contents)
# 循环打印出子节点
for i in tag_soup.contents:
print i
# 通过下标取出第1个string子节点
print tag_soup.contents[0]
# 通过下标取出第2个a子节点
print tag_soup.contents[1]
三、.children
1.点children这个生成的是list对象,跟上面的点contents功能一样
2.只是这里是list对象,就只能for循环读出了,不能通过下标获取
(一般上面那个contents用的比较多,可能children性能更快吧,我猜想的嘿嘿!)
四、.descendants
1.上面的contents只能获取该元素的直接子节点,如果这个元素的子节点又有子节点(也就是孙节点了),这时候获取所有的子孙节点就可以用.descendants方法
2.获取div的子节点有两个,子孙节点有三个,因为a标签下还有个“阅读全文”这个string子节点
五、爬取博客首页的标签内容
1.博客左侧的标签并不是这个链接:http://www.cnblogs.com/yoyoketang/
2.通过抓包可以看到,这个url地址是:http://www.cnblogs.com/yoyoketang/mvc/blog/sidecolumn.aspx?blogApp=yoyoketang
2.可以先定位父元素:<div class="catListTag">
六、参考代码:
# coding:utf-8
from bs4 import BeautifulSoup
import requests
r = requests.get("http://www.cnblogs.com/yoyoketang/mvc/blog/sidecolumn.aspx?blogApp=yoyoketang")
# 请求首页后获取整个html界面
blog = r.content
# 用html.parser解析html
soup = BeautifulSoup(blog, "html.parser")
tag_soup = soup.find(class_="catListTag")
# print body.prettify()
ul_soup = tag_soup.find_all("a")
print ul_soup
for i in ul_soup:
print i.string
- 再学习之MyBatis.
- 用户登陆注册【JDBC版】
- 学习思考之《编程之美》.
- 干货 | 深度剖析服务发现组件Netflix Eureka
- 多线程编程学习一(Java多线程的基础).
- TensorFlow | 自己动手写深度学习模型之全连接神经网络
- 多线程编程学习二(对象及变量的并发访问).
- ASM基本配置问题(r5笔记第89天)
- 如何上手使用 Facebook 的开源平台 Detectron?
- 多线程编程学习三(线程间通信).
- 关于create database语句在10g,11g中的不同(r5笔记第88天)
- Web开发模式【Mode I 和Mode II的介绍、应用案例】
- 多线程编程学习四(Lock 的使用)
- Android编程规范
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Day58:对称的二叉树
- Day59:按之字形顺序打印二叉树
- Day60:把二叉树打印成多行
- Day61:序列化二叉树
- 如何发一条九宫格图片的朋友圈
- 神器!人工智能分离歌曲中的人声和背景音乐
- Python自学成才之路 分布式计算解决方案actor
- MySQL代码开发和调试利器CLion
- 重磅!GitHub 推出容器镜像仓库服务!
- 深入理解 Cilium 的 eBPF 收发包路径
- CentOS7下搭建Jellyfin个人流媒体服务器
- CentOS8下yum源配置及nmcli命令简单介绍
- Day62:二叉搜索树的第k个结点
- CentOS7下利用SRS搭建直播流媒体服务器
- 第9天:NLP补充——需要的基本知识