Python爬虫之mongodb的聚合操作
时间:2022-07-25
本文章向大家介绍Python爬虫之mongodb的聚合操作,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
mongodb的聚合操作
学习目标
- 了解 mongodb的聚合原理
- 掌握 mongdb的管道命令
- 掌握 mongdb的表达式
1 mongodb的聚合是什么
聚合(aggregate)是基于数据处理的聚合管道,每个文档通过一个由多个阶段(stage)组成的管道,可以对每个阶段的管道进行分组、过滤等功能,然后经过一系列的处理,输出相应的结果。
语法:db.集合名称.aggregate({管道:{表达式}})
2 mongodb的常用管道和表达式
知识点:
- 掌握mongodb中管道的语法
- 掌握mongodb中管道命令
2.1 常用管道命令
在mongodb中,⽂档处理完毕后, 通过管道进⾏下⼀次处理 常用管道命令如下:
-
$group
: 将集合中的⽂档分组, 可⽤于统计结果 -
$match
: 过滤数据, 只输出符合条件的⽂档 -
$project
: 修改输⼊⽂档的结构, 如重命名、 增加、 删除字段、 创建计算结果 -
$sort
: 将输⼊⽂档排序后输出 -
$limit
: 限制聚合管道返回的⽂档数 -
$skip
: 跳过指定数量的⽂档, 并返回余下的⽂档
2.2 常用表达式
表达式:处理输⼊⽂档并输出
语法:表达式:'$列名'
常⽤表达式:
- sum: 计算总和, sum:1 表示以⼀倍计数
-
$avg
: 计算平均值 -
$min
: 获取最⼩值 -
$max
: 获取最⼤值 -
$push
: 在结果⽂档中插⼊值到⼀个数组中
3 管道命令之$group
3.1 按照某个字段进行分组
$group
是所有聚合命令中用的最多的一个命令,用来将集合中的文档分组,可用于统计结果
使用示例如下
db.stu.aggregate(
{$group:
{
_id:"$gender",
counter:{$sum:1}
}
}
)
其中注意点:
-
db.db_name.aggregate
是语法,所有的管道命令都需要写在其中 -
_id
表示分组的依据,按照哪个字段进行分组,需要使用$gender
表示选择这个字段进行分组 -
$sum:1
表示把每条数据作为1进行统计,统计的是该分组下面数据的条数
3.2 group by null
当我们需要统计整个文档的时候,$group
的另一种用途就是把整个文档分为一组进行统计
使用实例如下:
db.stu.aggregate(
{$group:
{
_id:null,
counter:{$sum:1}
}
}
)
其中注意点:
-
_id:null
表示不指定分组的字段,即统计整个文档,此时获取的counter
表示整个文档的个数
3.3 数据透视
正常情况在统计的不同性别的数据的时候,需要知道所有的name,需要逐条观察,如果通过某种方式把所有的name放到一起,那么此时就可以理解为数据透视
使用示例如下:
- group: { _id:null, name:{push:"
- group: { _id:null, name:{push:"
3.4 动手
对于如下数据,需要统计出每个country/province下的userid的数量(同一个userid只统计一次)
{ "country" : "china", "province" : "sh", "userid" : "a" }
{ "country" : "china", "province" : "sh", "userid" : "b" }
{ "country" : "china", "province" : "sh", "userid" : "a" }
{ "country" : "china", "province" : "sh", "userid" : "c" }
{ "country" : "china", "province" : "bj", "userid" : "da" }
{ "country" : "china", "province" : "bj", "userid" : "fa" }
参考答案
db.tv3.aggregate(
{$group:{_id:{country:'$country',province:'$province',userid:'$userid'}}},
{$group:{_id:{country:'$_id.country',province:'$_id.province'},count:{$sum:1}}}
4 管道命令之$match
match用于进行数据的过滤,是在能够在聚合操作中使用的命令,和find区别在于match 操作可以把结果交给下一个管道处理,而find不行
使用示例如下:
- 查询年龄大于20的学生 db.stu.aggregate( {match:{age:{gt:20}} )
- 查询年龄大于20的男女学生的人数 db.stu.aggregate( {match:{age:{gt:20}} {group:{_id:"
5 管道命令之$project
$project
用于修改文档的输入输出结构,例如重命名,增加,删除字段
使用示例如下:
- 查询学生的年龄、姓名,仅输出年龄姓名 db.stu.aggregate( {$project:{_id:0,name:1,age:1}} )
- 查询男女生人生,输出人数 db.stu.aggregate( {group:{_id:"
5.1 动手练习
对于如下数据:统计出每个country/province下的userid的数量(同一个userid只统计一次),结果中的字段为{country:"",province:"",counter:"*"}
{ "country" : "china", "province" : "sh", "userid" : "a" }
{ "country" : "china", "province" : "sh", "userid" : "b" }
{ "country" : "china", "province" : "sh", "userid" : "a" }
{ "country" : "china", "province" : "sh", "userid" : "c" }
{ "country" : "china", "province" : "bj", "userid" : "da" }
{ "country" : "china", "province" : "bj", "userid" : "fa" }
参考答案
db.tv3.aggregate(
{$group:{_id:{country:'$country',province:'$province',userid:'$userid'}}},
{$group:{_id:{country:'$_id.country',province:'$_id.province'},count:{$sum:1}}},
{$project:{_id:0,country:'$_id.country',province:'$_id.province',counter:'$count'}}
)
6 管道命令之$sort
$sort
用于将输入的文档排序后输出
使用示例如下:
- 查询学生信息,按照年龄升序 db.stu.aggregate({$sort:{age:1}})
- 查询男女人数,按照人数降序 db.stu.aggregate( {group:{_id:"
7 管道命令之$skip
和 $limit
-
$limit
限制返回数据的条数 -
$skip
跳过指定的文档数,并返回剩下的文档数 - 同时使用时先使用skip在使用limit
使用示例如下:
- 查询2条学生信息 db.stu.aggregate( {$limit:2} )
- 查询从第三条开始的学生信息 db.stu.aggregate( {$skip:3} )
- 统计男女生人数,按照人数升序,返回第二条数据 db.stu.aggregate( {group:{_id:"
8 小结
- 理解聚合操作的是在干什么
- 掌握group,match,
- 熟悉sort,limit,
- 实现常用的表达式
- Python:numpy总结(4)
- Python: numpy总结(2)
- class 类—老司机的必修课 | 统计师的Python日记 第11课
- Python:matplotlib
- Python: matplotlib安装
- Java后端实现图片压缩技术(赞赏功能已开通,欢迎测试,噗~!)
- 我是如何得知10W+的访问量多来自工作日的 | 塔秘
- 使用百度UMeditor富文本编辑器,修改自定义图片上传,修改源码
- 【技术专栏】OpenVirteX体系结构之组件(一)
- 洞察 | 深圳数据分析师的职业前景如何?爬完拉勾数据给你分析 (附代码和过程)
- 【温故】金融数据挖掘之朴素贝叶斯
- 为你的网站加上SSL,可以使用HTTPS进行访问
- LeeCX - 开源后台管理系统简单介绍
- fastdfs 图片服务器 使用java端作为客户端上传图片
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Netty之美--零拷贝
- Netty对ThreadLocal的升级
- 【避坑指南】12.2 新功能优化器统计顾问(Optimizer Statistics Advisor)及常见问题和解决方法
- 初试 Open Service Mesh(OSM)
- K8S 生态周报| runc v1.0-rc92 发布
- 聊聊 Python 面试最常被问到的几种设计模式(上)
- 推荐一套个人文档管理系统。
- OpenCV图像读取(imread) 显示(imshow) 保存(imwrite)的冷知识点
- CodeReview实践-Gerrit自动触发JenkinsCI
- OpenCV常用图像拼接方法(一) :直接拼接
- ClickHouse|MergeTree引擎之数据分区
- OpenCV常用图像拼接方法(二) :基于模板匹配拼接
- 为了解决 Prometheus 大内存问题,我竟然强行将 Prometheus Operator 给肢解了。。
- 面试官:webpack原理都不会?
- 算法篇:树之对称二叉树