爬虫入门到精通-mongodb的基本使用
时间:2022-05-07
本文章向大家介绍爬虫入门到精通-mongodb的基本使用,主要内容包括保存到文本文件?、Mongodb的介绍、Mongodb的安装、mongodb的基本使用、总结、基本概念、基础应用、原理机制和需要注意的事项等,并结合实例形式分析了其使用技巧,希望通过本文能帮助到大家理解应用这部分内容。
在之前我们讲解了如何爬取网页(不管是异步加载的还是普通的),但是爬取下来的数据该如何保存呢?
保存到文本文件?
可能有人会说那我保存在文本文件里面,这样也是可以的,但是到你需要用这个数据的时候,可能就会很麻烦了…
我今天爬取了10000部日本电影
假如说你要找苍老师出演的,那么你可能会说,我直接ctrl+f
查找”苍老师”不就行了
但是假如你想要找”苍老师+无码”怎么办呢???
这个时候就是体现数据库的作用了。
Mongodb的介绍
为什么用mongodb呢?
- 文档结构的存储方式
- 简单讲就是可以直接存json,list
- 不要事先定义”表”,随时可以创建
- “表”中的数据长度可以不一样
- 也就是第一条记录有10个值,第二条记录不要规定也要10个值
- 对爬虫这种很乱的数据来说,很适用 。
Mongodb的安装
直接到 https://www.mongodb.com/download-center#community选择合适的版本下载安装就可以了。
安装完成后
windows用户在
bin
目录下新建一个data
的文件夹
然后在新建一个start.bat
文件,内容写上
mongod --dbpath ./data
后面每次只要直接打开这个.bat 文件mongodb就运行了
你可以直接选中start.bat
,发送到桌面快捷方式,这样你以后可以直接在桌面打开了
mongodb的基本使用
首先 pip install pymongo
总结
爬虫经常用到的三条插入语句
下面的test2为表名,
-
test2.insert_one(xx)
插入一条数据 -
test2.insert_many(xx)
插入list -
最常用>>>
test2.update_one({'x':1},{'$set':{'x':3}},upsert=True)
- 第三条一般会在防止重复的数据被存到数据库内 要用到
参考文档
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 浅谈文件上传漏洞(客户端JS检测绕过)
- java字符串操作:如何实现字符串的反转及替换?
- 树莓派基础实验10:干簧管传感器实验
- Java 字节流 字符流 io流
- 写一个函数,要求输入一个字符串和一个字符长度,对该字符串进行分 隔。
- 树莓派基础实验11:U型光电传感器实验
- java 缓冲流+原理图解
- 写一个函数,2 个参数,1 个字符串,1 个字节数,返回截取的字符串,要 求字符串中的中文不能出现乱码
- Java 编程,打印昨天的当前时刻.
- git merge后 丢失文件 以及 代码
- 树莓派基础实验12:PCF8591模数转换器实验
- spring boot多数据源的代码实现
- 树莓派基础实验13:雨滴探测传感器实验
- Java中的TCP通信程序
- Java实现一个简单的文件上传案例