edu资产收集(主域名)
时间:2022-07-23
本文章向大家介绍edu资产收集(主域名),主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
每日一说
- 早上被宿管敲门弄醒,说注意台风
- 中午想出去吃饭,结果赶上了核心机房网络设备电源硬件故障,健康码刷不出来,我门都出不去
- 下午手滑重装错机器的系统,导致几千条数据都没了
- 晚上打排位排到了一晚上的NT
- 11点多想继续部署环境的时候,手滑还把扫描器给删了
新的一天新的难过,昨天无敌倒霉,可能一年总有那么一天是这样的吧,所以,才,导致了这篇文章迟来了一天
(前排提醒:因为代码的关系,建议横屏阅读)
正文
首先这个脚本,是我队友 Rj45mp
写的,因为不符合我的"风格",所以我就拿来魔改了
文章链接:
https://rj45mp.github.io/python-crawler/
项目地址:
https://gitee.com/rj45mp/codes/tz1fc9kbhvrop7yw0e8lm51
功能介绍
简单的介绍一下功能,其实就是 EduSrc
这个平台上的,大学名字的爬取
爬取下来后,丢入bing搜索,然后通过获取搜索结果第一条,来获取学校主域名
接着写入数据库中,便于查询
魔改
但是他这里做的操作,是一步跑完,在进行下一步,而我更喜欢,跑一次,写一次数据,其次因为脚本方便性的缘故,我更偏向于写进txt里,因为这样前置工作不需要那么多
首先就是登录的部分,直接拿cookie即可
headers = {
'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36',
"cookie":"此处填你登录edusrc后的cookie"
}
接着给两个url,一个是bing,一个是edusrc的
url = 'https://src.sjtu.edu.cn/rank/firm/?page='
bing = 'https://cn.bing.com/search?q='
爬取学校名字
def schoolname(url):
for i in range(1,187): # 页数,1-187页
pageurl=url+str(i)
req = requests.get(pageurl,headers=headers)
tree = etree.HTML(req.text)
res = tree.xpath('//td[@class="am-text-center"]/a/text()')
print("爬取 %s"%(res))
schoolsite(res)
爬取完一次后,进行域名查询
def schoolsite(n):
global bing
for i in n:
bingurl=bing+i
req = requests.get(bingurl,headers=headers)
tree=etree.HTML(req.text)
res=tree.xpath('//div[@class="b_caption"]/div/cite/text()')
res1=school_domain(res)
获取到查询结果后,进行主域名提取
def school_domain(url):
for i in url:
if "edu.cn" in i:
d=str(i.encode('utf-8'))
ul=re.search('[a-zA-Z0-9]+.(edu.cn|com.cn)',d)
print("域名:"+i+" 提取结果为:"+ul.group())
insertfile(ul.group())
break
因为bing查询结果的关系,导致了脚本最后的结果有点奇怪,所以我加了一个if判断,判断域名中是否存在edu.cn
接着写入文件
def insertfile(elapse):
domain_file=open("sub_domain.txt","a")
domain_file.write(str(elapse)+"n")
domain_file.close()
一套流程就完毕了,全走完一遍后,开始第二页的爬取->搜索->提取->写入文件
有需要的自取
PS:我还写了去重的,想了想就不发出来了,懒得重新上传了,也懒得写这部分的东西
项目地址:
https://github.com/Ernket/edu-crawler
- .NET Core采用的全新配置系统[5]: 聊聊默认支持的各种配置源[内存变量,环境变量和命令行参数]
- 区块链:为什么它不仅仅是比特币?
- Java Mail(二):JavaMail介绍及发送一封简单邮件
- ASP.NET MVC Controller激活系统详解:总体设计
- .NET Core采用的全新配置系统[7]: 将配置保存在数据库中
- Selenium3+Python3环境部署
- Java Mail(三):Session、Message详解
- .NET Core采用的全新配置系统[8]: 如何实现配置与源文件的同步
- 四个问答让你秒懂区块链原理及应用
- .NET Core采用的全新配置系统[9]: 为什么针对XML的支持不够好?如何改进?
- 【机器学习实战】第11章 使用 Apriori 算法进行关联分析
- 【Scikit-Learn 中文文档】概率校准 - 监督学习 - 用户指南 | ApacheCN
- ASP.NET MVC路由扩展:链接和URL的生成
- .NET Core采用的全新配置系统[10]: 配置的同步机制是如何实现的?
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- The Preliminary Contest for ICPC Asia Xuzhou 2019 徐州网络赛 D Carneginon
- 地表最强的MySQL安装一键式安装,信不信你下完我就给你装好!附各种Mysql安装失败的解决办法(什么你安装失败了?快来看这个)
- The Preliminary Contest for ICPC Asia Xuzhou 2019 徐州网络赛 C Buy Watermelon
- The Preliminary Contest for ICPC Asia Xuzhou 2019 徐州网络赛 B so easy
- 萌新不看会后悔的C++基本类型总结(二)
- The Preliminary Contest for ICPC Asia Xuzhou 2019 徐州网络赛 A Who is better?
- 树的重心
- PostgreSQL 13:索引并行vacuum
- 『数据库』震惊,某博主为吸引眼球拿出压箱底SQL总结,如果你没看那就吃亏了!(超级详细的SQL基础,你还不会的话就别学数据库了)
- 萌新不看会后悔的C++基本类型总结(一)
- 2019 ICPC 银川网络赛 D. Take Your Seat (疯子坐飞机问题)
- 2019 ICPC 银川网络赛 H. Fight Against Monsters
- 状态压缩DP(大佬写的很好,转来看)
- 2019 ICPC 银川网络赛 F-Moving On (卡Cache)
- 树形结构--二叉树的遍历算法应用(十九)