2017数据科学领域15大热门GitHub项目
-欢迎
加入AI技术专家社群>>
GitHub现在不再仅仅是一个软件寄存管理器,而是软件工程师通过它来共享他们自己开发的工具/库,甚至这些资源对一些公司都很重要。作为一名狂热的数据科学爱好者,我总结了一系列在2017年尤为出名的知识库!
1.学习资源
1.1:Awesome Data Science:
这个GitHub是数据科学的资源指南,它是建立在多年来的积累贡献,从引导指南、信息图表到人们在Twitter,Facebook,Instagram等社交网站上的资源链接,其中有很多资源可供观看,无论是否你是初学者还是老手。
回顾一下目录中的内容,一下内容都是资源库中最具深度的代表:
https://github.com/bulutyazilim/awesome-datascience
1.2机器学习/深度学习备忘录
这个资源库由常用的工具和技术组成,以cheatsheets的形式编译。这些手册的范围很广,从像Pandas这样的非常简单的工具到深度学习等技术。给这些最常用的库分类完成后,你在也不需要谷歌这些工具最常用的技巧和窍门。
Cheatsheets包括:Pandas,numpy,scikit学习,matplotlib,ggplot,dplyr,tidyr,pySpark和神经网络。
https://github.com/kailashahirwar/cheatsheets-ai
1.3牛津深度自然语言处理课程讲座
斯坦福大学自然语言处理课程一直是希望进入自然语言处理领域的人士的黄金课程。但随着Deep Learning的出现,NLP取得了巨大的进步,这要归功于深度学习架构(如RNN和LSTM)的出现。
这个基于牛津大学NLP讲座的知识库将NLP的教育提高到了一个新的水平。这些讲座是使用RNN一门实践性的课程,涵盖了用语言建模,语音识别,文本到语音等。这个知识库包含了牛津讲座的所有资料,提供实用的讲义材料分配。
https://github.com/oxford-cs-deepnlp-2017/lectures
1.4 PyTorch -教程
从目前来看,PyTorch是Tensorflow的唯一竞争对手,并且在维护其声誉方面做得很好。随着Pythonic风格编码,动态计算以及更快的原型开发的需求,越来越多的开发者开始选择PyTorch。因此PyTorch也引起了深度学习社区的足够的重视。
https://github.com/yunjey/pytorch-tutorial
1.5 NIPS 2017的资源
该知识库是NIPS 2017年会议上所有受邀讲座、教程和研讨会的资源和幻灯片清单。NIPS是一个专门针对机器学习和计算神经科学的年度会议。近几年来数据科学界的突破性研究大多是这个研讨会的研究成果,如果你想保持领先的地位,这绝对是最佳的资源!
https://github.com/hindupuravinash/nips2017
2.开源软件
2.1 TensorFlow
自TensorFlow正式发布以来,已经有2年的时间了,它一直保持着“机器学习/深度学习”顶级库的称号。Google Brain和TensorFlow背后的社区一直在积极贡献,尤其是在深度学习领域。
TensorFlow最初是作为使用数据流图进行数值计算的库而构建的。但从目前的状况来看,它可以说是建立深度学习模型的完整库。虽然TensorFlow主要支持Python,但它也支持诸如C,C ++,Java等语言。
https://github.com/tensorflow/tensorflow
2.2 TuriCreate-简化的机器学习库
TuriCreate拥有易于使用的创建和部署机器学习模型的复杂任务,如对象检测,活动分类和推荐系统。
TuriCreate是专门为python开发的。TuriCreate提供的最好的功能之一是它可以轻松地将机器学习模型部署到Core ML(苹果的另一个开源软件),用于iOS,macOS,watchOS和tvOS应用。
https://github.com/apple/turicreate
2.3 OpenPose
OpenPose是一个多人关键点检测库,可帮助你以实时的速度检测图像或视频中某个人的位置。由CMU的感知计算实验室开发,OpenPose的成功证明了开源软件研究如何能够轻松应用在行业中。
OpenPose帮助解决的一个用例是活动检测。例如,由演员完成的活动可以被实时捕获。然后这些关键点和他们的动作可以用来制作动画电影。OpenPose有一个可用于访问库的C ++ API,它也有一个简单的命令行界面来处理图像或视频。
https://github.com/CMU-Perceptual-Computing-Lab/openpose
2.4 DeepSpeech
DeepSpeech库是由百度研究开发的语音合成技术的开源技术。它基于TensorFlow,可以专门用于Python,但也可以绑定到NodeJS,也可以在命令行上使用。
Mozilla是从头开始构建DeepSpeech的主要工作人员之一,Mozilla技术战略副总裁Sean White 曾经评价说:“只有少数满足商业质量的语音识别服务可用,主要由几个大公司提供。这项技术减少了初创公司、研究人员甚至更大的公司想要为他们的产品和服务发言的用户选择和可用功能。与社区志同道合的开发人员,公司和研究人员一起,我们已经应用了复杂的机器学习技术和各种各样的创新来构建语音到文本的引擎”
https://github.com/mozilla/DeepSpeech
2.5移动深度学习
这个库为移动平台带来了最先进的数据科学技术。该知识库由百度研究开发,旨在将低学习模式部署在Android和IOS等移动设备上,具有低复杂度和高速度的特点。存储库本身中解释的简单用例是对象检测,它可以识别图像中的对象的确切位置。
https://github.com/baidu/mobile-deep-learning
2.6 Visdom
Visdom是一个支持在协作者之间广播图表、图像和文本的库。你可以以编程方式或通过UI组织可视化空间,为实时数据创建仪表板,检查实验结果或调试实验性代码。
输入到绘图函数中的输入是不同的,尽管其中大多数输入张量X比包含数据和包含可选数据变量(例如标签或时间戳)的(可选的)张量Y作为输入。它支持所有基本绘图类型来创建由Plotly支持的可视化。Visdom在Python中支持Torch和Numpy。
https://github.com/facebookresearch/visdom
2.7深色照片风格转移
这个库是基于一个研究论文,介绍了一个深度学习的方法将摄影风格转移处理大量的图像内容,同时有效的传递参考风格。该方法成功地在各种情况下产生令人满意的真实感风格的转换,包括一天中的时间,天气,季节和艺术编辑的转移。此代码基于torch。
https://github.com/luanfujun/deep-photo-styletransfer
2.8 CycleGAN
、
CycleGAN是一个有趣而且功能强大的库,展示了最先进的技术的未来。举个例子,下面的图片是这个库可以做什么的一瞥——调整图像的深度感知。这里的重点是,你没有告诉算法图片中的哪一部分需要重点关注。
这个库目前是用Lua编写的,但是它也可以在命令行中使用。
https://github.com/junyanz/CycleGAN
2.9 Seq2seq
Seq2seq最初是为机器翻译而开发的,但后来被开发用于各种其他任务,包括汇总、会话建模和图像字幕。只要可以将一个格式的输入数据编码成另一个问题,并将其解码为另一种格式,就可以使用这个框架。它使用Python所有流行的Tensorflow库进行编程。
https://github.com/google/seq2seq
2.10 Pix2code
这是一个非常令人兴奋的项目,它可以使用深度学习,尝试为给定的GUI自动生成代码。在构建网站或移动界面时,前端工程师通常必须编写耗时且无生产力的重复代码。这从本质上阻止了开发人员将大部分时间用于实现正在构建的软件的实际功能和逻辑。Pix2code可以通过自动化过程来弥补这一点。它基于一种新颖的方法,允许从单个GUI屏幕截图生成计算机令牌作为输入。
Pix2code是用python编写的,可用于将手机和网络界面的图像捕获转换为代码。
https://github.com/tonybeltramelli/pix2code
结束语:
我希望你能够了解2017年在GitHub上发布的一些新的开源工具/技术。我还列出了在GitHub上趋势的资源。如果你以前看过更多这样有用的知识库,请在下面的评论中告诉我们!
原文:https://www.analyticsvidhya.com/blog/2017/12/15-data-science-repositories-github-2017/?spm=5176.100239.blogcont316795.31.VomCn2
- Flume-Hbase-Sink针对不同版本flume与HBase的适配研究与经验总结
- 利用Flume 汇入数据到HBase:Flume-hbase-sink 使用方法详解
- 浅谈保证软件工程质量的一些心得体会
- 基于ELK的nginx-qps监控解决方案
- 2017年年度最烂密码排名
- 字符串方法汇总(三)
- 周鸿祎:“大安全”网络时代 需要AI大数据的技术支持
- 爆料:对扫码支付下手后,据说央行接下来要提高备付金,目标比例42%
- 回顾2017年5大科技突破,“时间晶体”充满想象!
- 1宽币=883?山本宽称要发行自己的数字货币
- 十种深度学习算法要点及代码解析
- 王健林旗下万达网科被曝大裁员 总裁出面说话了
- lodash源码分析之缓存方式的选择
- 《物联网智能终端信息安全白皮书》发布
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- R语言马尔可夫体制转换模型Markov regime switching
- Python中的ARIMA模型、SARIMA模型和SARIMAX模型对时间序列预测
- python3用ARIMA模型进行时间序列预测
- R语言马尔可夫转换模型研究交通伤亡人数事故预测
- scrapy爬虫框架和selenium的使用:对优惠券推荐网站数据LDA文本挖掘
- 使用R语言进行Metroplis-in-Gibbs采样和MCMC运行分析
- R语言中的马尔科夫机制转换(Markov regime switching)模型
- R语言ARMA-EGARCH模型、集成预测算法对SPX实际波动率进行预测
- nginx快速入门
- R语言中进行期权定价的Heston模型
- 使用R语言随机波动模型SV处理时间序列中的随机波动率
- 20个ES6面试高频问题
- i++和++i傻傻分不清楚?这里给你最清楚的解答
- android APT 使用
- Flutter异步编程async与await的基本使用