数据分析小案例(一):商业街抽奖(python)
最近有很多以小说的方式讲解数据分析的书,比如在看的这本《菜鸟侦探挑战数据分析》。里面的程序以R语言实现,案例都很简单,正巧最近在学习python,就尝试把里面的案例用python实现一下。
- 案件回顾
商业街抽奖
- 宣传说“平均每100人就能有1人抽中一等奖”
- 中奖率由店家调整——1%
- 每天的客人超过100人——一周总共有超过700人参与抽奖
- 1周内开出一等奖次数——5次(问题:1周之内每天都有超过100人抽奖,但是没有产生7个一等奖,只产生了5个,是不是有猫腻?)
- 模拟实验与分析
对于出现的问题,首先通过python进行模拟实验,看看一百次抽奖中会出现多少次一等奖。
import pandas as pd from collections import Counter choujiang = pd.Series(["未中奖","一等奖"]) cnt = Counter(choujiang.sample(n=100,replace=True,weights=([99,1]))) cnt
sample为pandas中函数,功能为随机抽样;
replace=True表示有放回的抽样;
weights表示取值权重;
Counter为collections中函数,功能为计算array中不同值的取值个数。
运行三次,结果分别为:
Counter({'一等奖': 1, '未中奖': 99})
Counter({'未中奖': 100})
Counter({'一等奖': 2, '未中奖': 98})
结论,中奖概率为1%,不代表抽100次必然出现1次一等奖。
上例为模拟了100次1%中奖率的电子抽奖,把这个模拟重复7次,即为1周内的抽奖情况模拟。用电脑模拟1000周的抽奖结果,就可以统计1000周里,出现5次一等奖的周数。
import numpy as np #模拟1000周的抽奖情况 a = np.zeros(1000) for i in range(1000): for j in range(7): a[i] = np.sum(choujiang.sample(n=100,replace=True,weights=([99,1]))=="一等奖")+a[i] #画出直方图 import pylab pylab.hist(a, bins=18, normed=0,edgecolor='black',facecolor='blue',alpha=0.75) pylab.show() np.transpose(Counter(a))
模拟1000周的抽奖情况,并计算抽中一等奖的次数,画出直方图。图中,横轴表示出现一等奖的次数,纵轴表示周数。
array(Counter({7.0: 151, 6.0: 140, 8.0: 138, 5.0: 130, 9.0: 96, 4.0: 91, 10.0: 81, 3.0: 53, 11.0: 37, 12.0: 26, 2.0: 23, 13.0: 13, 14.0: 7, 1.0: 7, 15.0: 3, 0.0: 3, 18.0: 1}), dtype=object)
上面结果为图中的频率分布情况,可以看出,一周内出现5次一等奖的一共有130周,130除以1000,为13%,即出现5次一等奖的周数占整体的13%。如果出现5次算有诈,那出现小于5次的也为有诈,则占总体的30%,概率过大,因此,不能单凭1周内只开出5次一等奖认为抽奖有诈。
- 几个小概念
概率:对于例子中对抽奖而言,中奖概率为1%,但是抽700次不一定出现7次大奖。
频率分布表:统计与某个数值一致的数据的个数,或者属于某数值范围内的数据的个数,然后将这些统计值制成一览表。
直方图:图形化的频率分布表。
数据的分布:如果将数据划分为若干个范围,那么数据在各个范围内的散布情况就成为分布。就大部分数据而言,平均值所在的范围频率最高,与平均值相差越大的范围频率越低。
机器学习养成记
- No.009 Palindrome Number
- Windows DNS API RCE漏洞分析及PoC构造
- 爬虫采集去重优化浅谈
- Android基础总结(10)——手机多媒体的运用:通知、短信、相机、视频播放
- Android基础总结(9)——网络技术
- 【Python环境】基于 Python 和 Scikit-Learn 的机器学习介绍
- 【Python环境】Python分类现实世界的数据
- Android基础总结(7)——异步消息处理
- No.008 String to Integer (atoi)
- No.007 Reverse Integer
- No.006 ZigZag Conversion
- No.005 Longest Palindromic Substring
- Android基础总结(6)——内容提供器
- No.004 Median of Two Sorted Arrays
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 关于nginx为站点绑定域名以及绑定多个域名
- PBMC or 全血,应该选哪个?
- 关于thinkphp5的报错 "mkdir() Permission denied"的解决
- 不同步节点在线使用Remix开发以太坊Dapp及solidity学习入门 ( 一 ):智能合约HelloWorld
- solidity编写eth智能合约之contract 创建合约(二)
- solidity modifier函数修改器 智能合约开发知识浅学(三)
- solidity struct 结构体创建与使用浅学 (四)
- solidity bytes 智能合约开发知识浅学(五点一)bytes基本概念
- Web程序员的Mysql进阶序二之sql多条数据插入、多条数据更新、多表同时查询
- Web程序员的Mysql进阶序三之sql多表数据删除、子查询、联合查询
- nginx 修改配置文件使之支持pathinfo,且隐藏index.php
- 微信jssdk开发,PHP,必要步骤
- 微信JSSDK分享页面自定义当前链接最简单示例
- (一)python3 只需3小时带你轻松入门—— 编程尝试
- (二)python3 只需3小时带你轻松入门——基本变量