全程班
632人加入学习
(0人评价)
CFTA 一级全程班(课程有效期:两年)
价格 ¥ 8800.00

用来衡量数据对称程度的指标

偏度-skewness(3次方)

峰度-kurtosis 

why stdev cannot used for measure 数据对称程度? because stdev 是取了平方再根号,无法知道往哪一个方向偏离了中心

kurtosis--主要衡量异常值偏离均值的概率

和钱相关的基本都是右偏的

正态分布的峰度位3 --黑线

我们研究峰度是为了研究异常值, 高峰肥尾(蓝线)表示更高的频率出现极大的差异值, 低峰瘦尾(红线) 这个结论有一个隐含前提条件:即这组分布和正态分布一样,它的mode, mean, middle 是一样的

[展开全文]

我们通常会用离散程度衡量分险

coefficient of variation  cv 相对离散指标,比如下面的例子:A B两组挖沟,明显b的偏差更好,但是stdev 无法反映出来,所以用s/x=cv来更好的反映出两组的差异。(cv 是剔除了数据规模的影响)

cv 衡量的每单位回报所承担的分险有多少(越小越好)s-风险, x 罢 =收益率

[展开全文]

第一个指标:mean(均值)

几何平均数更接近现实,它包含了复利的思想在里面,儿算术平均只考虑的单利。

比如每年的投资受益率不同,三年的复利为(1+10%)*(1+8%)*(1+12%) 就等于 (1+R)^3, 其中R就是三年的几何平均收益率。

第二个指标, 中位数、众数

第三个指标:分位数(四分位,百分位)(先从小到大排序)

[展开全文]

数据类型

数值型 (连续、离散)-定量

分类型(名义、顺序)定性--顺序不是数值型,因为不计算顺序之间的差异,比如酒店的星级排名。

第一种分类方式

第二种分类方式

第三种分类方式

汇总呈现

划分小组(频宽)-定量数据

划分类别--定性数据

frequency polygon-将每个柱子的中间点连接起来就形成了红色的这个线,又称requency polygon line.

[展开全文]

统计分为两类:descriptive statistics 描述性统计 和inferential statistic 推断性统计

描述性统计(用指标、图表)来描绘一组数据的重要特征(mean, stdev, 偏度和丰度,相关性指标)

推断性统计就是对一组大数据量的总体做预测、估计和判断

两种描述都会用抽样的方法里描述整体的数据情况

其中,推断性统计包含了两个部分(估计 estimation 和假设 hypothesis-先猜后证)

概率针对的是随机变量的分析的规律,而且随机变量的规律只能对长期大量的数据下,规律才会显现

 

定量分析: independent variable -自变量

dependent variable-因变量

方程

方差分析: 定性分析( 某一个factor 是否对 另一个结果是否有显著影响

[展开全文]

create view , create teable 

drop view , drop table

Create view productcustomers as 

Select CompanyName,ContactName,ProductID FROM Customers,orders,order_details where Customers.CustomerID=Orders.CustomerID AND Order_Details.OrderID=Orders.OrderID;

[展开全文]

 

select SupplierID,UnitPrice,UnitsOnOrder from products where UnitPrice<=6;

UNION

select SupplierID,UnitPrice,UnitsOnOrder from products where SupplierID IN(10,15);

组合起来,其实就是将两个条件用or 连接。两者等价。所以实际应用中,union 常被or代替使用

select SupplierID,UnitPrice,UnitsOnOrder from products where UnitPrice<=6 OR SupplierID IN(10,15);

 

注意:对联合查询对结果排序order by 语句只能放在最后一条。 

[展开全文]

必须加表名.supplierID 和另一张表名.supplierID

[展开全文]

count(*)会包含空值,对所有的记录都进行计数

[展开全文]

日期时间处理是重点

文本处理

系统默认从1970.1.1 日 开始计时

date() 函数让包涵这一天的记录都选择进来

abs() 常用,其他的了解即可。

[展开全文]

复杂的逻辑关系可以用小括号来定义计算顺序。

[展开全文]

过滤数据

使用where子句来过滤显示某些条件的记录

能用sql 用sql 来查询

"= ""between" are differenet with python 

[展开全文]

select  xx from xx( 字段名,区分大小写)

select ProductName from Products

多条sql 语句用; 分号来结束前一条语句

检索多列字段名用半角逗号隔开。举例如下

注意:一般我们都是对一个字段去重复

 

限制显示:用LIMIT

SELECT ProductName FROM Products LIMIT5,5;

第一个5 表示从第(5+1)=6行开始(应为sql 行0开始的)

第儿个5 表示长度为5 条记录

[展开全文]

pandas -index 在数据库称为主键

连接数据库

方法一 登陆网页版

mysql.bizanaly.com  userID test pswd: Aa123456

登陆后我么主要用north

方法二 安装phpstudy 数据库管理工具

mysql-front(常用)的数据库

use <db name> 

show 命令显示信息

[展开全文]

默认time delta(days)

切片【%y-%m-%d】

时间对象 datetime()

 

to_datetime 方法

要求: 生成一个已日期为列 ,随机数为值的两行数

in

注意: randn(4) 对应上面的dates 有4个列表元素的index

out:

按日,周,月,年 只需要用resample('D')即可。

可以用下面这个办法来生成一个日期范围。

同比,环比 用shift(2) shift(-2) 往前移动

[展开全文]

授课教师

高级讲师

课程特色

视频(80)
下载资料(2)
考试(2)