课程详情
Kaggle 全球排名前20导师-冲刺金牌班
分享到:
Kaggle 全球排名前20导师-冲刺金牌班
价格:
24999.00
课程详情
课程周期: 一个月 授课老师: Daney
课程: 背景提升

课程概述

Kaggle是一个进行数据发掘和预测竞赛的在线平台。和不少大公司合作,提供他们内部的数据以及提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得5K-10K美金的奖金。在为期一个月的项目中,全球Kaggle天梯前20的导师,将会带领同学参加比赛。课程将全英文授课。


导师介绍

Daney导师,目前就职于欧洲大数据巨头公司,有10年的工作经验,在kaggle拿下了将近10个比赛的金牌,综合排名在Kaggle前20。


课程详情

阶段一:

1.学习评估数据的质量和完整性的方法,对重复,错误,缺失数据如何发现与修复。

2.掌握python编程,掌握pandas等数据分析工具。

3.学会挖掘数据内部的规则,对数据进行合理性分析。分析数据与特征,挖掘现有数据中的价值信息的方法

案例:用户购买数据实践。


阶段二

1.了解掌握数据建模的常见技巧。掌握如何选取特征组合进行交叉,特征关联性分析

2.学会特征工程的技巧,比如数据阑珊化,数据归一化,学会分析特征列的特性以及如何提取特征列的信息

3.掌握特征选择、模型选择、K-fold等知识,应用这些手段对现有模型进行调优。

案例:波士顿房价


阶段三

1.学习基础NLP知识,了解N-gram,词频统计,贝叶斯等方法

2.了解经典的LDA关键字抽取模型

3.了解word2vec文本向量化模型,学会通过分析数据的结构,选取NLP的手段处理文本用于数据分析


阶段四

1.了解进阶模型,比如随机森林,GBDT,DNN等

2.了解assembled models,以及学会模型组合

3.学会模型调参技巧,利用自动调参工具输入参数组合来得到最佳模型表现


实战项目:基于的兴趣和擅长技能,在kaggle上选择适合同学的课题,保证在所有参赛者中15%的排名