欢迎加入超人学院!

超人学院机器学习精英班

2014年,百度从google挖走了行业顶尖的人工智能专家吴恩达,这是迄今中国最大的互联网人才引进计划。吴恩达是当今机器学习界的炙手可热的大牛,目前身为百度首席科学家与“百度大脑”的负责人。吴恩达加盟百度足以说明百度对机器学习重视程度。势必掀起国内机器学习应用的热潮。2015年7月,国务院发布推进“互联网+”11个具体行动计划,其中有一个就是人工智能,而且其他领域都涉及到人工智能。国家高度重视人工智能,而企业巨头抢滩布局人工智能产业链,大家都在找前景,说明它很火。互联网和大数据推动人工智能已经进入了新的春天。而人工智能的核心技术就是机器学习。在有了强大的计算,海量的存储,快速的检索,迅速的反应,优秀的逻辑推理后再配合上一个强大的智慧大脑,一个真正意义上的人工智能也许就会诞生。机器学习的快速发展,促使人工智能可能不再是梦想。

目前,机器学习可谓业界最为火热的一项技术。 随着计算机与网络的快速发展,机器学习在我们的生活和工作中起着越来越大的作用,正在改变着我们的生活和工作。从日常使用的相机,每天使用的搜索引擎,网上的每一次购物,到无人驾驶汽车,智能家居,智能机器人等,都有机器学习的影子。 继Facebook开源人工智能系统TensorFlow,2015年11月,谷歌、微软、IBM纷纷开源其机器学习工具包,以便加快机器学习的发展与应用。机器学习正在从少为人知的技术主题转变成更多人使用的管理工具。

大数据时代,数据是企业的最值钱的财富,但海量的数据并非都是有价值的,如何挖掘出有用的数据变成商业价值,就需要机器学习算法。大数据和机器学习势必颠覆传统行业的运营方式,必将驱动公司业务的发展。目前,越来越多的机器学习/数据挖掘算法被应用在电商、搜索、金融、游戏,医疗等领域中的分析、挖掘、推荐上。

但懂机器学习算法的人才却少之又少,物以稀为贵,致使这个行业的工资奇高。

适用人群
讲师介绍

刘老师

算法研究员

专注机器学习,数据挖掘,模式识别领域相关算法的研究和应用,利用数据挖掘、机器学习相关算法对用户数据进行分析和建模,建立用户画像用于个性化内容推荐。曾就职于某智能硬件互联网公司,负责智能硬件设备的算法的提取,及运动模式识别,分类算法的设计,建模仿真。

吴老师

资深大数据工程师

曾在优酷土豆公司任资深大数据高级工程师,优酷土台统计系统中的使用ETL和集群整合做多维度指标统计,广场推荐,用户行为分析,用户多维度宏观统计,用户话题词云提炼,行为训练等,相关业务及财务报表。曾涉及BI的搭建和使用。擅长Hadoop、storm等开发,多次在项目中担任负责人职责,并获得年度最佳员工称号。

课程安排

第一阶段:数学

串讲本期机器学习算法所涉及的数学知识点,包括高等数学、线性代数及概率论的基本知识。

第二阶段:Python

介绍Python基本的语法知识,及numpy快速入门常用的数据类型及使用方法,方便课程中的案例代码分析和理解。

第三阶段:机器学习概述

在大数据及人工智能的兴起之下,各IT技术人员最好都应该了解一些机器学习的相关知识与概念,因为这可以帮你更好的理解为你带来莫大便利技术的背后原理,理解机器学习常见的算法思想,致力于机器学习算法与数据挖掘工程师。

机器学习概述
  • 什么是机器学习
  • 机器学习的应用范围及实例
  • 机器学习的各大经典算法
  • 机器学习的基本概念

第四阶段:K近邻算法

K近邻算法可以说是数据挖掘十大经典算法中最简单的一个,它非常有效而且容易掌握。主要介绍k近邻算法的基本理论及思想,并结合实战示例,深入理解如何利用k近邻算法进行分类预测。

K近邻算法
  • 示例引入k近邻算法思想
  • kd树思想简介
  • 代码分析:k近邻用于约会网站数据的分类

第五阶段:朴素贝叶斯

概率论是许多机器学习算法的基础,理解这一主题非常重要。朴素贝叶斯是一个简单的概率分类器。从维基百科中的例子出发,引入贝叶斯公式,也说明生活中无处不在的贝叶斯分类。一些认知科学的研究表明,小孩也可以解决贝叶斯问题,我们对形式化的贝叶斯问题不擅长,但对于以频率形式呈现的等价问题却很擅长。

朴素贝叶斯
  • 示例引入贝叶斯公式
  • 先验概率与后验概率
  • 朴素贝叶斯假设及文本分类示例
  • 4.代码分析:朴素贝叶斯用于垃圾邮件的分类

第六阶段:决策树

决策树是经常使用的数据挖掘算法,之所以流行,是因为不需要了解机器学习的知识,就能够搞明白决策树是如何工作的。

决策树
  • 决策树ID3算法基本概念
  • ID3算法实例解析
  • C4.5算法介绍
  • CART树算法思想介绍
  • 代码分析:ID3决策树的构建与分类预测

第七阶段:线性回归

线性回归涉及一些最优化算法。日常生活中我们会遇到许多最优化问题,比如如何在最短时间内从地点A到达地点B?如何投入最少工作量而获得最大的效益?可见最优化算法非常强大。本节从简单的优化算法入手,介绍最小二乘法和梯度下降法,以及梯度下降法的改进算法。

线性回归
  • 房屋售价引入线性回归
  • 线性回归的模型建立
  • 最小二乘法
  • 梯度下降法求参
  • 局部加权线性回归
  • 代码分析:批处理梯度上升法/随机批处理上升法/改进岁即梯度上升法的分类结果对比

第八阶段:逻辑回归

在线性回归的基础上,引入Logistic函数,将线性回归问题转化为分类问题,即逻辑回归算法。

逻辑回归
  • 极大似然估计思想
  • 逻辑回归思想
  • 代码分析:利用梯度上升法求解参数,并进行分类预测

第九阶段:集成算法

“三个臭皮匠赛过诸葛亮”。对于一个复杂的任务来说,将多个专家的判断进行适当的综合所作的判断,往往比其中任何一个专家单独的判断要好。机器学习处理问题时亦是如此。本节集中介绍adaboost集成算法。有一些认为adaboost算法是最好的监督学习方法,所有该方法是机器学习工具箱中最强有力的方法之一。

集成算法
  • 集成思想介绍
  • Bagging算法思想
  • 随机森林RandomForest思想简介
  • Adaboost算法思想及实例解析
  • 代码分析:bagging,adaboost算法与单分类器的提升效果对比

第十阶段:聚类算法

“物以类聚,人以群分”,生活中的聚类现象无处不在。聚类是一种无监督的学习,数据对象没有类别标签,它将相似的对象归到同一个簇中,有点像全自动的分类。聚类方法几乎可以用于所有对象,簇内的对象也相似,聚类效果就越好。

聚类算法
  • 聚类思想简介及思想
  • K-means算法思想及评价指标
  • 二分kmeans算法
  • Kmeans++算法
  • 凝聚层次聚类AGNES算法
  • 分裂层次聚类DIANA算法
  • 代码分析:二维数据的kmeans算法代码解析与结果展示,分析优缺点

第十一阶段:特征降维

通常处理的数据是多维的,算法的时间复杂度跟维数成指数级增加。当数据维数达上千万维,就会造成维数灾难,往往就需要进行降维处理。降维的方法有很多,这里主要介绍PCA和SVD方法,通过降维,可以降低算法的计算复杂度,使数据集更容易使用,并去除噪声。数据降维方法虽然众多,但需根据特定问题选用合适的数据降维方法。

特征降维
  • 数据降维好处与方法
  • PCA主成分分析的降维思想
  • SVD奇异值分解及奇异值的选择策略/li>
  • 奇异值的选择策略
  • 代码分析:简单数据及高维数据的PCA降维效果,SVD用于推荐及图像压缩

第十二阶段:EM算法

EM算法是数据挖掘十大算法之一。最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。最大期望经常用在机器学习和计算机视觉数据聚类领域。

EM算法
  • 示例引入EM算法思想
  • EM算法步骤
  • 极大似然估计
  • 高斯混合模型
  • 代码分析:EM算法的代码解析与结果显示

第十三阶段:协同过滤推荐算法

协同过滤算法是推荐系统常用的算法之一,而协同过滤中常用的两个算法是基于用户的协同过滤和基于物品的协同过滤算法。

协同过滤推荐算法
  • 推荐系统介绍
  • 协同过滤方法介绍
  • 基于用户的协同过滤算法
  • 基于物品的协同过滤算法
  • 推荐系统评价指标
  • 代码分析:基于用户/物品的协同过滤代码解析

第十四阶段:关联规则推荐算法

关联分析中最有名的例子是“啤酒与尿布”。“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中。1993年美国学者Agrawal提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。关联规则用于推荐系统中,为商家产生大量利润,同时也便利了用户。

关联规则推荐算法
  • 关联规则算法Apriori思想
  • FP-growth算法
  • 代码分析:使用apriori算法发现数据的相似特征

第十五阶段:项目实战

用户画像系统: 该用户画像系统是依托超人学院的论坛平台,开发的在线,真实,可用的学员画像系统,主要用来更加精准有效的为学员提供服务。

用户画像系统
  • 项目效果展示 -标签表的设计 -帖子标签分析 -发贴时段喜好分析 -活跃度分析
  • 业务数据介绍
  • 数据仓库设计
  • 用户标签
  • 用户细分 -用户粘度分析
  • 文本特征提取(文本推荐)
  • 项目总结

互联网个性化推荐:

互联网个性化推荐
  • 个性推荐的应用场景以及优劣评定指标介绍
  • 利用用户行为、冷启动问题探究
  • 自定义标签及基于标签的推荐
  • 利用推荐算法进行离线和实时的广场推荐实战