欢迎加入超人学院!

报名咨询 >>

测算码奴变身IT人才的距离,仅需4个月!

你还在纠结怎么破?

他们月薪已经20000+

高薪不是吹的,这就是实力

大数据开发工程师,高薪就业

2015年中国云计算产值已达1405亿元

这次,云时代真的已经到来了

云计算产业已经从概念走向落地,作为云计算其中的一部分——大数据领域更是得到了广发的关注,经调查称,90%的企业都在用云计算
云计算产值——中国云计算市场规模

1100亿元
2014年已达

1405亿元
2015年可达

$$$$亿元
2016年将达

匠人之心 打磨企业应用级实战课程

本课程目标是培养目前在非常紧缺的大数据技术方向的人才,即夯实了学员的基本功底,又结合公司真实的项目案例提高学员动手能力和解决问题的能力,学完本套课程可以从事大数据方向相关工作,可以胜任大数据运维、大数据实时处理等工作。

课程详情 >>

六大项目全新升级,为高薪加重筹码

  • 互联网爬虫
    (含zookeeper)
  • 互联网数据的
    接入与清洗
  • 互联网数据的
    实时计算
  • 互联网数据的
    全文检索(含es)
  • 互联网安全数据
    的统计与分析
  • 互联网个性化推
    荐系统(含mahout)

项目一:互联网爬虫(含zookeeper)

项目简介

该项目使用分布式爬虫爬取互联网各大电商网站商品数据,前台实现对数据的快速精准查询和商品对比。

项目亮点

  • 商品页面抓取和解析
  • 分布式爬虫设计细节
  • 分析url链接和页面内容如何存储
  • 分布式爬虫监控功能
  • 爬虫频繁爬取数据ip被封问题解决方案
  • 分析爬取失败url如何处理
  • 抓取需要登录的网站数据
  • 使用solr实现海量数据精准查询
  • 使用hbase实现海量数据快速查询

项目二:互联网数据的接入与清洗

项目简介

目前互联网中的数据大都以日志的形式零散的输出到各个web服务器; 为了统计用户的行为,加以呈现出规律。我们不得不使用日志采集的框架来将数据采集汇总的相应的目的地。

项目亮点

  • 1、离线统计:
  • 我们使用flume讲多个机器的日志汇总到hdfs上分天和分类别存储,以便于之后的mr和hive分析使用。
  • 2、实时统计:
  • 使用flume采集采集日志文件并发往kafka框架里做存储,以便于storm、spark-streaming一系列的实时计算框架来使用。

项目三:互联网数据的实时计算

项目简介

通过大数据工具将互联网中的日志的采集、清洗、分析统计出常见的互联网指标;开发各种维度UV的分布报表、各个指标每日、月指标报表,用于对产品做出正确的决策,数据的正确性校对问题,临时性的图表的开发。

项目亮点

  • 使用hadoop、mapreduce、hive清理和分析UV、PV、登录、留存等常见指标
  • 使用storm实时分析充值、消费等的趋势
  • 各种维度的趋势对比、各个指标每日、月指标报表生成
  • 使用kettle数据的正确性校对问题和邮件报警

项目四:仿百度搜索,实现互联网数据的全文检索(含es)

项目简介

该项目主要利用elasticsearch索引工具的快速复杂查询能力和hbase海量数据存储的能力,相当于对hbase中的数据建立二级索引,实现对海量数据的存储和复杂快速查询,在企业中es+hbase的架构应用非常广泛。

项目亮点

  • 详细讲解elasticsearch的企业级使用以及优化方案
  • 利用elasticsearch的routing路由功能实现极速查询
  • 项目的实际应用场景分析
  • 整合中文分析引擎(ik)
  • 详细设计elasticsearch的settings和mappings【具体分析每个字段的属性信息】
  • elasticsearch和hbase的整合,分析哪些数据存储在es中,哪些数据存储在hbase中

项目五:互联网安全数据的统计与分析

项目简介

该用户画像系统是依托超人学院的论坛平台,开发的在线,真实,可用的学员画像系统,主要用来更加精准有效的为学员提供服务。

项目亮点

  • 项目效果展示
  • 业务数据介绍
  • 数据仓库设计
  • 用户标签
  • 用户细分
  • 文本特征提取Q
  • 项目总结

项目六:互联网个性化推荐系统(含mahout)

项目简介

目前如果说大数据的前瞻性研究就是机器学习了,在机器学习领域,推荐作为一个提高用户粘性的技术被重视起来。

项目亮点

  • 本课程从基础的协同过滤算法讲起;利用大数据的各个框架来做离线和实时计算。
  • 离线:flume+hdfs+mr+mahout+sqoop作为技术实现,基于物品的协同过滤。
  • 实时:kafka+storm作为技术实现,基于标签的实时推荐。
  • 前端展示使用目前最火的echart展示。