各有关单位:
大数据分析作为数据分析的前沿技术,广泛应用于物联网、云计算、移动互联网等新兴产业。为加强大数据分析,创新发展顶层设计和科学布局,推动相关人员更好理解和掌握大数据分析的关键技术原理和未来发展方向,使各企事业单位利益最大化,中国信息协会信息服务网络委员会决定举办“大数据的处理技巧及案例分析”高级研修班,并委托北京中建研信息管理咨询中心承办,望各单位收到通知后组织相关人员参加。现将有关事宜通知如下:
一、课程内容
课程模块 |
课程主题 |
主要内容 |
案例和演示 |
模块一 |
Hadoop的来源和动机 |
u 传统大规模系统存在的问题 u Hadoop概述 u Hadoop分布式文件系统 u MapReduce工作原理 u Hadoop集群剖析 u Hadoop生态系统对一种新的解决方案的需求 u Hadoop的行业应用案例分析 u Hadoop在云计算和大数据的位置和关系 |
u Hadoop在淘宝、支付宝的作用 u 电商眼中的Hadoop和推荐系统。 u 移动大云项目(big cloud)中的Hadoop u 联通使用Hadoop/Hbase解决3G详单查询问题。 |
模块二 |
Hadoop生态系统介绍和演示 |
u Hadoop HDFS 和 MapReduce u Hadoop数据库之HBase u Hadoop数据仓库之Hive u Hadoop数据处理脚本Pig u Hadoop数据接口Sqoop和Flume,Scribe DataX u Hadoop工作流引擎 Oozie |
u Yahoo如何使用Hadoop构建大规模搜索的应用 u FaceBook 基于Hadoop构建数据仓库 |
模块三 |
Hadoop组件详解 |
u Hadoop HDFS 基本结构 u Hadoop HDFS 副本存放策略 u Hadoop NameNode 详解 u Hadoop SecondaryNameNode 详解 u Hadoop DataNode 详解 u Hadoop JobTracker 详解 u Hadoop TaskTracker 详解 |
u Hadoop Mapper类核心代码 u Hadoop Reduce类核心代码 u Hadoop 核心代码 |
模块四 |
Hadoop安装和部署 |
u Hadoop系统模块组件概述 u Hadoop试验集群的部署结构 u Hadoop 安装依赖关系 u Hadoop 生产环境的部署结构 u Hadoop集群部署 u Hadoop 高可用配置方法 u Hadoop 集群简单测试方法 u Hadoop 集群异常Debug方法 |
u Hadoop安装部署实验 u Red hat Linux基础环境搭建 u Hadoop 单机系统版本安装配置 u Hadoop 集群系统版本安装和启动配置 u 使用 Hadoop MapReduce Streaming 快速测试系统 u Hadoopcore-site,hdfs-site,mapred-site 配置详解 |
模块五 |
Hadoop和数据库技术优劣势对比 |
u Hadoop/Hive 对比 Oracle 在构建数据仓库上的优劣势 u Hadoop 如何和传统IT系统配合完成原来不可能的任务 |
u Apache社区版本:Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本 |
模块六 |
编写MapReduce高级程序 |
u 使用 Hadoop MapReduce Streaming 编程 u MapReduce流程 u 剖析一个MapReduce程序 u 基本MapReduceAPI 概念 u 驱动代码 Mapper、Reducer u Hadoop流 u API 使用Eclipse进行快速开发 u 新MapReduce API u MapReduce的优化 u MapReduce的任务调度 u MapReduce编程实战 u 如何利用其他Hadoop相关技术,包括Apache Hive, Apache Pig,Sqoop和Oozie等 u 满足解决实际数据分析问题的高级Hadoop API |
u Hadoop Streaming 和 Java MapReduce Api 差异。 u MapReduce 实现数据库功能 u 利用Combiners来减少中间数据 u 数据压缩解压算法 u 基于统计模型的压缩算法 :Huffman编码、算数编码、PPM算法 u 基于字典模型的编码:LZ77算法、LZ78算法、LZW算法 u 面向实时数据的专用压缩算法:矩形波串法、后向斜率法、旋转门压缩算法。 u 其他压缩算法:RLE文本压缩算法、BWT算法 u 编写Partitioner来优化负载平衡 u 直接访问Hadoop分布式文件系统(HDFS) u Hadoop的join操作 u 辅助排序在Reducer方的合并 u 定制Writables和WritableComparables u 使用SequenceFiles和Avro文件保存二进制数据 u 创建InputFormats OutputFormats u Hadoop的二次排序 u Hadoop的海量日志分析 u 在Map方的合并 |
模块七 |
集成Hadoop到现有工作流 及Hadoop API深入探讨 |
u 存储系统 u 利用Sqoop从关系型数据库系统中导入数据到Hadoop u 利用Flume导入实时数据到Hadoop u ToolRunner介绍、使用MRUnit进行测试 u 使用Configure和Close方法来进行Map/Reduce设置和关闭 |
u 使用FuseDFS和Hadoop访问HDFS u 使用分布式缓存(Distributed Cache) u 直接访问Hadoop分布式文件系统(HDFS) u 利用Combiners来减少中间数据 u 编写Partitioner来优化负载平衡 |
模块八 |
使用Hive和Pig开发及技巧 |
u Hive和Pig基础 u Hive的作用和原理说明 u Hadoop仓库和传统数据仓库的协作关系 u Hadoop/Hive仓库数据数据流 u Hive 部署和安装 u Hive Cli 的基本用法 u HQL基本语法 u 使用Oozie的动机 u Oozie工作流定义格式 |
u 使用JDBC 连接Hive进行查询和分析 u 使用正则表达式加载数据 u HQL高级语法 u 编写UDF函数 u 编写UDAF自定义函数 u 使用Sqoop进行数据分析 u 使用oozie配置工作流 u phpHiveAdmin 安装和使用 |
模块九 |
实用开发技巧 |
u 排序和搜索索引 u 用Mahout进行机器学习 u Term Frequency – Inverse Document Frequency u 图论简介 |
u Word Co-Occurrenc u 用Hadoop表示图 u 一个图算法的实现:单源最短路径 |
二、培训时间及地点
2013年12月13日—12月16日 (13日全天报到) 深圳
2014年 1月14日— 1月17日 (14日全天报到) 北京
“机房建设与管理”的课程(所有内容QQ:931053300)
2013年12月 3日—12月6日 (3日全天报到 )上海
2013年12月 20日—12月23日 (20日全天报到 )海南*海口
“信息安全与网络攻防”的课程(所有内容QQ:931053300)
2013年12月6日—12月9日 (6日全天报到) 上海
2013月12月23日-12月26日 (23日全天报到) 海南*海口
三、培训对象
各地政府云计算、物联网产业相关负责人,各企业CIO、信息中心负责人、技术总监,云计算产业投资团队,云计算应用开发商,云计算硬件设备供应商,云服务提供商,高校、科研院所云计算项目负责人,设计师、架构师、系统管理员、开发经理、测试经理、产品经理、项目经理等。
四、培训特色:
注重应用:分析国内实际情况,结合国际、国内成功经验。Hadoop采用实战的项目,让学员在短时间内掌握Hadoop基本运维思路和方法;对Hadoop集群进行管理和优化。并进行高效的大数据清洗和分析。
五、师资力量:
王宝会:主要从事对物联网、云计算相关技术、应用架构及实施有深入的研究。先后参与国家科技支撑项目《增强型搜索引擎研究及示范应用》、《中国移动POC项目设计与开发》、《华为公司网络高级应用协议测试》《汽车制造工艺开发平台》、《工商系统食品在线监管》项目。在国内外期刊多次发表学术论文及学术著作。
白硕:系统架构设计师;高级软件工程师;项目总监。做hdfs相关的产品。基于hadoop2.0源代码做了修改,修改的功能主要包括了文件的读写,安全模式,添加RPC调用,FileStatus, 装载image,FsEditLog,
六、培训费用及颁发证书
每人培训费3900元(含培训、教材、专家、场地、证书、学习用品费等),食宿统一安排,费用自理。
参加相关培训并通过考试的学员,可以获得:《大数据分析高级工程师》证书。并且可通过国家信息技术人才服务网(www.ciso.net.cn)查询。
该证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。
咨询与联系方式:
电 话:010-51458793 51137523 传 真:010-51137523
电子邮件:cx99@vip.sina.com QQ号:931053300
手 机:13366328120
联系人:吕成(老师)