
大数据工程师是做什么的 需要掌握哪些技能
大数据工程师需要负责创建和维护数据分析基础架构,包括大数据架构的开发、构建、维护和测试等,还负责创建用于建模,挖掘,获取和验证数据集合等流程。
大数据工程师做哪些工作
大数据工程师可以做大数据开发工作,开发,建设,测试和维护架构,负责公司大数据平台的开发和维护,负责大数据平台持续集成相关工具平台的架构设计与产品开发等。
大数据工程师可以做数据分析工作,收集,处理和执行统计数据分析,运用工具,提取、分析、呈现数据,实现数据的商业意义,需要业务理解和工具应用能力。
大数据工程师可以做数据挖掘工作,数据建模、机器学习和算法实现,商业智能,用户体验分析,预测流失用户等,需要过硬的数学和统计学功底以外,对算法的代码实现也有很高的要求。
大数据工程师可以做数据库开发及管理工作,设计,开发和实施基于客户需求的数据库系统,通过理想接口连接数据库和数据库工具,优化数据库系统的性能效率等。
大数据工程师需要学什么
1、计算机编码能力:实际开发能力和大规模的数据处理能力是作为大数据工程师必须要掌握的能力,现在人们在社交网络上所产生的许多记录都是非结构化的数据,如何从这些毫无头绪的信息中提取有用数据呢,这就需要大数据工程师来做。
2、.大数据架构工具与组件:企业大数据框架的搭建,多是选择基于开源技术框架来实现的,这其中就包括Hadoop、Spark、Storm、Flink为主的一系列组件框架,及其生态圈组件。
3、数据仓库和ETL工具:数据仓库和ETL能力对于大数据工程师至关重要。像Redshift或Panoply这样的数据仓库解决方案,以及ETL工具,比如StitchData或Segment都非常有用。
4、编程语言:编码与开发能力是大数据工程师的必备技能,要熟悉Python,C/C++,Java,Perl,Golang或其它语言。

大数据都有哪些就业方向?
很多大学生不想毕业即失业,看中了大数据的前景。都想报考大数据来进行提升自己,而很多学员对于其就业方向不是很了解。1 2 5在职研究生先来给大家分析一下大数据的就业方向,具体如下:
1、Hadoop开发工程师
Hadoop是一个分布式文件系统(Hadoop Distributed File System),简称HDFS。Hadoop是一个能够对大量数据进行分布式处理的软件框架, 以一种可靠、高效、可伸缩的方式进行数据处理。
2、数据分析师
数据分析师是数据师的一种,指的是不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。在工作中通过运用工具,提取、分析、呈现数据,实现数据的商业意义。
3、数据挖掘工程师
做数据挖掘要从海量数据中发现规律,这就需要一定的数学知识,基本的比如线性代数、高等代数、凸优化、概率论等。

大数据工程师的日常工作内容有哪些?
1 写 SQL (很多入职一两年的大数据工程师主要的工作就是写 SQL )
2 为集群搭大数据环境(一般公司招大数据工程师环境都已经搭好了,公司内部会有现成的大数据平台,但我这边会私下搞一套测试环境,毕竟公司内部的大数据系统权限限制很多,严重影响开发效率)
3 维护大数据平台(这个应该是每个大数据工程师都做过的工作,或多或少会承担“运维”的工作)
4 数据迁移(有部分公司需要把数据从传统的数据库 Oracle、MySQL 等数据迁移到大数据集群中,这个是比较繁琐的工作,吃力不讨好)
5 应用迁移(有部分公司需要把应用从传统的数据库 Oracle、MySQL 等数据库的存储过程程序或者SQL脚本迁移到大数据平台上,这个过程也是非常繁琐的工作,无聊,高度重复且麻烦,吃力不讨好)
6 数据采集(采集日志数据、文件数据、接口数据,这个涉及到各种格式的转换,一般用得比较多的是 Flume 和 Logstash)
7 数据处理
7.1 离线数据处理(这个一般就是写写 SQL 然后扔到 Hive 中跑,其实和第一点有点重复了)
7.2 实时数据处理(这个涉及到消息队列,Kafka,Spark,Flink 这些,组件,一般就是 Flume 采集到数据发给 Kafka 然后 Spark 消费 Kafka 的数据进行处理)
8 数据可视化(这个我司是用 Spring Boot 连接后台数据与前端,前端用自己魔改的 echarts)
9 大数据平台开发(偏Java方向的,大概就是把开源的组件整合起来整成一个可用的大数据平台这样,常见的是各种难用的 PaaS 平台)
10 数据中台开发(中台需要支持接入各种数据源,把各种数据源清洗转换为可用的数据,然后再基于原始数据搭建起宽表层,一般为了节省开发成本和服务器资源,都是基于宽表层查询出业务数据)
11 搭建数据仓库(这里的数据仓库的搭建不是指 Hive ,Hive 是搭建数仓的工具,数仓搭建一般会分为三层 ODS、DW、DM 层,其中DW是最重要的,它又可以分为DWD,DWM,DWS,这个层级只是逻辑上的概念,类似于把表名按照层级区分开来的操作,分层的目的是防止开发数据应用的时候直接访问底层数据,可以减少资源,注意,减少资源开销是减少 内存 和 CPU 的开销,分层后磁盘占用会大大增加,磁盘不值钱所以没什么关系,分层可以使数据表的逻辑更加清晰,方便进一步的开发操作,如果分层没有做好会导致逻辑混乱,新来的员工难以接手业务,提高公司的运营成本,还有这个建数仓也分为建离线和实时的)
总之就是离不开写 SQL ...