學大數據都可以就業哪些崗位?因為大數據涉及到的知識相對比較廣泛,全部學精難度太大,所以現在企業在招聘的時候會細分大數據崗位,專注于某個方向招聘,所以先解下大數據的都有哪些就業方向,然后你在后續的學習過程中對哪部分比較感興趣就重點關注那部分。

數倉工程師 (全稱:數據倉庫工程師)
數倉工程師日常工作一般是不寫代碼的,主要以寫 SQL 為主!
數倉工程師是大數據領域公司招聘較多的崗位,薪資也較高,需要重點關注!
數據倉庫分為離線數倉和實時數倉,但是企業在招聘時大多要求兩者都會,進入公司之后可能會專注于離線或實時其中之一。
就目前來說,大多數的企業還是以離線數倉為主,不過未來趨勢肯定是實時數倉為主,所以學習時,為了現在能找到工作,需要學習離線數倉,為了以后的發展,需要學習實時數倉。所以,離線和實時都是我們重點掌握的!
需要掌握的技能:
不管離線還是實時,重中之重就是:SQL
SQL 語法及調優一定要掌握,這里說的 SQL 包括 mysql 中的 sql,hive中的 hive sql,spark 中的 spark sql,flink 中 的 flink sql。
在企業招聘的筆記及面試中,一般問的關于 sql 的問題主要是以 hive sql 為主,所以請重點關注!
除 sql 外,還需要重點掌握以下技能,分為離線和實時
離線數倉需要重點掌握的技能:
Hadoop(HDFS,MapReduce,YARN)
Hive(重點,包括hive底層原理,hive SQL及調優)
Spark(Spark 會用及了解底層原理)
Oozie(調度工具,會用即可)
離線數倉建設(搭建數倉,數倉建模規范)
維度建模(建模方式常用的有范式建模和維度建模,重點關注維度建模)
實時數倉需要重點掌握的技能:
Hadoop(這是大數據基礎,不管離線和實時都必須掌握)
Kafka(重點,大數據領域中算是唯一的消息隊列)
Flink(重中之重,這個不用說了,實時計算框架中絕對王者)
HBase(會使用,了解底層原理)
Druid(會用,了解底層原理)
實時數倉架構(兩種數倉架構:Lambda架構和Kappa架構)
大數據開發工程師
數據開發工程師一般是以寫代碼為主,以 Java 和 Scala 為主。
大數據開發分兩類,一類是編寫Hadoop、Spark、Flink 的應用程序,第二類是對大數據處理系統本身進行開發,如對開源框架的擴展開發,數據中臺的開發等!
需要重點掌握的技能:
語言:Java 和 Scala(語言以這兩種為主,需要重點掌握)
Linux(需要對Linux有一定的理解)
Hadoop(需理解底層,能看懂源碼)
Hive(會使用,能進行二次開發)
Spark(能進行開發。對源碼有了解)
Kafka(會使用,理解底層原理)
Flink(能進行開發。對源碼有了解)
HBase(理解底層原理)
通過以上技能,我們也能看出,數據開發和數倉開發的技能重復率較高,所以很多公司招聘時 大數據開發 和 數倉建設 分的沒有這么細,數據開發包含了數倉的工作!
ETL工程師
ETL是三個單詞的首字母,中文意思是抽取、轉換、加載
從開始的圖中也能看出,ETL工程師是對接業務和數據的交接點,所以需要處理上下游的關系
好程序員大數據培訓分享:學大數據都做哪些崗位?對于上游,需要經常跟業務系統的人打交道,所以要對業務系統比較熟悉。比如它們存在各種接口,不管是API級別還是數據庫接口,這都需要ETL工程師非常了解。 其次是其下游,這意味著你要跟許多數據開發工程師師、數據科學家打交道。比如將準備好的數據(數據的清洗、整理、融合),交給下游的數據開發和數據科學家。
需要重點掌握的技能
語言:Java/Python(會基礎)
Shell腳本(需要對shell較為熟悉)
Linux(會用基本命令)
Kettle(需要掌握)
Sqoop(會用)
Flume(會用)
MySQL(熟悉)
Hive(熟悉)
HDFS(熟悉)
Oozie(任務調度框架會用其中一個即可,其他如 azkaban,airflow)
數據分析工程師
在數據工程師準備好數據維護好數倉后,數據分析師就上場了。
分析師們會根據數據和業務情況,分析得出結論、制定業務策略或者建立模型,創造新的業務價值并支持業務高效運轉。
好程序員大數據培訓分享:學大數據都做哪些崗位?同時數據分析師在后期還有數據爬蟲、數據挖掘和算法工程師三個分支。
需要重點掌握的技能:
數學知識(數學知識是數據分析師的基礎知識,需要掌握統計學、線性代數等課程)
編程語言(需要掌握Python、R語言)
分析工具(Excel是必須的,還需要掌握 Tableau 等可視化工具)
數據敏感性(對數據要有一定的敏感性,看見數據就能想到它的用處,能帶來哪些價值)