人員流動是一個企業(yè)的基本情況,每年到了招聘高峰期,找工作的朋友們都非常的緊張,有些新手甚至莫不著頭腦,無從下手,像大數(shù)據(jù)這種技術(shù)型的面試就更容易讓人緊張了。大數(shù)據(jù)面試題有哪些?不懂Java那就很麻煩了。當(dāng)然也有人問大數(shù)據(jù)是什么?
近年我們經(jīng)常會用到云,云計(jì)算也隨之興起,大數(shù)據(jù)也吸引了越來越多的關(guān)注。大數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費(fèi)過多時間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。大數(shù)據(jù)非常神奇也非常神秘,想要弄懂大數(shù)據(jù),一時半會是很難的。在工作中成長,在工作中學(xué)習(xí),那么想做大數(shù)據(jù),在面試中會遇到些什么樣的問題呢?來看看吧!
1、你會Java語言嗎?熟悉到什么程度?
2、你喜歡的編程語言是什么?為什么?
3、處理過的的數(shù)據(jù)量?你是如何處理他們的?處理的結(jié)果如何。
2、在處理大數(shù)據(jù)過程中,如何保證得到期望值?
3、如何讓一個網(wǎng)絡(luò)爬蟲速度更快、抽取更好的信息以及更好總結(jié)數(shù)據(jù)從而得到一干凈的數(shù)據(jù)庫?
4、點(diǎn)擊流數(shù)據(jù)應(yīng)該是實(shí)時處理?為什么?哪部分應(yīng)該實(shí)時處理?
6、如何把非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)?這是否真的有必要做這樣的轉(zhuǎn)換?把數(shù)據(jù)存成平面文本文件是否比存成關(guān)系數(shù)據(jù)庫更好?
7、如何判別mapreduce過程有好的負(fù)載均衡?什么是負(fù)載均衡?
8、Spark和Hive的區(qū)別,以及Spark和Hive的數(shù)據(jù)傾斜調(diào)優(yōu)問題?
9、Hive和Hbase的區(qū)別?
10、MapReduce的思想,以及MapReduce調(diào)優(yōu)問題?
11、你所了解的開源網(wǎng)站?
12、有兩個集群,每個集群有3個節(jié)點(diǎn),使用hive分析相同的數(shù)據(jù),sql語句完全一樣,一個集群的分析結(jié)果比另外一個慢的多,給出造成這種現(xiàn)象的可能原因?13、Hbase的優(yōu)化?
14、集群的版本,以及集群的瓶頸問題?
15、CRM項(xiàng)目,怎么跟Spark結(jié)合?
16、如何創(chuàng)建一個關(guān)鍵字分類?
17、海量日志數(shù)據(jù),提取出某日訪問百度次數(shù)多的那個IP?
18、Hadoop和Spark處理數(shù)據(jù)時,出現(xiàn)內(nèi)存溢出的處理方法?
19、有一個1G大小的一個文件,里面每一是一個詞,詞的大小不超過16字節(jié),內(nèi)存大小限制大小1M,返回頻率的50個詞。
20、你是如何處理缺少數(shù)據(jù)的?你是推薦使用什么樣的處理技術(shù),或者說你是用什么樣的技術(shù)處理呢?
如果不會Java,面試題就答不會,這樣難道不尷尬嗎?正如加里·金(崇拜/崇拜)說:“這是一場革命,龐大的數(shù)據(jù)資源使得各個領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程?!贝髷?shù)據(jù)時代,沒有Java基礎(chǔ),如何開啟你的大數(shù)據(jù)時代?