2020-12-03
大數(shù)據(jù)培訓(xùn)
好程序員大數(shù)據(jù)培訓(xùn)分享大數(shù)據(jù)技術(shù)與Hadoop之間的關(guān)系,在現(xiàn)如今,隨著面對(duì)當(dāng)前企業(yè)級(jí)用戶對(duì)于自建數(shù)據(jù)中心興趣的不斷擴(kuò)大,以及大數(shù)據(jù)正在以驚人的速度增長幾乎觸及各行各業(yè),而大數(shù)據(jù)是一種新興的數(shù)據(jù)挖掘技術(shù),它正在讓數(shù)據(jù)處理和分析變得更便宜更快速。大數(shù)據(jù)技術(shù)一旦進(jìn)入超級(jí)計(jì)算時(shí)代,很快便可應(yīng)用于普通企業(yè),在遍地開花的過程中,它將改變?cè)S多行業(yè)業(yè)務(wù)經(jīng)營的模式。但是很多人對(duì)大數(shù)據(jù)存在誤解,下面就來縷一縷大數(shù)據(jù)與Hadoop之間的關(guān)系。
我們都聽過這個(gè)預(yù)測:到2020年,電子數(shù)據(jù)存儲(chǔ)量將在2009年的基礎(chǔ)上增加44倍,達(dá)到35萬億GB。根據(jù)IDC數(shù)據(jù)顯示,截止到2010年,這個(gè)數(shù)字已經(jīng)達(dá)到了120萬PB,或1.2ZB。如果把所有這些數(shù)據(jù)都存入DVD光盤,光盤高度將等同于從地球到月球的一個(gè)來回也就是大約480,000英里。
走進(jìn)大數(shù)據(jù),一種新興的數(shù)據(jù)挖掘技術(shù),它正在讓數(shù)據(jù)處理和分析變得更便宜更快速。大數(shù)據(jù)技術(shù)一旦進(jìn)入超級(jí)計(jì)算時(shí)代,很快便可應(yīng)用于普通企業(yè),在遍地開花的過程中,它將改變?cè)S多行業(yè)業(yè)務(wù)經(jīng)營的模式。在計(jì)算機(jī)世界里,大數(shù)據(jù)被定義為一種使用非傳統(tǒng)的數(shù)據(jù)過濾工具,對(duì)大量有序或無序數(shù)據(jù)集合進(jìn)行的挖掘過程,它包括但不僅限于分布式計(jì)算(Hadoop)。
大數(shù)據(jù)已經(jīng)站在了數(shù)據(jù)存儲(chǔ)宣傳的風(fēng)口浪尖,也存在著大量不確定因素,這點(diǎn)上非常像“云”。我們請(qǐng)教了一些分析人士和大數(shù)據(jù)愛好者,請(qǐng)他們解釋一下大數(shù)據(jù)究竟是什么,以及它對(duì)于未來數(shù)據(jù)存儲(chǔ)的意義。
大數(shù)據(jù)走進(jìn)歷史舞臺(tái)
適用于企業(yè)的大數(shù)據(jù)已經(jīng)出現(xiàn),這在部分程度上要?dú)w功于計(jì)算能耗的降低以及系統(tǒng)已具備執(zhí)行多重處理的能力這樣一個(gè)事實(shí)。而且隨著主存儲(chǔ)器成本的不斷下降,和過去相比,公司可以將更多的數(shù)據(jù)存到存儲(chǔ)器中。并且,將多臺(tái)計(jì)算機(jī)連到服務(wù)器集群也變得更容易了。這三個(gè)變化加在一起成就了大數(shù)據(jù),IDC數(shù)據(jù)庫管理分析師CarlOlofson如是說。
大數(shù)據(jù)技術(shù)還沒有在有大型數(shù)據(jù)倉庫的公司中得到廣泛普及。IDC認(rèn)為,想讓大數(shù)據(jù)技術(shù)得到認(rèn)可,首先技術(shù)本身一定要足夠便宜,然后,必須滿足IBM稱之為3V標(biāo)準(zhǔn)中的2V,即:類型(variety),量(volume)和速度(velocity)。
對(duì)于大數(shù)據(jù)是什么以及大數(shù)據(jù)能干什么存在很多誤會(huì)。下面就是有關(guān)大數(shù)據(jù)的三個(gè)誤解:
1、關(guān)系數(shù)據(jù)庫無法大幅增容,因此不能被認(rèn)為是大數(shù)據(jù)技術(shù)(不對(duì))
2、無需考慮工作負(fù)載或具體使用情況,Hadoop或以此類推的任何MapReduce都是大數(shù)據(jù)的最佳選擇。(也不對(duì))
3、圖解式管理系統(tǒng)時(shí)代已經(jīng)結(jié)束。圖解的發(fā)展只會(huì)成為大數(shù)據(jù)應(yīng)用的攔路虎。(可笑的錯(cuò)誤)
大數(shù)據(jù)與開源的關(guān)系
“很多人認(rèn)為Hadoop和大數(shù)據(jù)基本上是一個(gè)意思。這是錯(cuò)誤的,”Olofson說。并解釋道:Teradata,MySQL和“智能聚合技術(shù)”的某些安裝啟用都用不到Hadoop,但它們也可以被認(rèn)為是大數(shù)據(jù)。
Hadoop是一種用于大數(shù)據(jù)開發(fā)工程師的應(yīng)用程序,因?yàn)樗墙⒃?/font>MapReduce基礎(chǔ)上的,所以引起了極大的關(guān)注。(MapReduce是一種用于超級(jí)計(jì)算的普通方法,之后經(jīng)過了主要由Google資助的一個(gè)項(xiàng)目的優(yōu)化,因此被簡化并變得考究了)Hadoop是幾個(gè)緊密關(guān)聯(lián)的Apache項(xiàng)目組成的混合體的主要安裝啟用程序,其中包括MapReduce環(huán)境中的HBase數(shù)據(jù)庫。
開班時(shí)間:2021-04-12(深圳)
開班盛況開班時(shí)間:2021-05-17(北京)
開班盛況開班時(shí)間:2021-03-22(杭州)
開班盛況開班時(shí)間:2021-04-26(北京)
開班盛況開班時(shí)間:2021-05-10(北京)
開班盛況開班時(shí)間:2021-02-22(北京)
開班盛況開班時(shí)間:2021-07-12(北京)
預(yù)約報(bào)名開班時(shí)間:2020-09-21(上海)
開班盛況開班時(shí)間:2021-07-12(北京)
預(yù)約報(bào)名開班時(shí)間:2019-07-22(北京)
開班盛況Copyright 2011-2023 北京千鋒互聯(lián)科技有限公司 .All Right 京ICP備12003911號(hào)-5 京公網(wǎng)安備 11010802035720號(hào)