2023-02-09
模式 數據 hive 使用 數據庫
Hive是大數據開發的時候必須要用到的工具之一,也是學習大數據的時候最重要的知識組件之一。因為使用Hive來進行數據的處理,可以非常簡單的完成。那么使用Hive的時候,我們需要先安裝Hive。Hive在安裝、運行的時候,有著本地模式和遠程模式的區分,那么什么是本地模式?什么又是遠程模式呢?
我們首先需要知道的是,Hive其實并不是數據庫,而是對HDFS上的結構化的數據文件進行的映射,將結構化的數據映射成為一張表,然后就可以使用類似SQL的方式,對文件中的數據進行處理。那么在這個過程中,有一些信息需要被記錄下來:
●數據文件映射成為了什么表?叫什么名字?
●表中有什么字段?叫什么名字?是什么類型?
●表存在于什么數據庫中?
●...
這些信息都是需要被記錄下來的,否則我們下一次啟動Hive的時候豈不是要重新映射?而這樣的信息我們稱為“元數據”。Hive需要將元數據保存起來,默認保存在derby的數據庫中。不過在實際使用中,我們經常會將元數據保存在其他的數據庫中,例如MySQL。因此,我們就可以將這個存儲元數據的數據庫為“元數據庫”。
如果你會MySQL的話,應該知道無論在Windows、macOS還是Linux中,我們想要使用MySQL數據庫的話,需要先啟動MySQL的服務。例如在Linux中,我們需要使用 systemctl start mysqld 來啟動MySQL的服務,然后才可以使用 mysql 的命令連接到這個服務,登錄到MySQL客戶端進行操作。
那么,我們在使用Hive的時候,其實也是這樣的原理。如果需要使用Hive的話,必需先啟動Hive的元數據服務,Hive的元數據服務分為兩種:metastore 和 hiveserver2 。但是無論是哪一種元數據服務,都是要連接到元數據庫的。
本地模式 和 遠程模式
其實本地模式和遠程模式只有一個區別:客戶端和服務端是否在同一臺機器上!
●本地模式:客戶端和服務端在同一個節點上,就是本地模式
●遠程模式:客戶端和服務端不在同一個節點上,就是遠程模式
其實在實際使用中,無論是本地模式還是遠程模式,基本上沒有什么區別。只要能夠保證連接到的是同一個元數據庫,那么無論是本地模式還是遠程模式,都是可以正常的使用的。
開班時間:2021-04-12(深圳)
開班盛況開班時間:2021-05-17(北京)
開班盛況開班時間:2021-03-22(杭州)
開班盛況開班時間:2021-04-26(北京)
開班盛況開班時間:2021-05-10(北京)
開班盛況開班時間:2021-02-22(北京)
開班盛況開班時間:2021-07-12(北京)
預約報名開班時間:2020-09-21(上海)
開班盛況開班時間:2021-07-12(北京)
預約報名開班時間:2019-07-22(北京)
開班盛況Copyright 2011-2023 北京千鋒互聯科技有限公司 .All Right 京ICP備12003911號-5 京公網安備 11010802035720號