您的位置:
首頁
>>
管理中心
>>
行業資訊
>>修改新聞資訊信息
資訊類型:
行業要聞
企業動態
新品速遞
解決方案
交流培訓
嘉賓訪談
產業縱橫
人物聚焦
展會動態
會展報告
本站動態
標 題:
*
頁面廣告:
不顯示
顯示
副 標 題:
關 鍵 字:
多個關鍵字請用“
/
”分隔,如:西門子/重大新聞
內容描述:
新聞來源:
鏈 接:
責任編輯:
標題圖片:
無
/uploadfile/newspic/20220722152525554.jpg
/uploadfile/newspic/20220722152532120.jpg
/uploadfile/newspic/20220722152600339.jpg
當編輯區有插入圖片時,將自動填充此下拉框
*
所屬類別:
(不超過20項)
電源產品分類
:
UPS電源
穩壓電源
EPS電源
變頻電源
凈化電源
特種電源
發電機組
開關電源(AC/DC)
逆變電源(DC/AC)
模塊電源(DC/DC)
電源應用分類
:
通信電源
電力電源
車載電源
軍工電源
航空航天電源
工控電源
PC電源
LED電源
電鍍電源
焊接電源
加熱電源
醫療電源
家電電源
便攜式電源
充電機(器)
勵磁電源
電源配套分類
:
功率器件
防雷浪涌
測試儀器
電磁兼容
電源IC
電池/蓄電池
電池檢測
變壓器
傳感器
軸流風機
電子元件
連接器及端子
散熱器
電解電容
PCB/輔助材料
新能源分類
:
太陽能(光伏發電)
風能發電
潮汐發電
水利發電
燃料電池
其他類
:
其他
靜態頁面:
生成靜態頁面
*
內 容:
<P> </P> <P> 作者:落風潭</P> <P> 保險IT圈知名自媒體主理人</P> <P> 關于Alluxio的文章讓潭主把注意力轉移到了大數據上。</P> <P> 文中提及Cloudera作為Hadoop生態最后的種子選手,為什么沒有鼓搗出Alluxio這樣的東西?</P> <P> 沒想到在學習Cloudera的過程中無意間發現了Ozone,解答了潭主之前的疑問。</P> <P> 技術體系繁雜,存在著很多“平行宇宙”。今天,潭主跟大家分享最近學習的一個數據湖存儲技術,Ozone。</P> <P> Ozone是哪路神</P> <P> Ozone是Apache軟件基金會下的一個項目,其定位是:一個用戶大數據分析和云原生應用、具有高擴展性、強一致性的分布式Key-Value對象存儲。</P> <P> 看過潭主文章的讀者自然對Alluxio有所了解,在使用功能上,Ozone跟Alluxio類似,也兼容支持S3和HDFS的API。</P> <P> 因為上述特性,Ozone可以“透明”地支持現有Hadoop生態中如Spark和Hive等上層計算框架,無需修改應用代碼。</P> <P> 套路是一樣的,把自己“模仿”成高手的樣子。當然,簡單模仿肯定不行,還要有屬于自己的“創新”。</P> <P> 潭主的“窮人”思維</P> <P> 傳統保險行業受限于業務模式,存在很多的數據“孤島”,每個島的容量也有限。</P> <P> 不過,這幾年非結構化業務數據增長迅猛,之前引入的HCP對象存儲已經是上十億的量級。</P> <P> 雖然之前也上線了一些大數據項目,但據潭主所知,Hadoop集群的規模其實并不大,以至于寫此文之前,潭主受限于自身經驗對Hadoop其實并無痛感。</P> <P> 即便是互聯網行業,十多年前可能也無法預料數據膨脹得如此之快,以至于Hadoop很快就變得力不從心。</P> <P> 互聯網的“富人”思維</P> <P> 這兩年,數據湖這個詞很火。</P> <P> 大家對于數據湖的理解也不盡相同,有人認為Hadoop是數據湖,而有人認為S3也是數據湖。</P> <P> 換個角度,從線上公有云的視角看,S3是主流存儲,而到了線下的私有云,Hadoop似乎更有優勢一些,這種情況無形中對于混合云的一統江湖形成了存儲上的障礙。</P> <P> 因此,面向未來的數據湖技術應該是向上兼容多種主流計算框架,平滑支撐多種應用場景,向下對接不同的存儲引擎,實現數據訪問接口的標準化。</P> <P> 從最近了解的技術發展趨勢看,這種承上啟下、統一標準的存儲技術將成為下一代數據湖的顯著特征。</P> <P> 況且對于互聯網,HDFS系統的確在集群擴展性、支持應用標準上的確存在一些局限性。</P> <P> 為了解決HDFS存在的問題,開源社區這些年也沒閑著,嘗試了不少解決方案。</P> <P align=center><IMG border=0 src="/uploadfile/newspic/20220722152600339.jpg"></P> <P> HDFS的“聯邦”時代</P> <P> 最初Hadoop集群只允許有一個命名空間(Namespace),且只能被一個NameNode管理。</P> <P> 雖然可以通過添加底層DataNode節點實現集群橫向擴展,增加存儲空間,但由于所有的Block元數據都駐留在NameNode內存中,在集群規模增大時,NameNode很容易成為瓶頸,直接限制了HDFS的文件、目錄和數據塊的數量。</P> <P> Hadoop社區為了解決HDFS橫向擴展的問題,做了兩個聯邦方案(如上圖):</P> <P> NNF(NameNode Federation)</P> <P> RBF(Router Based Federation)</P> <P> 早期的NNF方案中,集群引入了多個NameNode,分別管理不同的Namespace和對應的BlockPool,多個NameNode可以共享Hadoop集群中的DataNode。</P> <P> 雖然解決了Namespace的擴展問題,但需要對HDFS的Client進行“靜態”配置掛載,還要結合ViewFS才能實現統一入口。</P> <P> 而在RBF的聯邦方案中,嘗試把“掛載表”從Client中抽離出來形成了Router,雖然Hadoop集群是獨立的,但同時又增加了一個“State Store”組件,架構變得更復雜。</P> <P> 局部改進的“聯邦”方案對于面向未來的大數據存儲而言,治標不治本。</P> <P> 青出于藍而勝于藍</P> <P> 有時候,最好的優化就是另起爐灶。</P> <P> 畢竟Hadoop技術已經很多年了,當下的軟硬件環境已與當初大不相同,系統重構也在情理之中。</P> <P> 與其等別人來革HDFS的命,不如自我革命。目前看,Ozone的確給用戶提供了一個新選擇。</P> <P> 就好像CDH和HDP最終融合成了CDP一樣,HDFS和S3也可以融合成Ozone。</P> <P> 總之,Ozone站在Hadoop這個巨人的肩膀上,設計之初就是為了替換掉HDFS,青出于藍而勝于藍。</P> <P> 潭主家的“存儲一哥”</P> <P> 早年間接觸過Ceph,也搞過HCP(Hitachi Content Platform)對象存儲,這些經驗對潭主理解Ozone大有裨益。</P> <P> 特意查了一下自家的HCP,發現影像文件已經20多億個了,存儲容量也小2PB。不過查詢過程中明顯感覺到元數據響應緩慢,估計快該擴容了。</P> <P> 言歸正傳,再來說說Ozone的核心概念:</P> <P> Volume:通常表示用戶、業務,與HCP中的租戶(Tenant)對應</P> <P> Bucket:通常表示業務、應用,與HCP中的命名空間(Namespace)對應</P> <P> Key:對應的就是實際的Object</P> <P> Ozone的存儲路徑為/Volume/Bucket/Key,一個業務可以對應一個或多個Volume,每個Volume可以包含多個Bucket,在訪問方式上Ozone實現了ofs和o3fs的適配和協議封裝。</P> <P> 值得注意的是,HCP里面有文件夾的概念,就是說對象文件有層次結構,但Ozone在設計上是扁平的,目錄是一個“偽目錄”概念,是文件名的一部分,統一作為Key而存在。</P> <P align=center><IMG border=0 src="/uploadfile/newspic/20220722152532120.jpg"></P> <P> Ozone的體系架構</P> <P> 介紹完了概念,再看看Ozone的體系架構(如上圖):</P> <P> OM(Ozone Manager):通過RocksDB的K-V方式管理Namespace,Raft協議保持高可用,Shardig實現水平擴展</P> <P> SCM(Storage Container Manager):用于Ozone集群管理,負責分配Block,跟蹤SC復制狀態</P> <P> DataNode:負責向SCM匯報SC狀態</P> <P> SC(Storage Container):Ozone的實際存儲單元</P> <P> Recon Server:用于監控Ozone集群</P> <P> Ozone做了架構優化,上層實現職能分離,OM負責管理Namespace,SCM負責管理Storage Containers。</P> <P> 下層實現了一個叫Hadoop Distributed Data Store(HDDS)的高可用、塊存儲層。</P> <P> Ozone中的一個DataNode包括多個Storage Container,每個SC的容量(默認5GB,可配置)遠大于Hadoop中Block容量(默認128MB),這種設計使得每個DN發送給SCM的Container-Report系統壓力要遠遠小于傳統Hadoop集群的Block-Report。</P> <P> Storage Container作為Ozone的基礎存儲和復制單元,類似于一個“超級塊”,通過其內置RocksDB(key記錄BlockID,Value記錄object的文件名、偏移量和長度),實現對小文件的塊管理。</P> <P align=center><IMG border=0 src="/uploadfile/newspic/20220722152525554.jpg"></P> <P> Ozone,新一代的“融合”數據湖存儲</P> <P> 在網上看到之前某互聯網大廠專家的分享,現網同時在使用HDFS和Ceph。</P> <P> HDFS主要用于大數據分析場景,但機器學習場景中受限于大量小文件而使用Ceph。</P> <P> 不過,在介紹Ozone的Roadmap時說未來會在存儲層引入Ozone。</P> <P> 開源世界,風起云涌,前腳剛看過Alluxio,覺得眼前一亮,這會兒再看Ozone,更是金光閃閃。</P> <P> Ozone既是Hadoop的優化升級版,又能“分層”解決海量小文件的對象存儲,再加上對云原生CSI的支持,讓其成為了新一代“融合”存儲。</P> <P> Ozone這股新勢力著實讓潭主不敢小覷,希望未來能有機會做些實踐。</P> <P> 存儲圈,數據不息,折騰不止!</P>
av在线天堂播放