解析如何選擇“大數(shù)據(jù)”基礎(chǔ)架構(gòu)
大數(shù)據(jù)“這個詞匯出現(xiàn)在當企業(yè)生產(chǎn)出了一系列的數(shù)據(jù),包含業(yè)務(wù)關(guān)鍵信息,并且過于龐大以至于傳統(tǒng)的關(guān)系數(shù)據(jù)庫所無法正常處理。判定什么樣數(shù)據(jù)保持非結(jié)構(gòu)化狀態(tài),這取決于企業(yè)IT基礎(chǔ)架構(gòu)的規(guī)模程度,不過對于各種規(guī)模的企業(yè)而言通常都有一些信息量可以被認作是大數(shù)據(jù)。IT管理員和業(yè)務(wù)分析師的困難點不僅在于如何存儲這些數(shù)據(jù),而且還在于如何以合適地方式對其進行存儲,便于分析,這最終可以導(dǎo)出關(guān)鍵業(yè)務(wù)模型和相應(yīng)的深入分析。
隨著IT行業(yè)持續(xù)地灌輸廉價存儲的優(yōu)勢,企業(yè)較以往擁有者更多的數(shù)據(jù),那么在評估大數(shù)據(jù)基礎(chǔ)架構(gòu)的過程中需要深入地調(diào)查哪些因素。本篇涉及到了在容量、延遲、訪問性、安全性和成本這些重要因素的評估。
大數(shù)據(jù)發(fā)展的驅(qū)動因素
除了存儲比以往更多的數(shù)據(jù),我們所面臨的數(shù)據(jù)種類也變得更加繁雜。這些數(shù)據(jù)源包括互聯(lián)網(wǎng)事務(wù)交易、社交網(wǎng)絡(luò)的活動、自動化傳感器、移動設(shè)備以及科研儀器等。除了靜態(tài)的數(shù)據(jù)增長方面,事務(wù)交易也會保持一個固定的數(shù)據(jù)增長速度。例如飛速增長的社交信息所產(chǎn)生的大量交易事務(wù)和記錄。不過現(xiàn)有的不斷擴大數(shù)據(jù)集無法確保能夠為業(yè)務(wù)搜索出有價值的信息。
當今的信息是一項重要的生產(chǎn)因素
數(shù)據(jù)業(yè)已成為了一種生產(chǎn)資料,就如何資本、勞動力和原始材料那樣,而且也不限于某一行業(yè)內(nèi)的特定應(yīng)用。企業(yè)中所有部門都旨在整合比較越來越多的數(shù)據(jù)集合,致力于降低成本、提升品質(zhì)、增強生產(chǎn)能力以及開發(fā)新產(chǎn)品。舉例來說,對于現(xiàn)場產(chǎn)品的直接數(shù)據(jù)分析有助于提升設(shè)計。又例如企業(yè)可以通過對用戶習慣的深入分析,比較整體市場的增長特性,大幅提升自己在競爭分析方面的能力。
存儲發(fā)展的必要性
大數(shù)據(jù)意味著數(shù)據(jù)的增長超過了其本身的基礎(chǔ)架構(gòu),這驅(qū)動著應(yīng)對這些特殊挑戰(zhàn)的存儲、網(wǎng)絡(luò)和計算系統(tǒng)進一步的發(fā)展。軟件應(yīng)用需求最終推動了硬件功能的發(fā)展,同時在這種情況下,大數(shù)據(jù)分析的處理過程正在影響著數(shù)據(jù)存儲基礎(chǔ)架構(gòu)的發(fā)展。這對于存儲和IT基礎(chǔ)架構(gòu)企業(yè)而言是一項機遇。隨著結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集的持續(xù)增長,這類數(shù)據(jù)的分析方式也更為多樣化,當前的存儲系統(tǒng)設(shè)計難以應(yīng)對大數(shù)據(jù)基礎(chǔ)架構(gòu)所需。存儲供應(yīng)商已經(jīng)開始推出基于數(shù)據(jù)塊和基于文件的系統(tǒng)來應(yīng)對許多這方面的需求。以下列出了一些大數(shù)據(jù)存儲基礎(chǔ)架構(gòu)的特性,這些都是源自大數(shù)據(jù)的挑戰(zhàn)。
容量。大在很多時候可以理解為PB級別的數(shù)據(jù),因此大數(shù)據(jù)基礎(chǔ)架構(gòu)當然要能夠可以擴展。不過其同樣必須能夠簡易地完成擴展,以模塊化或陣列的方式為用戶直接增加容量,或者至少保持系統(tǒng)不會宕機。橫向擴展式存儲由于能夠滿足這種需求,變得十分流行。橫向擴展集群體系架構(gòu)的特征是由存儲節(jié)點構(gòu)成,每個節(jié)點具備處理能力和可連接性,可以無縫地擴展,避免傳統(tǒng)系統(tǒng)可能產(chǎn)生的煙囪式存儲的問題。
大數(shù)據(jù)還意味著大量的文件。管理元數(shù)據(jù)文件系統(tǒng)的累計會降低可擴展性并影響性能,用傳統(tǒng)的NAS系統(tǒng)就會在這種情況下出現(xiàn)問題。基于對象的存儲體系架構(gòu)則通過另一種方式,支持在大數(shù)據(jù)存儲系統(tǒng)中擴展至十億級別的文件數(shù)量,而不會產(chǎn)生傳統(tǒng)文件系統(tǒng)中會遇到的負載問題。基于對象的存儲可以在不同的地理位置進行擴展,可以在多個不同地點擴展出大型的基礎(chǔ)架構(gòu)。
延遲。大數(shù)據(jù)基礎(chǔ)架構(gòu)中或許同樣會包含實時性的組件,尤其是在網(wǎng)頁交互或金融處理事務(wù)中。存儲系統(tǒng)必須能夠應(yīng)對上述問題同時保持相應(yīng)的性能,因為延遲可能產(chǎn)生過期數(shù)據(jù)。在這一領(lǐng)域,橫向擴展式基礎(chǔ)架構(gòu)同樣能夠通過應(yīng)用存儲節(jié)點集群,隨著容量擴展的同時增強處理能力和可連接性。基于對象的存儲系統(tǒng)可能并發(fā)數(shù)據(jù)流,更大程度上改善吞吐量。
許多大數(shù)據(jù)環(huán)境需要提供高IOPS性能,在高性能計算環(huán)境中的應(yīng)用。服務(wù)器虛擬化也會驅(qū)動高IOPS的需求,就和其在傳統(tǒng)IT環(huán)境中一樣。為了滿足這方面的挑戰(zhàn),固態(tài)存儲設(shè)備可以以多種不同形式進行部署,從簡單的基于服務(wù)器的緩存卡到全閃存架構(gòu)的可擴展式的存儲系統(tǒng)。
可訪問性。隨著企業(yè)越來越能夠理解大數(shù)據(jù)分析的潛在應(yīng)用,對不同數(shù)據(jù)集的對比需求會讓越來越多的人員進入到數(shù)據(jù)共享之中。在創(chuàng)造業(yè)務(wù)價值方面,企業(yè)在尋求更多的方式來從各種平臺相互參照不同的數(shù)據(jù)對象。包含全局文件系統(tǒng)的存儲基礎(chǔ)架構(gòu)可以滿足這方面的問題,因為其允許多用戶,多主機的交互文件,并且支持諸多不同的,甚至是位于不同區(qū)域的后端存儲系統(tǒng)文件共享。
安全性。財務(wù)數(shù)據(jù),醫(yī)療信息以及政府確保都有其標準的安全性要求。雖然這些或許和當前IT管理員的職責稍有不同,大數(shù)據(jù)分析可能也需要相互參照數(shù)據(jù),而這類數(shù)據(jù)在之前可能完全無關(guān),這又產(chǎn)生了新的安全性的要求。
成本。大同樣意味著更加昂貴。并且以許多企業(yè)今天正在運作的大數(shù)據(jù)環(huán)境規(guī)模,對于成本的考慮可能非常重要。這意味著從”每個盒子“中更有效地產(chǎn)出,以及更加廉價的組件。存儲重復(fù)刪除已經(jīng)進入主存儲市場,并且取決于涉及到的數(shù)據(jù)類型,這會給大數(shù)據(jù)存儲系統(tǒng)帶來一些價值。降低后端存儲容量消耗,即便是幾個百分點,在數(shù)據(jù)集不斷增長的環(huán)境下都可以提供巨大的投資回報。自動精簡配置、快照和克隆技術(shù)同樣可能根據(jù)不同的數(shù)據(jù)類型,提升效率。
許多大數(shù)據(jù)存儲系統(tǒng)都會包含歸檔組件,尤其是對于那些和歷史趨勢或者長期存儲應(yīng)用相關(guān)的企業(yè)。從單位成本所提供的存儲容量來看,磁帶仍舊是最具性價比的存儲媒介,并且能夠支持大容量存儲磁帶盒的歸檔系統(tǒng)對于許多環(huán)境都已經(jīng)成為了約定俗成的標準。
來自于成本方面的最大影響是使用商品化的硬件。很清楚大數(shù)據(jù)基礎(chǔ)架構(gòu)無法依賴大型硬件企業(yè)傳統(tǒng)上的轉(zhuǎn)向。許多剛開始部署,或者是具有大型的大數(shù)據(jù)環(huán)境的用戶自行開發(fā)了”白盒“系統(tǒng),這類系統(tǒng)以更低的成本,以現(xiàn)成的商品的形式提供給用戶。不過更多的存儲產(chǎn)品現(xiàn)在以軟件的形式出現(xiàn),可以安裝在現(xiàn)有系統(tǒng),或者普通的現(xiàn)成硬件上。此外,許多企業(yè)正在將其軟件技術(shù)以商品化的設(shè)備,或者和硬件供應(yīng)商結(jié)合,提供類似的方案形式進行銷售。
持續(xù)性。許多大數(shù)據(jù)應(yīng)用中涉及到合規(guī)規(guī)范的要求,使得數(shù)據(jù)需要保存幾年甚至幾十年。醫(yī)療信息通常要保存患者的一生。財務(wù)數(shù)據(jù)一般要保存7年。不過大數(shù)據(jù)用戶同樣會更長地保存期數(shù)據(jù),因為這是歷史記錄的一個組成部分,或者要用于以時間為基礎(chǔ)的分析。這種長期保存的需求意味著存儲供應(yīng)商需要進行持續(xù)地一致性檢驗,并且具備其它長期的可靠性特性,以及滿足數(shù)據(jù)在線升級的需要。
靈活性。因為大數(shù)據(jù)存儲基礎(chǔ)架構(gòu)通常會變得十分龐大,在其設(shè)計之初就應(yīng)當十分注意,以確保其能夠增長,并且隨著分析組件的增長而發(fā)展。數(shù)據(jù)遷移在大數(shù)據(jù)領(lǐng)域中已成為歷史,尤其是自從數(shù)據(jù)可以在多個地點開始。大數(shù)據(jù)存儲基礎(chǔ)架構(gòu)從你開始向里面寫入數(shù)據(jù)的那一刻就已確定,因此其在發(fā)展過程中必需能夠滿足不同的應(yīng)用環(huán)境和數(shù)據(jù)場景。
應(yīng)用感知。有一些首次部署大數(shù)據(jù)的過程中會涉及到特定應(yīng)用的基礎(chǔ)架構(gòu),諸如為政府項目而開發(fā)的系統(tǒng),或者為大型互聯(lián)網(wǎng)服務(wù)公司所開發(fā)的白牌系統(tǒng)。應(yīng)用感知作為改善效率和性能的一種途徑,在主流存儲系統(tǒng)中變得日益普及,并且其也是在大數(shù)據(jù)環(huán)境中應(yīng)當部署的一種技術(shù)。
小型用戶。隨著業(yè)務(wù)需要,大數(shù)據(jù)的應(yīng)用會延伸至那些小型的企業(yè),這種企業(yè)遠遠小于那些存儲基礎(chǔ)架構(gòu)市場部門所關(guān)聯(lián)的大數(shù)據(jù)應(yīng)用分析。這也不只是處于”技術(shù)狂熱“或者獨特的應(yīng)用需求,因此大數(shù)據(jù)領(lǐng)域的存儲供應(yīng)商需要提供更小的配置,并更加關(guān)注成本效益。
關(guān)鍵字:數(shù)據(jù)、環(huán)境、大型硬件企業(yè)
其他新聞:
- 積極維護防汛救災(zāi)網(wǎng)絡(luò)秩序倡議書
- 廣東省APP安全生態(tài)聯(lián)盟正式成立
- 讓“以人民為中心”的APP監(jiān)管理念在廣東落地生根——廣東省通信管理局舉行APP個人信息保護監(jiān)管成果發(fā)布會
- 廣東省通信管理局APP監(jiān)管平臺正式發(fā)布
- 廣東省通信管理局發(fā)布《廣東省移動智能終端應(yīng)用軟件(APP)2020安全白皮書》
- 2020年全國網(wǎng)絡(luò)與信息安全管理職業(yè)技能大賽正式啟動
- 情況通報
- 微軟Build 2017:智能云服務(wù)推新品
- 大數(shù)據(jù)時代:企業(yè)“賣”技術(shù)還是賣數(shù)據(jù)?
- 專家熱議隱私問題:Cookie無罪
- 電商向傳統(tǒng)領(lǐng)域滲透 生活服務(wù)蓬勃發(fā)展
- 新網(wǎng)智捷G5虛機震撼低價僅999元
- 中國域名節(jié),新網(wǎng)引領(lǐng)行業(yè)新動向
- 傳IBM有意收購RIM企業(yè)服務(wù)部門
- 微軟暗示將在18個月內(nèi)發(fā)布新一代Xbox