時間:2023-03-21 17:16:41
導言:作為寫作愛好者,不可錯過為您精心挑選的10篇大數(shù)據(jù)技術,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內容能為您提供靈感和參考。
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2015)01-13-02
Overview on big data technology
Yang Jing
(Department of Computer Science, Yunyang Teachers' College, Shiyan, Hubei 442000, China)
Abstract: Big data is a new technical wave after the network of things and cloud computing. To understand big data technology, the definition and 4V characteristics, the key technologies and main application fields are systematically analyzed in the paper. Through the introduction of the basic conception, characteristics, the main application fields with typical cases are summarized. The core technologies, key strategies of cloud computing, hadoop and data backup are analyzed. The potential information safety risks are pointed out. The countermeasures are given to provide some suggestions and references for wider application and study in the future.
Key words: big data; 4V characteristics; Hadoop; cloud computing
0 引言
物聯(lián)網、云計算等新興技術的迅速發(fā)展開啟了大數(shù)據(jù)時代的帷幕。大數(shù)據(jù)技術是指從各種各樣的海量數(shù)據(jù)中,快速獲取有價值信息的技術,大數(shù)據(jù)的核心問題就是大數(shù)據(jù)技術。目前所說的“大數(shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模大,還包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)復雜程度大。大數(shù)據(jù)的研發(fā)目的是發(fā)展大數(shù)據(jù)技術并將其應用到相關領域,解決實際生產、生活中的各種問題,從而推動信息技術健康地可持續(xù)發(fā)展。
1 大數(shù)據(jù)的定義及主要特征
與其他新興學科一樣,目前大數(shù)據(jù)沒有一個統(tǒng)一的標準和定義。一般認為:大數(shù)據(jù)是由大量異構數(shù)據(jù)組成的數(shù)據(jù)集合,可以應用合理的數(shù)學算法或工具從中找出有價值的信息,并為人們帶來經濟及社會效益的一門新興學科。大數(shù)據(jù)又被稱為海量數(shù)據(jù)、大資料、巨量數(shù)據(jù)等,指的是所涉及的數(shù)據(jù)量規(guī)模巨大,以至于無法在合理時間內通過人工攫取、管理、處理并整理成為人類所能解讀的信息。這些數(shù)據(jù)來自方方面面,比如社交網絡、傳感器采集、安防監(jiān)控視頻、購物交易記錄等。盡管尚無統(tǒng)一定義,但這些無比龐大的數(shù)據(jù)被稱為大數(shù)據(jù)。大數(shù)據(jù)具有如下4V特性[1]:
⑴ 體量Volume,是指數(shù)據(jù)存儲量大,計算量大;
⑵ 多樣Variety,是指大數(shù)據(jù)的異構和多樣性,比如數(shù)據(jù)來源豐富,數(shù)據(jù)格式包括多種不同形式,如網絡日志、音頻、視頻、圖片、地理位置信息等等;
⑶ 價值Value,是指大數(shù)據(jù)價值密度相對較低,信息海量,但是要挖掘出真正有價值的數(shù)據(jù)難度較大,浪里淘沙卻又彌足珍貴;
⑷ 速度Velocity,是指數(shù)據(jù)增長速度快,處理速度要求快。
2 大數(shù)據(jù)技術的應用領域
通過對海量數(shù)據(jù)進行采集、分析與處理,挖掘出潛藏在數(shù)據(jù)海洋里的稀疏但卻彌足珍貴的信息,大數(shù)據(jù)技術正在對經濟建設、醫(yī)療教育、科學研究等領域產生著革命性的影響,其所帶來的巨大使用價值正逐漸被各行各業(yè)的人們所感知。
2.1 金融領域
大數(shù)據(jù)的火熱應用突出體現(xiàn)在金融業(yè),各大互聯(lián)網企業(yè)(谷歌、阿里巴巴等)紛紛掘金大數(shù)據(jù),開創(chuàng)了新的互聯(lián)網金融模式。目前阿里巴巴的互聯(lián)網金融做得如火如荼:基金、小額信貸、余額寶和理財保險產品等等,阿里巴巴之所以能夠做火金融服務,其主要原因就在于阿里的大數(shù)據(jù),阿里巴巴的電商平臺存儲了大量微小企業(yè)客戶及數(shù)以億計的個人用戶行為信息、交易記錄、身份數(shù)據(jù)等,擁有最好、最全的數(shù)據(jù)以及最完整的產業(yè)鏈,做P2P及個人小額信貸,具有最大優(yōu)勢[2]。相反,傳統(tǒng)商業(yè)銀行早期就已推出的小額信貸業(yè)務,開展得并不十分順利。
2.2 市場營銷
今天的數(shù)字化營銷與傳統(tǒng)市場營銷最大的區(qū)別就在于精準定位及個性化。如今企業(yè)與客戶的交流渠道發(fā)生了革命性的變化,從過去的電話及郵件,發(fā)展到今天的博客、論壇、社交媒體賬戶等,從這些五花八門的渠道里跟蹤客戶,將他們的每一次點擊、加好友、收藏、轉發(fā)、分享等行為納入到企業(yè)的銷售漏斗中并轉化成一項巨大的潛在價值,就是所謂的360度客戶視角。例如谷歌的銷售策略主要著眼于在線的免費軟件,用戶使用這些軟件時,無形中就把個人的喜好、消費習慣等重要信息提交給了谷歌,因此谷歌的產品線越豐富,他們對用戶的理解就越深入,其廣告定位就越精準,廣告所攫取的價值就越高,這是正向的循環(huán)。
2.3 公眾服務
大數(shù)據(jù)的另一大應用領域是公眾服務。如今數(shù)據(jù)挖掘已經能夠預測海嘯、地震、疾病暴發(fā),理解交通模型并改善醫(yī)療和教育等。例如,可采用神經網絡和基于地震時間序列的支持向量機方法來預測地震的大概方位、時間、震級大小等重要信息,為通用地震模擬程序提供關鍵的數(shù)據(jù),從而對地震進行早期預警,以使防震抗災部門可以提前做好應對措施,避免大量的人員傷亡及財產損失;再如,將各個省市的城鎮(zhèn)醫(yī)療系統(tǒng)、新農村合作醫(yī)療系統(tǒng)等全部整合起來,建立通用的電子病歷等基礎數(shù)據(jù)庫,實現(xiàn)醫(yī)院之間對病患信息的共享,提高患者就醫(yī)效率[3];電力管理系統(tǒng)通過記錄人們的用電行為信息(做飯、照明、取暖等),大數(shù)據(jù)智能電網就能實現(xiàn)優(yōu)化電的生產、分配及電網安全檢測與控制,包括大災難預警與處理、供電與電力調度決策支持和更準確的用電量預測等,并通過數(shù)據(jù)挖掘技術找出可行的節(jié)能降耗措施,以實現(xiàn)更科學的電力需求分配管理。
2.4 安防領域
安防領域中最重要的就是視頻監(jiān)控系統(tǒng),從早期看得見到現(xiàn)在看得遠、看得清,視頻監(jiān)控是典型的數(shù)據(jù)依賴型業(yè)務,依賴數(shù)據(jù)說話。尤其是高清、超高清監(jiān)控時代的到來,會產生巨量的視頻數(shù)據(jù)。這些巨量視頻監(jiān)控數(shù)據(jù)中,多數(shù)是冗余無用的,只有少數(shù)是關鍵數(shù)據(jù),如何剔除這些無用數(shù)據(jù),一直是人們研究問題的焦點。在大數(shù)據(jù)技術的支撐下,通過對巨量視頻數(shù)據(jù)的分析與處理,可實現(xiàn)模糊查詢、精準定位、快速檢索等,能夠對高清監(jiān)控視頻畫質進行細節(jié)分析,智能挖掘出類似行為及特征的數(shù)據(jù),從而為業(yè)務分析和事件決策判斷提供精準依據(jù)。
3 大數(shù)據(jù)處理關鍵技術
3.1 數(shù)據(jù)備份技術
在大數(shù)據(jù)時代,如何做好數(shù)據(jù)的安全備份至關重要。數(shù)據(jù)備份是數(shù)據(jù)容災的前提,具體是指當出現(xiàn)某種突發(fā)狀況導致存儲系統(tǒng)中的文件、數(shù)據(jù)、片段丟失或者嚴重損壞時,系統(tǒng)可準確而快速地將數(shù)據(jù)進行恢復的技術。數(shù)據(jù)容災備份是為防止偶發(fā)事件而采取的一種數(shù)據(jù)保護手段,其核心工作是數(shù)據(jù)恢復,根本目的是數(shù)據(jù)資源再利用。
3.2 Hadoop
大數(shù)據(jù)時代對于數(shù)據(jù)分析、管理等都提出了更高層次的要求,傳統(tǒng)的關系型數(shù)據(jù)庫和數(shù)據(jù)分析處理技術已經不能滿足大數(shù)據(jù)橫向擴展的需求。為了給大數(shù)據(jù)處理、分析提供一個性能更好、可靠性更高的平臺,Apache基金會開發(fā)了一個開源平臺Hadoop[4],該平臺用Java語言編寫,可移植性強,現(xiàn)在Hadoop已經發(fā)展為一個包括HDFS(分布式文件系統(tǒng) )、HBase(分布式數(shù)據(jù)庫)等功能模塊在內的完整生態(tài)系統(tǒng),成為目前主流的大數(shù)據(jù)應用平臺。
3.3 云計算
如果把各種各樣的大數(shù)據(jù)應用比作在公路上行駛的各種汽車,那么支撐這些汽車快速運行的高速公路就是云計算,云計算是大數(shù)據(jù)分析處理技術的核心。正是由于云計算在海量信息存儲、分析及管理方面的技術支持,大數(shù)據(jù)才有了如此廣闊的用武之地。谷歌的各種大數(shù)據(jù)處理技術和應用平臺都是基于云計算,最典型的就是以UFS(UIT云存儲系統(tǒng))、MapReduce(批處理技術)、BigTable(分布式數(shù)據(jù)庫)為代表的大數(shù)據(jù)處理技術以及在此基礎上產生的開源數(shù)據(jù)處理平臺Hadoop[5]。
4 大數(shù)據(jù)應用帶來的信息安全隱患及應對策略
大數(shù)據(jù)時代,海量數(shù)據(jù)通常存儲在大規(guī)模分布式的網絡節(jié)點中,管理相對分散,而且系統(tǒng)也無法控制用戶進行數(shù)據(jù)交易的場所,因此很難辨別用戶的身份(合法及非法用戶),容易導致不合法用戶篡改或竊取信息;此外,大數(shù)據(jù)存儲系統(tǒng)中包含了海量的個人用戶隱私數(shù)據(jù)及各種行為的記錄信息,如何在大數(shù)據(jù)的挖掘利用中確定一個信息保護和開放的尺度, 是大數(shù)據(jù)面臨的又一難題。為了合理利用大數(shù)據(jù)并有效規(guī)避風險,我們提出以下四點建議:
⑴ 國家出臺相關政策,加強頂層設計,保障數(shù)據(jù)存儲安全;
⑵ 增強網絡安全防護能力,抵御網絡犯罪,確保網絡信息安全;
⑶ 提高警惕積極探索,加大個人隱私數(shù)據(jù)保護力度;
⑷ 深化云計算安全領域研究,保障云端數(shù)據(jù)安全。
5 結束語
在當今信息知識爆炸的時代,大數(shù)據(jù)技術已經被廣泛應用于商業(yè)金融、電力醫(yī)療、教育科研等領域。隨著數(shù)據(jù)挖掘技術的不斷進步,相關信息行業(yè)競相從規(guī)模龐大、結構復雜的大數(shù)據(jù)海洋中攫取更多有價值的數(shù)據(jù)信息用于分析、解決現(xiàn)實生活中的各種實際問題,從而實現(xiàn)信息技術的快速健康發(fā)展。本文梳理了大數(shù)據(jù)的基本概念及4V特征,總結歸納了大數(shù)據(jù)技術的四大熱門應用領域及三大核心處理技術,分析了大數(shù)據(jù)技術帶來的諸如信息竊取及篡改、個人隱私數(shù)據(jù)泄露等信息安全隱患,并提出了相應的解決措施及建議。當然,目前大數(shù)據(jù)技術的研究尚處在起步階段,還有許多深層次的問題亟待解決,如大數(shù)據(jù)的存儲管理是通過硬件的簡單升級還是通過系統(tǒng)的重新設計來解決,大數(shù)據(jù)4V特征中起關鍵作用的是什么,大數(shù)據(jù)技術的應用前景是什么,等等。就目前來看,未來大數(shù)據(jù)技術的研究之路還很長,需要我們用更加敏銳的洞察力來分析和研究。
參考文獻:
[1] BARWICK H. The "four Vs" of big data. Implementing Information
Infrastructure Symposium[EB/OL]. [2012-10-02]. http://.au/article/396198/iiis_four_vs_big_data/.
[2] 韋雪瓊,楊嘩,史超.大數(shù)據(jù)發(fā)展下的金融市場新生態(tài)[Jl.時代金融,
2012.7:173-174
[3] 張敬誼,佘盼,肖筱華.基于云計算的區(qū)域醫(yī)療信息化服務平臺的研
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2015)04-0222-01
1 大數(shù)據(jù)時代數(shù)據(jù)挖掘的重要性
隨著互聯(lián)網、物聯(lián)網、云計算等技術的快速發(fā)展,以及智能終端、網絡社會、數(shù)字地球等信息體的普及和建設,全球數(shù)據(jù)量出現(xiàn)爆炸式增長,僅在2011年就達到1.8萬億GB。IDC(Internet Data Center,互聯(lián)網絡數(shù)據(jù)中心)預計,到2020 年全球數(shù)據(jù)量將增加50倍。毋庸置疑,大數(shù)據(jù)時代已經到來。一方面,云計算為這些海量的、多樣化的數(shù)據(jù)提供存儲和運算平臺,同時數(shù)據(jù)挖掘和人工智能從大數(shù)據(jù)中發(fā)現(xiàn)知識、規(guī)律和趨勢,為決策提供信息參考。
如果運用合理的方法和工具,在企業(yè)日積月累形成的浩瀚數(shù)據(jù)中,是可以淘到沙金的,甚至可能發(fā)現(xiàn)許多大的鉆石。在一些信息化較成熟的行業(yè),就有這樣的例子。比如銀行的信息化建設就非常完善,銀行每天生成的數(shù)據(jù)數(shù)以萬計,儲戶的存取款數(shù)據(jù)、ATM交易數(shù)據(jù)等。
數(shù)據(jù)挖掘是借助IT手段對經營決策產生決定性影響的一種管理手段。從定義上來看,數(shù)據(jù)挖掘是指一個完整的過程,該過程是從大量、不完全、模糊和隨機的數(shù)據(jù)集中識別有效的、可實用的信息,并運用這些信息做出決策。
2 數(shù)據(jù)挖掘的分類
數(shù)據(jù)挖掘技術從開始的單一門類的知識逐漸發(fā)展成為一門綜合性的多學科知識,并由此產生了很多的數(shù)據(jù)挖掘方法,這些方法種類多,類型也有很大的差別。為了滿足用戶的實際需要,現(xiàn)對數(shù)據(jù)挖掘技術進行如下幾種分類:
2.1 按挖掘的數(shù)據(jù)庫類型分類
利用數(shù)據(jù)庫對數(shù)據(jù)分類成為可能是因為數(shù)據(jù)庫在對數(shù)據(jù)儲存時就可以對數(shù)據(jù)按照其類型、模型以及應用場景的不同來進行分類,根據(jù)這種分類得到的數(shù)據(jù)在采用數(shù)據(jù)挖掘技術時也會有滿足自身的方法。對數(shù)據(jù)的分類有兩種情況,一種是根據(jù)其模型來分類,另一種是根據(jù)其類型來分類,前者包括關系型、對象-關系型以及事務型和數(shù)據(jù)倉庫型等,后者包括時間型、空間型和Web 型的數(shù)據(jù)挖掘方法。
2.2 按挖掘的知識類型分類
這種分類方法是根據(jù)數(shù)據(jù)挖掘的功能來實施的,其中包括多種分析的方式,例如相關性、預測及離群點分析方法,充分的數(shù)據(jù)挖掘不僅僅是一種單一的功能模式,而是各種不同功能的集合。同時,在上述分類的情況下,還可以按照數(shù)據(jù)本身的特性和屬性來對其進行分類,例如數(shù)據(jù)的抽象性和數(shù)據(jù)的粒度等,利用數(shù)據(jù)的抽象層次來分類時可以將數(shù)據(jù)分為三個層次,即廣義知識的高抽象層,原始知識的原始層以及到多層的知識的多個抽象層。一個完善的數(shù)據(jù)挖掘可以實現(xiàn)對多個抽象層數(shù)據(jù)的挖掘,找到其有價值的知識。同時,在對數(shù)據(jù)挖掘進行分類時還可以根據(jù)其表現(xiàn)出來的模式及規(guī)則性和是否檢測出噪聲來分類,一般來說,數(shù)據(jù)的規(guī)則性可以通過多種不同的方法挖掘,例如相關性和關聯(lián)分析以及通過對其概念描述和聚類分類、預測等方法,同時還可以通過這些挖掘方法來檢測和排除噪聲。
2.3 按所用的技術類型分類
數(shù)據(jù)挖掘的時候采用的技術手段千變萬化,例如可以采用面向數(shù)據(jù)庫和數(shù)據(jù)倉庫的技術以及神經網絡及其可視化等技術手段,同時用戶在對數(shù)據(jù)進行分析時也會使用很多不同的分析方法,根據(jù)這些分析方法的不同可以分為遺傳算法、人工神經網絡等等。一般情況下,一個龐大的數(shù)據(jù)挖掘系統(tǒng)是集多種挖掘技術和方法的綜合性系統(tǒng)。
2.4 按應用分類
根據(jù)數(shù)據(jù)挖掘的應用的領域來進行分類,包括財經行業(yè)、交通運輸業(yè)、網絡通信業(yè)、生物醫(yī)學領域如DNA等,在這些行業(yè)或領域中都有滿足自身要求的數(shù)據(jù)挖掘方法。對于特定的應用場景,此時就可能需要與之相應的特殊的挖掘方法,并保證其有效性。綜上所述,基本上不存在某種數(shù)據(jù)挖掘技術可以在所有的行業(yè)中都能使用的技術,每種數(shù)據(jù)挖掘技術都有自身的專用性。
3 數(shù)據(jù)挖掘中常用的方法
目前數(shù)據(jù)挖掘方法主要有4種,這四種算法包括遺傳、決策樹、粗糙集和神經網絡算法。以下對這四種算法進行一一解釋說明。
遺傳算法:該算法依據(jù)生物學領域的自然選擇規(guī)律以及遺傳的機理發(fā)展而來,是一種隨機搜索的算法,利用仿生學的原理來對數(shù)據(jù)知識進行全局優(yōu)化處理。是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優(yōu)化方法。這種算法具有隱含并行性、易與其它模型結合等優(yōu)點從而在數(shù)據(jù)挖掘中得到了應用。
決策樹算法:在對模型的預測中,該算法具有很強的優(yōu)勢,利用該算法對龐大的數(shù)據(jù)信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優(yōu)勢也比較明顯,在利用這種算法對數(shù)據(jù)進行分類時非常迅速,同時描述起來也很簡潔,在大規(guī)模數(shù)據(jù)處理時,這種方法的應用性很強。
粗糙集算法:這個算法將知識的理解視為對數(shù)據(jù)的劃分,將這種劃分的一個整體叫做概念,這種算法的基本原理是將不夠精確的知識與確定的或者準確的知識進行類別同時進行類別刻畫。
神經網絡算法:在對模型的預測中,該算法具有很強的優(yōu)勢,利用該算法對龐大的數(shù)據(jù)信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優(yōu)勢也比較明顯,在利用這種算法對數(shù)據(jù)進行分類時非常迅速,同時描述起來也很簡潔,在大規(guī)模數(shù)據(jù)處理時,這種方法的應用性很強。光纜監(jiān)測及其故障診斷系統(tǒng)對于保證通信的順利至關重要,同時這種技術方法也是順應當今時代的潮流必須推廣使用的方法。同時,該診斷技術為通信管網和日常通信提供了可靠的技術支持和可靠的后期保證。
參考文獻
中圖分類號:TP311.13
關于數(shù)據(jù)方面的新名詞是層出不窮,云計算、物聯(lián)網的概念還沒有完全理解,大數(shù)據(jù)的概念又頻頻出現(xiàn)在媒體中,特別是今年“兩會”期間,在央視報道中,多次使用大數(shù)據(jù)進行實時分析。大數(shù)據(jù)的概念從計算機業(yè)界也迅速傳播到各行各業(yè),與我們的日常生活也密切的聯(lián)系在一起。不但中國如此,2012年3月,奧巴馬宣布美國政府五大部門投資兩億美元啟動“大數(shù)據(jù)研究與開發(fā)計劃”,【1】大力推動大數(shù)據(jù)相關的收集、儲存、保留、管理、分析和共享海量數(shù)據(jù)技術研究,以提高美國的科研、教育與國家安全能力,美國政府以及把“大數(shù)據(jù)”技術上升到國家安全戰(zhàn)略的高度。其他國家也紛紛加大對大數(shù)據(jù)研究的資金投入,同時,許多大公司企業(yè)也將此技術視作創(chuàng)新前沿。
1 大數(shù)據(jù)概念與特征
但是,到目前為止,業(yè)界關于大數(shù)據(jù)的概念尚未有統(tǒng)一的定義。最早將大數(shù)據(jù)應用于IT環(huán)境的是著名的咨詢公司麥肯錫,它關于大數(shù)據(jù)的定義是這樣的:大數(shù)據(jù)是指無法在一定時間內用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內容進行采集、存儲、管理和分析的數(shù)據(jù)集合。另外,被引用較多得到大家認可的還有維基百科的定義:大數(shù)據(jù)指數(shù)量巨大、類型復雜的數(shù)據(jù)集合,現(xiàn)有的數(shù)據(jù)庫管理工具或傳統(tǒng)的數(shù)據(jù)處理應用難以對其進行處理。這些挑戰(zhàn)包括如捕獲、收集、存儲、搜索、共享、傳遞、分析與可視化等?!?】
當前,較為統(tǒng)一的認識是大數(shù)據(jù)有四個基本特征:數(shù)據(jù)規(guī)模大(Volume),數(shù)據(jù)種類多(Variety),數(shù)據(jù)要求處理速度快(Velocity),數(shù)據(jù)價值密度低(Value),即所謂的四V特性。這些特性使得大數(shù)據(jù)區(qū)別于傳統(tǒng)的數(shù)據(jù)概念?!?】
首先,數(shù)據(jù)量龐大是大數(shù)據(jù)的最主要的特征,大數(shù)據(jù)的數(shù)據(jù)規(guī)模是以PB、EB、ZB量級為存儲單位的,數(shù)據(jù)量非常龐大。同時,此類數(shù)據(jù)還在不斷的加速產生,因此,傳統(tǒng)的數(shù)據(jù)庫管理技術無法在短時間內完成對數(shù)據(jù)的處理。第二,數(shù)據(jù)種類多。與傳統(tǒng)的數(shù)據(jù)相比,大數(shù)據(jù)的數(shù)據(jù)類型種類繁多,包括了結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)等多種數(shù)據(jù)類型。傳統(tǒng)的數(shù)據(jù)庫技術采取關系型數(shù)據(jù)庫較多,結構單一,而大數(shù)據(jù)重點關注的是包含大量細節(jié)信息的非結構化數(shù)據(jù),因此傳統(tǒng)數(shù)據(jù)庫技術不能適應新的大數(shù)據(jù)的要求,傳統(tǒng)的數(shù)據(jù)處理方式也面臨著巨大的挑戰(zhàn)。第三,大數(shù)據(jù)的產生與存儲是動態(tài)的,有的處理結果時效性要求很高,這就要求對數(shù)據(jù)能夠快速處理,數(shù)據(jù)處理速度快也是大數(shù)據(jù)區(qū)別數(shù)據(jù)倉庫的主要因素。數(shù)據(jù)產生的速度以及快速變化形成的數(shù)據(jù)流,超越了傳統(tǒng)的信息系統(tǒng)的承載能力。最后,數(shù)據(jù)價值密度低是大數(shù)據(jù)關注的非結構化數(shù)據(jù)的重要屬性。大數(shù)據(jù)分析是采用原始數(shù)據(jù)的分析,保留了數(shù)據(jù)的全貌,因此一個事件的全部數(shù)據(jù)都會被保存,產生的數(shù)據(jù)量激增,而有用的信息可能非常少,因此價值密度偏低。
2 大數(shù)據(jù)可用性的面臨的技術與問題
大數(shù)據(jù)并不僅僅指其數(shù)據(jù)量之大,更代表著其潛在的數(shù)據(jù)價值之大。有研究證明,有效地管理、使用大數(shù)據(jù)能夠給企業(yè)提供更多增強企業(yè)生產能力和競爭能力的機會,能夠給企業(yè)帶來巨大的潛在商業(yè)價值。【4】但不可否認的是,大數(shù)據(jù)目前也面臨很多負面影響。低質量低密度的數(shù)據(jù)也可能對決策造成致命性的錯誤。如何把大數(shù)據(jù)從理論研究到企業(yè)應用的轉變,還面臨很多問題與挑戰(zhàn)。
(1)可用性理論體系的建立。大數(shù)據(jù)的可用性需要完整的理論做支撐,才能解決諸如如何形式化的表示數(shù)據(jù)可用性、如何評估數(shù)據(jù)可用性、數(shù)據(jù)錯誤自動發(fā)現(xiàn)和修復依據(jù)什么理論、如何管理數(shù)據(jù)和數(shù)據(jù)融合、數(shù)據(jù)安全性采取何種策略和理論等一系列問題。因此,要建立完整可用性理論體系,構建統(tǒng)一的模型,為大數(shù)據(jù)的進一步應用提供堅實的理論基礎。
(2)高質量數(shù)據(jù)的獲取的能力。大數(shù)據(jù)技術最基礎的對象就是數(shù)據(jù),是一切應用和分析決策的前提。因此,獲取高質量數(shù)據(jù)是確保信息可用性的重要因素之一。隨著互聯(lián)網的數(shù)據(jù)不斷增大,物聯(lián)網的興起以及復雜物理信息系統(tǒng)的應用,大數(shù)據(jù)的來源也多種多樣,數(shù)據(jù)模型千差萬別,質量也參差不齊,這就為加工整合數(shù)據(jù)帶來非常大的困難。
大數(shù)據(jù)是對事物最原始的全貌記錄,數(shù)據(jù)量規(guī)模很大,但是其中有用的信息非常少,因此,對于處理數(shù)據(jù)來說,數(shù)據(jù)并不是越多越好。如何提高數(shù)據(jù)中的有效數(shù)據(jù)是非常關鍵的。大量的數(shù)據(jù)中如果僅僅包含了少量的錯誤數(shù)據(jù),對分析結果可能不會造成很大的影響。但是如果對錯誤數(shù)據(jù)沒有有效控制的話,大量錯誤數(shù)據(jù)的涌入很可能會得到完全錯誤的結果。
因此,獲取高質量數(shù)據(jù)的能力是大數(shù)據(jù)能否進行實用的關鍵因素,否則只會在浪費人力物力后獲得完全無效甚至錯誤的結果。但是目前還缺乏系統(tǒng)的研究,對于出現(xiàn)的問題還沒有很好的解決方案,在獲取數(shù)據(jù)方面的工作任重而道遠。
1、大數(shù)據(jù)技術是指大數(shù)據(jù)的應用技術,涵蓋各類大數(shù)據(jù)平臺、大數(shù)據(jù)指數(shù)體系等大數(shù)據(jù)應用技術。
2、大數(shù)據(jù)是指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。
3、隨著云時代的來臨,大數(shù)據(jù)也吸引了越來越多的關注。分析師團隊認為,大數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結構化數(shù)據(jù)和半結構化數(shù)據(jù),這些數(shù)據(jù)在下載到關系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。
4、大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
(來源:文章屋網 )
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2015)09-0000-00
大數(shù)據(jù)遠不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術,它以一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,獲得有巨大價值的產品和服務[1]。然而面對龐大的數(shù)據(jù)來獲得有價值的信息是一個巨大的挑戰(zhàn)。為了克服上述困難,近幾年來推出了Hadoop、PureData和Exadata等多種大數(shù)據(jù)系統(tǒng)分析平臺,以Hadoop平臺最為突出,深受用戶的歡迎。但是隨著應用的不斷深入,Hadoop暴露出了它的局限性。主要體現(xiàn)在以下幾方面:第一,操作過于單一,僅支持Map和Reduce兩種操作;第二,迭代計算效率較低,尤其在機器學習和圖形計算方面[2]。 2013年底由Apache 軟件基金會提出的Spark框架技術較好地解決了這些問題。
1 Spark技術架構
1.1 Spark設計思想
Spark是一種基于HDFS的并行計算架構。主要思想是通過一種新的作業(yè)和數(shù)據(jù)容錯方式來減少磁盤和網絡的I/O開銷 其核心技術是彈性分布式數(shù)據(jù)集(RDD),是指在一組存儲計算機中的只讀數(shù)據(jù)集合,這個數(shù)據(jù)集合可以在分區(qū)對象丟失后進行重建[5]。也就是說RDD的元素不一定需要存儲在物理介質中,相反,一個RDD的處理進程包含了如何從可靠的數(shù)據(jù)存儲中去獲取足夠的信息來對這個RDD進行處理。如果RDDS的任務節(jié)點失敗,總可以進行重建[3]。
1.2 Spark系統(tǒng)架構
與MapReduce不同,Spark并不僅僅局限于編寫map和reduce兩個方法,它為用戶提供了更為強大的內存計算模型,使得用戶可以通過編程將數(shù)據(jù)讀取到集群的內存當中,這樣可以快速在內存中對數(shù)據(jù)集進行多次迭代,支持復雜的數(shù)據(jù)挖掘算法和圖計算算法使用Scala語言開發(fā),以Mesos作為底層的調度框架,可以和 Hadoop和Ec2緊密集成,直接讀取HDFS或S3的文件進行計算并把結果寫回HDFS或S3,是Hadoop和Amazon云計算生態(tài)圈的一部分,項目的core部分代碼只有63個Scala文件,執(zhí)行效率高效。Spark主要由四個模塊組成:Spark SQL、MLlib、Spark 流和GraphX。Spark SQL為了兼容主流關系型數(shù)據(jù)庫系統(tǒng)(RDBMS)可以允許用戶編寫SQL和HQL兩種腳本執(zhí)行查詢,其核心組件是JavaSchemaRDD,它是一個類似于RDBMS的一個Table,由Row和Schema對象來描述Table中行對象和列的DataType。
2 Spark運行模式
2.1 Spark任務調度方式
Spark的運行模式有多種,主要由SparkContext的MASTER環(huán)境變量所獲得的值來決定,有些模式還需要程序接口來配合輔助決定。但概括起來,Spark運行都以Spark-Context為總調度驅動程序,負責應用程序的資源分配,期間分別創(chuàng)建作業(yè)調度和任務調度兩級模塊。作業(yè)調度模塊是基于階段的高層調度模塊,每個Spark 作業(yè)計算通常有多個階段,每個階段分解為一組任務集,以任務組的形式提交給底層任務調度模塊來具體執(zhí)行實際計算任務,任務調度模塊負責啟動實際任務,監(jiān)控和匯報任務運行情況。如果分配任務成功,SparkContext會將應用程序代碼給指定的執(zhí)行者完成一個或多個任務[4]。
2.2 Spark運行模式類型
Spark的運行模式,歸納起來有六種。
(1)Local[M]。該模式使用 LocalBackend 調用TaskSchedulerImpl 實現(xiàn)。LocalBackend 響應Scheduler的receiveOffers請求,根據(jù)可用CPU Core的設定值[M]直接生成WorkerOffer資源返回給Scheduler,并通過Executor類在線程池中依次啟動和運行Scheduler返回的任務列表。
(2)Standalone。該模式使用SparkDeploySchedulerBackend調用TaskSchedulerImpl來實現(xiàn) ,而SparkDeploySchedulerBackend同時繼承了CoarseGrainedSchedulerBackend。是一個在Akka Actor上實現(xiàn)的粗粒度的資源調度類,在整個Spark Job運行期間,監(jiān)聽和擁有注冊給它的Executor資源,比如接受Executor注冊,狀態(tài)更新,響應Scheduler請求等,并且根據(jù)現(xiàn)有Executor資源發(fā)起任務流程調度。
(3)Local-cluster。偽分布模式實際上是在Standalone模式上實現(xiàn)的,也就是在SparkContext初始化的過程中在本地啟動一個單機的偽分布Spark集群,后面的執(zhí)行流程與Standalone模式相同。
(4)Mesos。該模式主要根據(jù)顆粒度大小來區(qū)分,粗粒度的CoarseMesosSchedulerBackend繼承了CoarseGrained SchedulerBackend,相對于父類額外做的工作還要實現(xiàn)MScheduler接口,注冊到Mesos資源調度的框架中,用于接收Mesos的資源分配,在得到資源后通過Mesos框架遠程啟動CoarseGrainedExecutorBackend,以后的任務交互過程和Spark standalone模式一樣,由DriverActor和Executor Actor直接完成。 細粒度的MesosSchedulerBackend直接繼承SchedulerBackend,但同樣實現(xiàn)了MScheduler接口,完成Mesos資源調度框架中的注冊,接收Mesos的資源分配。不同之處是在接收資源分配以后,MesosSchedulerBackend啟動的是遠程Executor,通過在遠程執(zhí)行命令來啟動MesosExecutorBackend,直接執(zhí)行對應的任務。
(5)Yarn-standalone。Yarn-Standalone模式相對其它模式有些特殊,需要外部程序輔助啟動應用程序。Client通過Yarn Client API在Hadoop集群上啟動一個Spark App Master,Spark App Master首先為自己注冊一個Yarn App Master,再啟動用戶程序,然后根據(jù)Client傳遞過來的參數(shù),Spark App Master通過Yarn RM/NM接口在集群中啟動多個Container運行CoarseGrainedExecutorBackend往CoarseGrainedSchedulerBackend注冊。后面的任務調度流程跟其它Cluster模式類似,不再述說。
(6)Yarn-client。該模式的SparkContext運行在本地,適用于應用程序本身需要在本地交互的情景。這種模式下SparkContext在初始化時首先啟動YarnClientSchedulerBackend,然后再調用客戶端包遠程啟動一個作業(yè)作為Spark的App Master,相對于Yarn-standalone模式,此模式不再負責啟動用戶程序,而只是啟動Backend便于跟客戶端本地Driver進行數(shù)據(jù)傳遞,后面的任務調度流程跟其它模式類似。
3 Spark應用現(xiàn)狀及發(fā)展
目前SPARK已經構建了自己的整個大數(shù)據(jù)處理生態(tài)系統(tǒng),如流處理、圖技術、機器學習、NoSQL查詢等方面的技術,并且是Apache頂級項目。雖然Spark對內存要求較高,推出時間較短未經過實踐考驗,但伴隨著大數(shù)據(jù)相關技術和產業(yè)的逐步成熟,繼Hadoop之后,Spark技術以集大成的無可比擬的優(yōu)勢,發(fā)展迅速,將成為替代Hadoop的下一代云計算、大數(shù)據(jù)核心技術??梢灶A計2015年下半年在社區(qū)和商業(yè)應用上會有爆發(fā)式的增長。
參考文獻
[1] K. Shvachko, K. Hairong, S. Radia e R. Chansler. The Hadoop Distributed File System[C]. IEEE 26th Symposium on Mass Storage Systems and Technologies, 2010.
[2] Spark: Lighting-fast cluster computing[EB/OL]. http:///.
[3] M. Hirzel, H. Andrade, B. Gedik, et al. IBM Streams Processing Language: Analyzing Big Data in motion[J]. IBM Journal of Research and Development.2013,57(7):1-7.
1.1什么是大數(shù)據(jù)
大數(shù)據(jù)概念可以從四個維度去解,即三個V和一個C。三個V分別指的是數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類多(Variety)和數(shù)據(jù)增長速度快(Velocity),最后一個C指的是處理、升級或利用大數(shù)據(jù)的分析手段比處理結構化數(shù)據(jù)要復雜的多(Complexity)。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像Map-Reduce一樣的并行計算框架將復雜的計算任務分配到“云”中成百上千的節(jié)點。
1.2大數(shù)據(jù)與云計算
大數(shù)據(jù)本身就是一個問題集,云計算技術是目前解決大數(shù)據(jù)問題集最重要最有效的手段。云計算提供了基礎的架構平臺,大數(shù)據(jù)應用在這個平臺上運行。目前公認為分析大數(shù)據(jù)集最有效手段的分布式處理技術,也是云計算思想的一種具體體現(xiàn)。
云計算是分布式處理、并行處理和網格計算的發(fā)展,或者說是這些計算機科學概念的商業(yè)實現(xiàn)。云計算將網絡上分布的計算、存儲、服務構件、網絡軟件等資源集中起來,基于資源虛擬化的方式,為用戶提供方便快捷的服務, 實現(xiàn)了資源和計算的分布式共享和并行處理,能夠很好地應對當前互聯(lián)網數(shù)據(jù)量高速增長的勢頭。
1.3大數(shù)據(jù)與Hadoop
Hadoop是一個Apache的開源項目,主要面向存儲和處理成百上千TB直至PB級別的結構化、半結構化或非結構化的大數(shù)據(jù)。Hadoop提供的Map-Reduce能將大數(shù)據(jù)問題分解成多個子問題,并將它們分配到成百上千個處理節(jié)點之上,再將結果匯集到一個小數(shù)據(jù)集當中,從而更容易分析得出最后的結果。
Hadoop項目包括三部分,分別是Hadoop Distributed File System(HDFS)、Map Reduce編程模型,以及Hadoop Common。Hadoop具備低廉的硬件成本、開源的軟件體系、較強的靈活性、允許用戶自己修改代碼等特點,同時能支持海量數(shù)據(jù)的存儲和計算任務。這些特點讓Hadoop被公認為是新一代的大數(shù)據(jù)處理平臺。 Hadoop同樣具備出色的大數(shù)據(jù)集處理能力,在獲取、存儲、管理和分析數(shù)據(jù)方面遠遠超越傳統(tǒng)的數(shù)據(jù)庫軟件工具。Hadoop經常在構建大數(shù)據(jù)解決方案時被用作基礎構架軟件。
二、大數(shù)據(jù)技術綜述
大數(shù)據(jù)處理不僅僅是Hadoop,許多特定的數(shù)據(jù)應用場景是需要實時分析和互動反饋的,這時候就需要利用包括內存檢索、流處理和實時計算等其他技術。而云計算的分布式存儲和計算架構開啟了大數(shù)據(jù)技術研究的大門,打造健全的大數(shù)據(jù)生態(tài)環(huán)境,所有這些技術結合在一起,才是一個完整的大數(shù)據(jù)處理系統(tǒng)。
2.1分布式計算框架
MapReduce是Google開發(fā)的一種簡化的分布式編程模型和高效的任務調度模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算,使云計算環(huán)境下的編程變得十分簡單。
MapReduce將數(shù)據(jù)處理任務抽象為一系列的Map(映射)和Reduce(化簡)操作對。Map主要完成數(shù)據(jù)的分解操作,Reduce主要完成數(shù)據(jù)的聚集操作.輸入輸出數(shù)據(jù)均以〈key,value〉格式存儲.用戶在使用該編程模型時,只需按照自己熟悉的語言實現(xiàn)Map函數(shù)和Reduce函數(shù)即可,MapReduce算法框架會自動對任務進行劃分以做到并行執(zhí)行。
Pregel是Google 提出的迭代處理計算框架,它具有高效、可擴展和容錯的特性,并隱藏了分布式相關的細節(jié),展現(xiàn)給人們的僅僅是一個表現(xiàn)力很強、很容易編程的大型圖算法處理的計算框架。Pregel的主要應用場景是大型的圖計算,例如交通線路、疾病爆發(fā)路徑、WEB 搜索等相關領域。
2.2分布式文件系統(tǒng)
為保證高可用、高可靠和經濟性,基于云計算的大數(shù)據(jù)處理系統(tǒng)采用分布式存儲的方式來保存數(shù)據(jù),用冗余存儲的方式保證數(shù)據(jù)的可靠性。目前廣泛使用的分布式文件系統(tǒng)是Google的GFS和Hadoop團隊開發(fā)的GFS的開源實現(xiàn)HDFS。
GFS即Google文件系統(tǒng),是一個可擴展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進行訪問的應用。GFS的設計思想不同于傳統(tǒng)的文件系統(tǒng),是針對大規(guī)模數(shù)據(jù)處理和Google應用特性而設計的,運行成本低廉,并提供容錯功能。
HDFS即Hadoop分布式文件系統(tǒng),受到GFS很大啟發(fā),具有高容錯性,并且可以被部署在低價的硬件設備之上。HDFS很適合那些有大數(shù)據(jù)集的應用,并且提供了數(shù)據(jù)讀寫的高吞吐率。HDFS是一個master/slave的結構,在master上只運行一個Namenode,而在每一個slave上運行一個Datanode。HDFS支持傳統(tǒng)的層次文件組織結構,對文件系統(tǒng)的操作(如建立、刪除文件和文件夾)都是通過Namenode來控制,Datanode用來存放數(shù)據(jù)塊。
2.3大數(shù)據(jù)管理技術
互聯(lián)網數(shù)據(jù)已超出關系型數(shù)據(jù)庫的管理范疇,電子郵件、超文本、博客、標簽(Tag)以及圖片、音視頻等各種非結構化數(shù)據(jù)逐漸成為大數(shù)據(jù)的重要組成部分,而面向結構化數(shù)據(jù)存儲的關系型數(shù)據(jù)庫已經不能滿足數(shù)據(jù)快速訪問、大規(guī)模數(shù)據(jù)分析的需求,隨之而來,一系列新型的大數(shù)據(jù)管理技術和工具應運而生。
2.3.1 非關系型數(shù)據(jù)庫
NoSQL,也有人理解為Not Only SQL,它是一類非關系型數(shù)據(jù)庫的統(tǒng)稱。其特點是:沒有固定的數(shù)據(jù)表模式、可以分布式和水平擴展。NoSQL并不是單純的反對關系型數(shù)據(jù)庫,而是針對其缺點的一種補充和擴展。典型的NoSQL數(shù)據(jù)存儲模型有文檔存儲、鍵-值存儲、圖存儲、對象數(shù)據(jù)、列存儲等。而比較流行的,不得不提到Google的Bigtable,它把所有數(shù)據(jù)都作為對象來處理,形成一個巨大的表格,用來分布存儲大規(guī)模結構化數(shù)據(jù),數(shù)據(jù)量可達PB級。而HBase是Hadoop團隊基于Bigtable的開源實現(xiàn),使用HDFS作為其文件存儲系統(tǒng)。同時,Cassandra(K/V型數(shù)據(jù)庫)、MongoDB(文檔數(shù)據(jù)庫)和Redis等一系列優(yōu)秀的非關系型數(shù)據(jù)庫產品如雨后春筍般問世。
2.3.2 數(shù)據(jù)查詢工具
Hive是Facebook提出的基于Hadoop的大型數(shù)據(jù)倉庫,其目標是簡化Hadoop上的數(shù)據(jù)聚集、即席查詢及大數(shù)據(jù)集的分析等操作,以減輕程序員的負擔.它借鑒關系數(shù)據(jù)庫的模式管理、SQL接口等技術,把結構化的數(shù)據(jù)文件映射為數(shù)據(jù)庫表,提供類似于SQL的描述性語言HiveQL供程序員使用,可自動將HiveQL語句解析成一優(yōu)化的MapReduce任務執(zhí)行序列.此外,它也支持用戶自定義的MapReduce函數(shù)。
PigLatin是Yahoo!提出的類似于Hive的大數(shù)據(jù)集分析平臺.兩者的區(qū)別主要在于語言接口.Hive提供了類似SQL的接口,PigLatin提供的是一種基于操作符的數(shù)據(jù)流式的接口.可以說Pig利用操作符來對Hadoop進行封裝,Hive利用SQL進行封裝。
Google Dremel是個可擴展的、交互式的即時查詢系統(tǒng),用于完成大規(guī)模查詢結構化數(shù)據(jù)集(如日志和事件文件)。它支持類SQL語法,區(qū)別在于它只能查詢,不支持修改或者創(chuàng)建功能,也沒有表索引。數(shù)據(jù)被列式存儲,這樣有助于提升查詢的速度。Google將Dremel作為MapReduce的一種補充,被用于分析MapReduce的結果或者是作為大規(guī)模計算的測試。
2.4實時流處理技術
伴隨著互聯(lián)網業(yè)務發(fā)展的步調,以及業(yè)務流程的復雜化,企業(yè)的注意力越來越集中在“數(shù)據(jù)流”而非“數(shù)據(jù)集”上面,他們需要的是能夠處理隨時發(fā)生的數(shù)據(jù)流的架構,現(xiàn)有的分布式計算架構并不適合數(shù)據(jù)流處理。流計算強調的是數(shù)據(jù)流的形式和實時性。MapReduce系統(tǒng)主要解決的是對靜態(tài)數(shù)據(jù)的批量處理,當MapReduce任務啟動時,一般數(shù)據(jù)已經到位了(比如保存到了分布式文件系統(tǒng)上),而流式計算系統(tǒng)在啟動時,一般數(shù)據(jù)并沒有完全到位,而是經由外部數(shù)據(jù)源源不斷地流入,重視的是對數(shù)據(jù)處理的低延遲,希望進入的數(shù)據(jù)越快處理越好。數(shù)據(jù)越快被處理,結果就越有價值,這也是實時處理的價值所在。
流計算的數(shù)據(jù)本身就是數(shù)據(jù)流,不需要數(shù)據(jù)準備的時間,有數(shù)據(jù)流入就開始計算,解決了數(shù)據(jù)準備和延遲的兩個問題?,F(xiàn)有的解決方案中,Twitter的Storm和雅虎的S4框架更適合數(shù)據(jù)流計算的場景。Storm是開源的分布式實時計算系統(tǒng),可以可靠的處理流式數(shù)據(jù)并進行實時計算,單機性能可達到百萬記錄每秒,開發(fā)語言為Clojure和Java,并具備容錯特性。S4是面向流式數(shù)據(jù)和實時處理的,所以針對實時性較高的業(yè)務,可以很好地對數(shù)據(jù)做出高效的分析處理,而且系統(tǒng)一旦上線,很少需要人工干預,源源不斷的數(shù)據(jù)流會被自動路由并分析。對于海量數(shù)據(jù),它和MapReduce都可以應對,但它能比后者更快地處理數(shù)據(jù)。
三、思考與展望
以云計算為基礎的信息存儲、分享和挖掘手段為知識生產提供了工具,通過對大數(shù)據(jù)分析、預測會使得決策更為精準,這對媒體融合具有重要意義。
中圖分類號:TP311
文獻標識碼:A
文章編號:1009-3044(2017)10-0025-01
數(shù)據(jù)信息作為時代的信息管理標志其安全性必須收到更大的重視,數(shù)據(jù)信息的安全存儲系統(tǒng)尤為重要,防止信息數(shù)據(jù)的丟失的管理備份系統(tǒng)更為重要。因此能夠將數(shù)據(jù)信息妥善管理,保證其正常工作的技術相當重要,但當數(shù)據(jù)真正丟失或不可避免地出現(xiàn)問題以后能夠盡快地將其找回或者是在有效的時間內將其完整地恢復,以確保整個計算機系統(tǒng)能夠正常工作的技術更是必不可少的。
1.數(shù)據(jù)備份概念及其特點
數(shù)據(jù)備份指的是將計算機系統(tǒng)的所有數(shù)據(jù)或者是部分重要數(shù)據(jù)借助某一種或多種手段從計算機一個系統(tǒng)復制到另一個系統(tǒng),或者是從本地計算機存儲系統(tǒng)中復制到其他的存儲系統(tǒng)中。其目的就是保障系統(tǒng)可用或者是數(shù)據(jù)安全。防止由于人為的失誤或者是系統(tǒng)故障問題亦或是自然災害等方面的原因造成系統(tǒng)數(shù)據(jù)的安全性無法保障的問題。數(shù)據(jù)備份更重要的原因是數(shù)據(jù)信息的多重保存以備不時之需。
數(shù)據(jù)備份按照備份的實現(xiàn)方式可以分為單機和網絡兩種備份方式,傳統(tǒng)的備份就是單機備份針對計算機本身將數(shù)據(jù)進行異地存儲,現(xiàn)代比較流行的就是網絡備份。這是針對整個網絡而言的,這種方式的備份較為復雜,是通過網絡備份軟件對存儲介質和基礎硬件存儲設備的數(shù)據(jù)進行保存和管理。由于網絡備份是在網絡中進行數(shù)據(jù)備份的,因此也就不同于普通的傳統(tǒng)單機備份,是包含需要備份的文件數(shù)據(jù)和網絡系統(tǒng)中使用到的應用程序以及系統(tǒng)參數(shù)和數(shù)據(jù)庫等內容的。
數(shù)據(jù)備份的作用在于:一方面,在數(shù)據(jù)受到損害時對數(shù)據(jù)進行還原和恢復;另一方面,數(shù)據(jù)信息的歷史性、長久保存,方便數(shù)據(jù)的歸檔。
2.數(shù)據(jù)備份存儲技術
備份換言之就是數(shù)據(jù)的再存儲,因此備份技術是存儲技術的重要內容之一,但是數(shù)據(jù)備份存儲作為計算機系統(tǒng)技術與簡單的備份區(qū)別很大。計算機數(shù)據(jù)備份存儲技術時更為全面、完整、穩(wěn)定安全的數(shù)據(jù)信息的備份,是網絡系統(tǒng)高效數(shù)據(jù)存儲的,也是安全性較高的網絡備份。
文件存儲作為最基礎的數(shù)據(jù)類型是隨機存儲在硬盤上的數(shù)據(jù)片段和文檔資料,這些存儲的數(shù)據(jù)文檔、報表甚至是作為數(shù)據(jù)庫文件的應用程序等等在存儲一定的量就會出現(xiàn)超出容量的情況因此對其的整合是必要的。這樣的整合是將存儲的各類數(shù)據(jù)或者是數(shù)據(jù)庫以一個順序和程序的形式出現(xiàn),幫助人們解決備份存儲的空間問題,技術問題以及成本問題。更能將工作人員的連續(xù)數(shù)據(jù)維護和監(jiān)控從繁重的工作中解放出來。
3.保障計算機數(shù)據(jù)網絡備份的安全性策略
通過網絡傳輸?shù)膫浞輸?shù)據(jù)在傳輸過程和傳輸路徑方面必須確保數(shù)據(jù)的安全性。若不能保證數(shù)據(jù)的安全那么一些企業(yè)的關鍵數(shù)據(jù)和重要應用程序就會受損,甚至是失去了備份的意義。因此相比單機備份而言網絡備份更要確保安全傳輸和安全存儲。
首先確保備份數(shù)據(jù)的機密性。數(shù)據(jù)信息的網絡備份不能被非法用戶隨意獲得,因此在數(shù)據(jù)備份過程和傳輸過程中必須防止數(shù)據(jù)的機密性被破壞。一般數(shù)據(jù)備份常用的方法是加密。必須保證是數(shù)據(jù)擁有者才能使用這些數(shù)據(jù)信息,關鍵的數(shù)據(jù)信息的加密工作相比更加嚴格。數(shù)據(jù)內容不容有失,甚至是數(shù)據(jù)的相關名稱和代碼等也不能隨便被非法進入系統(tǒng)的人獲得才是最能保障數(shù)據(jù)安全的方式。
此外,在數(shù)據(jù)網絡傳輸存儲之前一定要確認接受信息一方的真實性,核實雙方信息是否匹配,一定要在雙方身份確認之后才能對網絡的數(shù)據(jù)信息進行發(fā)送和接受,這樣既避免了欺詐行為又確保了網絡中間不可信的因素存在使數(shù)據(jù)信息遭到破壞。
其次。確保備份數(shù)據(jù)的完整性。數(shù)據(jù)備份存儲不是一個簡單的過程,數(shù)據(jù)信息是通過設備和網絡之間傳輸來完成備份數(shù)據(jù)存儲的。這一個成必須要保障所傳輸?shù)男畔⑼暾乇簧蟼鞫疫@些數(shù)據(jù)信息不能被其他方攔截和篡改,以破壞備份數(shù)據(jù)信息的內容和屬性等。此外在存儲時也要保障數(shù)據(jù)信息的正確無誤完整保存。
大數(shù)據(jù)是對全球的數(shù)據(jù)量較大的一個概括,且每年的數(shù)據(jù)增長速度較快。而數(shù)據(jù)挖掘,主要是從多種模糊而又隨機、大量而又復雜且不規(guī)則的數(shù)據(jù)中,獲得有用的信息知識,從數(shù)據(jù)庫中抽絲剝繭、轉換分析,從而掌握其潛在價值與規(guī)律。所以大數(shù)據(jù)時代下的數(shù)據(jù)處理技術要求更高,要想確保數(shù)據(jù)處理成效得到提升,就必須切實加強數(shù)據(jù)挖掘技術教學工作的開展,才能更好地促進數(shù)據(jù)處理職能的轉變,提高數(shù)據(jù)處理效率,優(yōu)化學生的學習成效。以下就大數(shù)據(jù)時代下的數(shù)據(jù)挖掘技術教學做出如下分析。
1大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術的基礎教學方法分析
數(shù)據(jù)挖掘的過程實際就是對數(shù)據(jù)進行分析和處理,所以其基礎就在于數(shù)據(jù)的分析方法。要想確保分析方法的科學性,就必須確保所采用算法的科學性和可靠性,獲取數(shù)據(jù)潛在規(guī)律,并采取多元化的分析方法促進問題的解決和優(yōu)化。以下就幾種常見的數(shù)據(jù)分析教學方法做出簡要的說明。一是歸類法,主要是將沒有指向和不確定且抽象的數(shù)據(jù)信息予以集中,并對集中后的數(shù)據(jù)實施分類整理和編輯處理,從而確保所形成的數(shù)據(jù)源具有特征一致、表現(xiàn)相同的特點,從而為加強對其的研究提供便利。所以這一分析方法能有效的滿足各種數(shù)據(jù)信息處理。二是關聯(lián)法,由于不同數(shù)據(jù)間存在的關聯(lián)性較為隱蔽,采取人力往往難以找出其信息特征,所以需要預先結合信息關聯(lián)的表現(xiàn),對數(shù)據(jù)關聯(lián)管理方案進行制定,從而完成基于某種目的的前提下對信息進行處理,所以其主要是在一些信息處理要求高和任務較為復雜的信息處理工作之中。三是特征法,由于數(shù)據(jù)資源的應用范圍較廣,所以需要對其特征進行挖掘。也就是采用某一種技術,將具有相同特征的數(shù)據(jù)進行集中。例如采用人工神經網絡技術時,主要是對大批量復雜的數(shù)據(jù)分析,對非常復雜的模式進行抽取或者對其趨勢進行分析。而采取遺傳算法,則主要是對其他評估算法的適合度進行評估,并結合生物進化的原理,對信息數(shù)據(jù)的成長過程進行虛擬和假設,從而組建出半虛擬、半真實的信息資源。再如可視化技術則是為數(shù)據(jù)挖掘提供輔助,采取多種方式對數(shù)據(jù)的挖掘進行指導和表達[1]。
2大數(shù)據(jù)時代數(shù)據(jù)挖掘技術教學要點的分析
2.1數(shù)據(jù)挖掘技術流程分析
在數(shù)據(jù)挖掘教學過程中,其流程主要是以下幾點:首先做好數(shù)據(jù)準備工作,主要是在挖掘數(shù)據(jù)之前,就引導學生對目標數(shù)據(jù)進行準確的定位,在尋找和挖掘數(shù)據(jù)之前,必須知道所需數(shù)據(jù)類型,才能避免數(shù)據(jù)挖掘的盲目性。在數(shù)據(jù)準備時,應根據(jù)系統(tǒng)的提示進行操作,在數(shù)據(jù)庫中輸入檢索條件和目標,對數(shù)據(jù)信息資源進行分類和清理,以及編輯和預處理。其次是在數(shù)據(jù)挖掘過程中,由于目標數(shù)據(jù)信息已經被預處理,所以就需要在挖掘處理過程中將其高效正確的應用到管理機制之中,因而數(shù)據(jù)挖掘的過程十分重要,所以必須加強對其的處理。例如在數(shù)據(jù)挖掘中,引導學生結合數(shù)據(jù)挖掘目標要求,針對性的選取科學而又合適的計算和分析方法,對數(shù)據(jù)信息特征與應用價值等進行尋找和歸納。當然,也可以結合程序應用的需要,對數(shù)據(jù)區(qū)域進行固定,并在固定的數(shù)據(jù)區(qū)域內分類的挖掘數(shù)據(jù),從而得到更具深度和內涵以及價值的數(shù)據(jù)信息資源,并就挖掘到的數(shù)據(jù)結果進行分析和解釋,從結果中將具有使用價值和意義的規(guī)律進行提取,并還原成便于理解的數(shù)據(jù)語言。最后是切實加強管理和計算等專業(yè)知識的應用,將數(shù)據(jù)挖掘技術實施中進行的總結和提取所獲得的數(shù)據(jù)信息與評估結果在現(xiàn)實之中應用,從而對某個思想、決策是否正確和科學進行判斷,最終體現(xiàn)出數(shù)據(jù)挖掘及時的應用價值,在激發(fā)學生學習興趣的同時促進教學成效的提升。
2.2挖掘后的數(shù)據(jù)信息資源分析
數(shù)據(jù)信息資源在挖掘后,其自身的職能作用將變得更加豐富,所以在信息技術環(huán)節(jié)下的數(shù)據(jù)挖掘技術隨著限定條件的變化,而將數(shù)據(jù)挖掘信息應用于技術管理和決策管理之中,從而更好地彰顯數(shù)據(jù)在經濟活動中的物質性質與價值變化趨勢,并結合數(shù)據(jù)變化特點和具體的表現(xiàn)規(guī)律,從而將數(shù)據(jù)信息的基本要素、質量特點、管理要求等展示出來,所以其表現(xiàn)的形式十分豐富。因而在數(shù)據(jù)挖掘之后的信息在職能范圍和表現(xiàn)形式方式均得到了豐富和拓展,而這也在一定程度上體現(xiàn)了網絡擬定目標服務具有較強的完整性,且屬于特殊的個體物品,同時也是對傳統(tǒng)數(shù)據(jù)挖掘技術的創(chuàng)新和發(fā)展,從而更好地滿足當前大數(shù)據(jù)時代對信息進行數(shù)據(jù)化的處理,并對不同種類業(yè)務進行整合和優(yōu)化,從而促進數(shù)據(jù)挖掘技術服務的一體化水平。
2.3大數(shù)據(jù)背景下的數(shù)據(jù)挖掘技術的應用必須注重信息失真的控制
數(shù)據(jù)挖掘技術的信息主要是源于大數(shù)據(jù)和社會,所以在當前數(shù)據(jù)挖掘技術需求不斷加大的今天,為了更好地促進所挖掘數(shù)據(jù)信息的真實性,促進其個性化職能的發(fā)揮,必須在大數(shù)據(jù)背景下注重信息失真的控制,切實做好數(shù)據(jù)挖掘技術管理的各項工作。這就需要引導學生考慮如何確保數(shù)據(jù)挖掘技術在大數(shù)據(jù)背景下的職能得到有效的發(fā)揮,盡可能地促進數(shù)據(jù)挖掘技術信息資源的升級和轉型,以大數(shù)據(jù)背景為載體,促進整個業(yè)務和技術操作流程的一體化,從而更好地將所有數(shù)據(jù)資源的消耗和變化以及管理的科學性和有效性,這樣我們就能及時的找到資源的消耗源頭,從而更好地對數(shù)據(jù)資源的消耗效益進行評價,最終促進業(yè)務流程的優(yōu)化,并結合大數(shù)據(jù)背景對數(shù)據(jù)挖掘技術的職能進行拓展,促進其外部信息與內部信息的合作,對數(shù)據(jù)挖掘技術信息的職能進行有效的控制,才能更好地促進信息失真的控制[2]。
3數(shù)據(jù)挖掘技術在不同行業(yè)中的應用實踐
學習的最終目的是為了更好的應用,隨著時代的發(fā)展,數(shù)據(jù)挖掘技術將在越來越多的行業(yè)中得以應用。這就需要高校教師引導學生結合實際需要強化對其的應用。例如在市場營銷行業(yè)中數(shù)據(jù)挖掘技術的應用這主要是因為數(shù)據(jù)挖掘能有效的解析消費者的消費行為和消費習慣,從而利用其將銷售方式改進和優(yōu)化,最終促進產品銷量的提升。與此同時,通過對購物消費行為的分析,掌握客戶的忠誠度和消費意識等,從而針對性的改變營銷策略,同時還能找到更多潛在的客戶。再如在制造業(yè)中數(shù)據(jù)挖掘技術的應用,其目的就在于對產品質量進行檢驗。引導學生深入某企業(yè)實際,對所制造產品的數(shù)據(jù)進行研究,從而找出其存在的規(guī)則,并對其生產流程進行分析之后,對其生產的過程進行分析,從而更好地對生產質量的影響因素進行分析,并促進其效率的提升。換言之,主要就是對各種生產數(shù)據(jù)進行篩選,從而得出有用的數(shù)據(jù)和知識,再采取決策樹算法進行統(tǒng)計決策,并從中選取正確決策,從而更好地對產品在市場中的流行程度,決定生產和轉型的方向。再如在教育行業(yè)中數(shù)據(jù)挖掘技術的應用,主要是為了更好地對學習情況、教學評估和心里動向等數(shù)據(jù)進行分類和篩選,從而為學校的教學改革提供參考和支持。比如為了更好地對教學質量進行評估,就需要對教學質量有關項目進行整合與存儲,從而更好地促進其對教學質量的評估,而這一過程中,就需要采取數(shù)據(jù)挖掘技術對有關教學項目中的數(shù)據(jù)進行挖掘和處理,促進其應用成效的提升[3]。
4結語
綜上所述,在大數(shù)據(jù)背景下,數(shù)據(jù)挖掘技術已經在各行各業(yè)中得到了廣泛的應用,所以為了更好地滿足應用的需要,在實際教學工作中,我們必須引導學生切實加強對其特點的分析,并結合實際需要,切實注重數(shù)據(jù)挖掘技術的應用,才能促進其應用成效的提升,最終達到學以致用的目的。
作者:何智文 鄧倫丹 單位:南昌大學科學技術學院
參考文獻:
一、大數(shù)據(jù)
1.大數(shù)據(jù)產生的背景
大數(shù)據(jù)(Big Data),也稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經營決策更積極目的資訊,通常被認為是PB或EB或更高數(shù)量級的數(shù)據(jù)。
互聯(lián)網絡從上世紀90年代開始,發(fā)展迅速,加快了信息傳播和共享的速度,尤其是一些社交網站的興起,數(shù)據(jù)量更是以前所未有的速度暴增,文字資料、聲音、視頻、圖像等多媒體數(shù)據(jù)鋪天蓋地。據(jù)資料顯示,上世紀90年代,互聯(lián)網資源不是很豐富的時代,網民月平均流量1MB左右,之后則快速增長,2000年后,逐漸發(fā)展為每月10MB、100MB、1GB,據(jù)估計2014年可能會達到10GB。淘寶網每日幾千萬筆交易,單日數(shù)據(jù)量達幾十TB,數(shù)據(jù)存儲量幾十PB,百度公司目前數(shù)據(jù)總量接近1000PB,存儲網頁數(shù)量接近1萬億頁,每天大約要處理60億次搜索請求,幾十PB數(shù)據(jù)。
隨著技術發(fā)展,大數(shù)據(jù)廣泛存在,如企業(yè)數(shù)據(jù)、統(tǒng)計數(shù)據(jù)、科學數(shù)據(jù)、醫(yī)療數(shù)據(jù)、互聯(lián)網數(shù)據(jù)、移動數(shù)據(jù)、物聯(lián)網數(shù)據(jù)等等??傊?,大數(shù)據(jù)存在于各行各業(yè),一個大數(shù)據(jù)的時代已經到來。
2.大數(shù)據(jù)時代的挑戰(zhàn)
大數(shù)據(jù)特點是容量在增長、種類在增長、速度也在增長,面臨如此龐大的數(shù)據(jù)量,數(shù)據(jù)的存儲和檢索面臨著巨大挑戰(zhàn)。比如2007年時,F(xiàn)acebook使用數(shù)據(jù)倉庫存儲15個TB的數(shù)據(jù),但到了2010年,每天壓縮過的數(shù)據(jù)比過去總和還多,那時商業(yè)并行數(shù)據(jù)庫很少有超過100個節(jié)點以上的,而現(xiàn)在雅虎的Hadoop集群超過4000個節(jié)點,F(xiàn)acebook倉庫節(jié)點超過2700個。大量的數(shù)據(jù)現(xiàn)在已經開始影響我們整個的工作、生活、甚至經濟,如何存儲和高效利用這些數(shù)據(jù)是需要我們解決的。
二、關系數(shù)據(jù)庫
1.關系數(shù)據(jù)庫概述
關系型數(shù)據(jù)庫是支持關系模型的數(shù)據(jù)庫系統(tǒng),他是目前各類數(shù)據(jù)庫中最重要,也是使用最廣泛的數(shù)據(jù)庫系統(tǒng)。關系型數(shù)據(jù)庫從上世紀70年代誕生到現(xiàn)在經過幾十年的發(fā)展,已經非常成熟,目前市場上主流的數(shù)據(jù)庫都為關系型數(shù)據(jù)庫,比較知名的有Oracle數(shù)據(jù)庫、DB2、Sybase、SQL Server等等。
2.關系數(shù)據(jù)庫優(yōu)勢
關系數(shù)據(jù)庫相比其他模型的數(shù)據(jù)庫而言,有著以下優(yōu)點:
模型容易理解:關系模型中的二維表結構非常貼近邏輯世界,相對于網狀、層次等其他模型來說更容易理解。
使用方便:通用的SQL語言使得操作關系型數(shù)據(jù)庫非常方便,只需使用SQL語言在邏輯層面操作數(shù)據(jù)庫,而完全不必理解其底層實現(xiàn)。
易于維護:豐富的完整性大大降低了數(shù)據(jù)冗余和數(shù)據(jù)不一致的概率。
3.關系數(shù)據(jù)庫存在問題
傳統(tǒng)的關系數(shù)據(jù)庫具有不錯的性能,穩(wěn)定性高,歷經多年發(fā)展已日臻成熟,而且使用簡單,功能強大,也積累了大量的成功案例。上世紀90年代的互聯(lián)網領域,網站基本都是靜態(tài)網頁,主要以文字為主,訪問量也不大,當時用單個數(shù)據(jù)庫完全可以應對。可近幾年,動態(tài)網站隨處可見,各種論壇、博克、微博異常火爆,在大幅度提升交流方式的同時,用戶數(shù)據(jù)量迅速增長,處理事務性的數(shù)據(jù)關系數(shù)據(jù)庫得心應手,可面對互聯(lián)網的高并發(fā)、大數(shù)據(jù)量關系數(shù)據(jù)庫顯得力不從心,暴露了很多難以克服的問題:
數(shù)據(jù)庫高并發(fā)讀寫:高并發(fā)的動態(tài)網站數(shù)據(jù)庫并發(fā)負載非常高,往往要達到每秒上萬次甚至百萬次、千萬次的讀寫請求。關系數(shù)據(jù)庫應付上萬次SQL查詢沒問題,但是應付上百萬、千萬次SQL數(shù)據(jù)請求,硬盤IO就已經無法承受了。
海量數(shù)據(jù)的高效率訪問:一般大型數(shù)據(jù)庫在百萬級的數(shù)據(jù)庫表中檢索數(shù)據(jù)可達到秒級,但面對數(shù)億條記錄的數(shù)據(jù)庫表,檢索速度效率是極其低下,難以忍受的。
數(shù)據(jù)庫可擴展性和高可用性:基于web的架構當中,數(shù)據(jù)庫無法通過添加更多的硬件和服務節(jié)點來擴展性能和負載能力,對于很多需要提供24小時不間斷服務的網站來說,數(shù)據(jù)庫系統(tǒng)升級和擴展卻只能通過停機來實現(xiàn),這無疑是一個艱難的決定。
三、NOSQL數(shù)據(jù)庫
1.NOSQL數(shù)據(jù)庫理論基礎
NOSQL作為新興數(shù)據(jù)庫系統(tǒng)概念,由于其具備處理海量數(shù)據(jù)的能力,近年來受到各大IT公司的追捧。Amazon、Google等大型網商已紛紛斥資進行研究并開發(fā)了適用的產品。談及NOSQL數(shù)據(jù)庫,首先應該了解支持NOSQL的理論:CAP理論、BASE思想和最終一致性。
(1)CAP理論
CAP理論由Eric Brewer在ACM PODC會議上的主題報告中提出,這個理論是NOSQL數(shù)據(jù)管理系統(tǒng)構建的基礎,CAP解釋為一致性(Consistency)、可用性(Availability)以及分區(qū)容忍性(Partition Tolerance)。具體描述如下:
強一致性(Consistency):系統(tǒng)在執(zhí)行過某項操作后仍然處于一致的狀態(tài)。在分布式數(shù)據(jù)庫系統(tǒng)中,數(shù)據(jù)變更后所有的用戶都應該讀取到最新的值,這樣的系統(tǒng)被認為具有強一致性。
可用性(Availability):每一個操作都能夠在一定的時間內返回結果。“一定時間內”是指系統(tǒng)的結果必須在給定時間內返回,如果超時則被認為不可用,“返回結果”同樣非常重要,必須能提供成功或失敗的信息。
分區(qū)容錯性(Partition Tolerance):分區(qū)容錯性可以理解為系統(tǒng)在存在網絡分區(qū)的情況下仍然可以接受請求。
CAP是在分布式環(huán)境中設計和部署系統(tǒng)時所要考慮的三個重要的系統(tǒng)需求。根據(jù)CAP理論,數(shù)據(jù)共享系統(tǒng)只能滿足這三個特性中的兩個,不能同時滿足三個條件。因此系統(tǒng)設計者必須在這三個特性之間做出權衡。例如Amazon的Dynamo具有高可用性和分區(qū)容錯性但不支持強一致性,也就是說用戶不能立即看到其他用戶更新的內容。
(2)BASE思想
BASE(Basically Availble),基本可用,強調數(shù)據(jù)庫的最終一致(Eventually consistent最終一致,最終數(shù)據(jù)一致就可以,而不是時時高一致),不同于傳統(tǒng)關系數(shù)據(jù)庫基于的ACID模型。
ACID特性與高性能是不兼容的。比如,在網店買東西,每個客戶買東西時都會通過鎖來同步數(shù)據(jù)操作,操作完成每個客戶都可以看到一致的數(shù)據(jù)。也就是說,不允許多個客戶同時買的情況。很明顯對于大多數(shù)網上商城,尤其是大型網商來說,這個方法并不適用。
BASE思想實際上是CAP理論中AP的衍伸。通過犧牲高一致性,保證高可用性和分區(qū)容忍性。BASE思想的組成有以下3個部分:基本可用、軟狀態(tài)、最終一致性。BASE模式指的是一個應用在任意時間首先應該能完成最基本化的工作(即基本可用),并不需要總是一致(即軟狀態(tài)),但最終應該是一致(即最終一致性)的。
(3)最終一致性
數(shù)據(jù)一致性可分別從使用者和提供者角度看:從使用者的角度,如何觀察數(shù)據(jù)更新;從提供者的角度,也就是服務器端,更新如何在系統(tǒng)中實現(xiàn)。
一致性可分為強一致性和弱一致性兩種:強一致性要求更新過的數(shù)據(jù)能被后續(xù)的訪問都看到,根據(jù)CAP理論,強一致性無法和可用性、分區(qū)容忍性同時實現(xiàn);弱一致性,指讀取操作能夠見到變化的數(shù)據(jù),但不是所有變化的數(shù)據(jù)。
最終一致性屬于弱一致性的一種,即存儲系統(tǒng)保證如果沒有新的更新提交,最終所有的訪問都將獲得最后的更新。如果沒有故障發(fā)生,不一致性取決于通信時延、系統(tǒng)負載以及復制策略中涉及的副本數(shù)。
2.NOSQL數(shù)據(jù)庫產品
NOSQL(Not Only SQL)數(shù)據(jù)庫是指那些非關系型的數(shù)據(jù)庫。NOSQL數(shù)據(jù)庫分為Key-Value、Key-Document和Key-Column這3類。典型的NOSQL產品有Google的BigTable、基于Hadoop HDFS的HBase、Amazon的Dynamo、CouchDB、MongoDB、Redis等。
NOSQL數(shù)據(jù)庫遵循CAP理論和BASE原則,大部分Key-Value數(shù)據(jù)庫系統(tǒng)都會根據(jù)自己的設計目的進行相應的選擇,如Cassandra、Dynamo滿足AP,BigTable、MongoDB滿足CP。
四、結束語
本文首先介紹了大數(shù)據(jù)概念,分析了關系數(shù)據(jù)庫在存儲大數(shù)據(jù)量方面的不足,并介紹了當前NOSQL數(shù)據(jù)庫的基本理論和當前產品分類。大數(shù)據(jù)時代的來臨,我們忙于如何存儲和處理這些數(shù)據(jù),但隨著計算機互聯(lián)網、移動互聯(lián)網、物聯(lián)網等網絡的快速發(fā)展,數(shù)據(jù)量會持續(xù)大幅增長,如何長期保存這些數(shù)據(jù)以及如何處理更大級別的數(shù)據(jù)量,都需要我們思考并解決。
參考文獻
[1]王珊,王會舉,覃雄派等.架構大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學報,2011(34).
[2]黃賢立.NOSQL非關系型數(shù)據(jù)庫的發(fā)展及應用初探[J].福建電腦,2010(7):30.
一、引言
大數(shù)據(jù)時代,原有的信息資源處理手段已經不適應迅速增大的數(shù)據(jù)量級。大數(shù)據(jù)依托網絡技術,采用數(shù)據(jù)挖掘、關聯(lián)分析等技術手段對分布式存儲的異構海量數(shù)據(jù)進行處理。無論是網絡環(huán)境、計算平臺、還是存儲載體,都分屬不同的信息系統(tǒng)。大數(shù)據(jù)進一步加劇了網絡空間中防御與攻擊的不對稱性,大數(shù)據(jù)信息安全主要體現(xiàn)在處理系統(tǒng)、過程的安全,而傳統(tǒng)的信息安全防護措施多集中在“封堵查殺”層面,難以應對大數(shù)據(jù)時代的信息安全挑戰(zhàn)。因此應加快構建多層次、高質量的大數(shù)據(jù)縱深防御體系結構。加強大數(shù)據(jù)信息安全保障能力,是解決大數(shù)據(jù)安全的唯一出路。
二、大數(shù)據(jù)安全挑戰(zhàn)
基于大數(shù)據(jù)環(huán)境下所帶來的安全挑戰(zhàn)包括:
1、應用安全防護:大數(shù)據(jù)環(huán)境下的應用防護風險,包括資源濫用、拒絕服務攻擊、不安全集成模塊或API接口及WEB安全;2、虛擬化環(huán)境安全:基于云計算和虛擬化技術的云計算數(shù)據(jù)中心為大數(shù)據(jù)提供了一個開放的環(huán)境,分布在不同地區(qū)的資源可以快速整合,動態(tài)配置,實現(xiàn)數(shù)據(jù)集合的共建共享。網絡訪問便捷化和數(shù)據(jù)流的形成,為實現(xiàn)資源的快速彈性推送和個性化服務提供基礎。然而平臺的暴露,使得蘊含著海量數(shù)據(jù)和潛在價值的大數(shù)據(jù)更容易吸引黑客的攻擊。虛擬化環(huán)境安全成為大數(shù)據(jù)安全的重要威脅。3、移動接入安全:BYOD-移動接入安全,包括身份假冒和信息劫持等。4、安全與大數(shù)據(jù)融合:惡意的內部員工和數(shù)據(jù)隱私保護面臨威脅。
本文分別從上面四個方面來分析大數(shù)據(jù)安全技術體系的建設辦法,構建大數(shù)據(jù)縱深防御體系結構。
三、大數(shù)據(jù)安全技術體系
大數(shù)據(jù)應用安全防護主要在應用防護區(qū)部署虛擬化綜合安全設備,包括DDOS、防火墻、IPS和WEB防火墻(WAF)等,同時部署漏洞分析系統(tǒng),進行安全評估和滲透測試。
大數(shù)據(jù)虛擬化環(huán)境安全主要通過虛擬化防火墻TopVSP(Vgate、TAE、TD)和虛擬機管理器安全,即外部防火墻。實現(xiàn)虛擬化環(huán)境的性能優(yōu)化和安全策略遷移等。
移動接入安全從下到上分為統(tǒng)一接入控制、數(shù)據(jù)安全及威脅防護和全生命周期設備管理三層。其中統(tǒng)一接入控制層在終端接入?yún)^(qū)使用身份認證及授權和虛擬應用及虛擬桌面,在網絡接入?yún)^(qū)使用VPN加密,在業(yè)務服務區(qū)使用遠程鎖定、數(shù)據(jù)擦除、備份與恢復、GPS定位和自動報警燈管理器后動來實現(xiàn)。全生命周期設備管理包括資產接入、部署、運行和銷毀全流程管理,資產接入包括資產的發(fā)現(xiàn)、注冊和初始化;資產部署主要包括安全基線制定和配置及策略執(zhí)行;資產運行包括資產的掛失、鎖定、密碼重置、定位、備份與恢復、報警等;數(shù)據(jù)銷毀采用遠程應用卸載和數(shù)據(jù)擦除等技術。