前海中泰咨詢

在線咨詢 中文 | English
免費(fèi)服務(wù)熱線:
專題研究中心 大數(shù)據(jù)中心 前海中泰數(shù)據(jù)庫

政策環(huán)境 概念特征 技術(shù)基礎(chǔ) 應(yīng)用領(lǐng)域 市場(chǎng)規(guī)模 區(qū)域應(yīng)用 大數(shù)據(jù)動(dòng)向

技術(shù)基礎(chǔ)


大數(shù)據(jù)是云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、智慧城市等新技術(shù)、新模式發(fā)展的產(chǎn)物,它具有數(shù)據(jù)量大、類型復(fù)雜、內(nèi)容變化快的特征,蘊(yùn)含廣泛的應(yīng)用價(jià)值和巨大的市場(chǎng)機(jī)會(huì)。

1、大數(shù)據(jù)采集與預(yù)處理技術(shù)

數(shù)據(jù)采集技術(shù)指從傳感器和其它待測(cè)設(shè)備等模擬和數(shù)字被測(cè)單元中自動(dòng)采集非電量或者電量信號(hào),送到上位機(jī)中進(jìn)行分析、處理的過程。數(shù)據(jù)采集技術(shù)可分為3 大類:①系統(tǒng)日志采集方法。通過智能硬件、傳感器、社交網(wǎng)絡(luò)等數(shù)據(jù)載體的日常運(yùn)維進(jìn)行數(shù)據(jù)資源的采集。②網(wǎng)絡(luò)數(shù)據(jù)采集方法。指通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息。該方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。它支持圖片、音頻、視頻等文件或附件的采集,并支持文件之間的自動(dòng)關(guān)聯(lián)。③其他數(shù)據(jù)采集方法。其他數(shù)據(jù)包括企業(yè)生產(chǎn)經(jīng)營(yíng)數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與企業(yè)或研究機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。

大數(shù)據(jù)預(yù)處理技術(shù),主要完成對(duì)已接收數(shù)據(jù)的辨析、抽取、清洗等操作。數(shù)據(jù)抽取:因獲取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取過程可以將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的類型,以達(dá)到快速分析處理的目的。數(shù)據(jù)清洗:對(duì)于大數(shù)據(jù),并不全是有價(jià)值的,對(duì)于無價(jià)值的數(shù)據(jù)或干擾數(shù)據(jù),需要通過過濾“去噪”進(jìn)而提取出有效數(shù)據(jù)。

2、大數(shù)據(jù)存儲(chǔ)管理技術(shù)

數(shù)據(jù)的海量化和快增長(zhǎng)特征是大數(shù)據(jù)對(duì)存儲(chǔ)技術(shù)提出的首要挑戰(zhàn)。這要求底層硬件架構(gòu)和文件系統(tǒng)在性價(jià)比上要大大高于傳統(tǒng)技術(shù),并能夠彈性擴(kuò)展存儲(chǔ)容量。但以往網(wǎng)絡(luò)附著存儲(chǔ)系統(tǒng)(NAS)和存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)等體系,存儲(chǔ)和計(jì)算的物理設(shè)備分離,它們之間要通過網(wǎng)絡(luò)接口連接,這導(dǎo)致在進(jìn)行數(shù)據(jù)密集型計(jì)算(Data Intensive Computing)時(shí)I/O 容易成為瓶頸。同時(shí),傳統(tǒng)的單機(jī)文件系統(tǒng)(如NTFS)和網(wǎng)絡(luò)文件系統(tǒng)(如NFS)要求一個(gè)文件系統(tǒng)的數(shù)據(jù)必須存儲(chǔ)在一臺(tái)物理機(jī)器上,且不提供數(shù)據(jù)冗余性,可擴(kuò)展性、容錯(cuò)能力和并發(fā)讀寫能力難以滿足大數(shù)據(jù)需求。

谷歌文件系統(tǒng)(GFS)和Hadoop 的分布式文件系統(tǒng)HDFS奠定了大數(shù)據(jù)存儲(chǔ)技術(shù)的基礎(chǔ)。與傳統(tǒng)系統(tǒng)相比,GFS/HDFS 將計(jì)算和存儲(chǔ)節(jié)點(diǎn)在物理上結(jié)合在一起,從而避免在數(shù)據(jù)密集計(jì)算中易形成的I/O 吞吐量的制約,同時(shí)這類分布式存儲(chǔ)系統(tǒng)的文件系統(tǒng)也采用了分布式架構(gòu),能達(dá)到較高的并發(fā)訪問能力。

3、大數(shù)據(jù)分析挖掘技術(shù)

在人類全部數(shù)字化數(shù)據(jù)中,僅有非常小的一部分?jǐn)?shù)值型數(shù)據(jù)得到了深入分析和挖掘(如回歸、分類、聚類),大型互聯(lián)網(wǎng)企業(yè)對(duì)網(wǎng)頁索引、社交數(shù)據(jù)等半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了淺層分析(如排序)。占總量近60%的語音、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)還難以進(jìn)行有效的分析。

大數(shù)據(jù)分析技術(shù)的發(fā)展需要在兩個(gè)方面取得突破,一是對(duì)體量龐大的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高效率的深度分析,挖掘隱性知識(shí),如從自然語言構(gòu)成的文本網(wǎng)頁中理解和識(shí)別語義、情感、意圖等;二是對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,將海量復(fù)雜多源的語音、圖像和視頻數(shù)轉(zhuǎn)化為機(jī)器可識(shí)別的、具有明確語義的信息,進(jìn)而從中提取有用的知識(shí)。

4、大數(shù)據(jù)可視化技術(shù)

數(shù)據(jù)可視化是一個(gè)處于不斷演變之中的概念,其邊界在不斷地?cái)U(kuò)大。主要指的是技術(shù)上較為高級(jí)的技術(shù)方法,而這些技術(shù)方法允許利用圖形、圖像處理、計(jì)算機(jī)視覺以及用戶界面,通過表達(dá)、建模以及對(duì)立體、表面、屬性以及動(dòng)畫的顯示,對(duì)數(shù)據(jù)加以可視化解釋。與立體建模之類的特殊技術(shù)方法相比,數(shù)據(jù)可視化所涵蓋的技術(shù)方法要廣泛得多。

數(shù)據(jù)可視化技術(shù)主要是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)等。它涉及到計(jì)算機(jī)圖形學(xué)、圖像處理、計(jì)算機(jī)視覺、計(jì)算機(jī)輔助設(shè)計(jì)等多個(gè)領(lǐng)域,成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術(shù)。

5、大數(shù)據(jù)安全技術(shù)

大數(shù)據(jù)安全是個(gè)很寬泛的領(lǐng)域,可以包括:大數(shù)據(jù)系統(tǒng)的安全,數(shù)據(jù)本身的安全(加密)以及隱私保護(hù),大數(shù)據(jù)應(yīng)用帶來的安全和隱私問題,以及大數(shù)據(jù)技術(shù)應(yīng)用于安全領(lǐng)域。

以 Hadoop 為代表的大數(shù)據(jù)系統(tǒng)早期主要處理公開領(lǐng)域的Web 數(shù)據(jù),因此并沒有在安全上著力,但近年來有了長(zhǎng)足的進(jìn)展,逐步加入了用戶和服務(wù)鑒權(quán)(基于Kerberos),加入HDFS文件權(quán)限,對(duì)數(shù)據(jù)塊的權(quán)限控制,對(duì)任務(wù)的授權(quán),對(duì)網(wǎng)絡(luò)上流動(dòng)數(shù)據(jù)的加密以及DataNode內(nèi)靜態(tài)數(shù)據(jù)的加密等。Intel 的Project Rhino 做了很多有益的嘗試。

數(shù)據(jù)安全首先是靜態(tài)數(shù)據(jù)的安全,主要是訪問權(quán)限控制;其次是動(dòng)態(tài)數(shù)據(jù)的安全,主要是加密和動(dòng)態(tài)審計(jì)能力。目前動(dòng)態(tài)審計(jì)能力主要還是在企業(yè)內(nèi),表現(xiàn)為數(shù)據(jù)泄露防護(hù)技術(shù),對(duì)重要數(shù)據(jù)進(jìn)行分級(jí)、標(biāo)識(shí),實(shí)現(xiàn)跨平臺(tái)(端點(diǎn)、移動(dòng)設(shè)備、網(wǎng)絡(luò)和存儲(chǔ)系統(tǒng))的統(tǒng)一管理。

現(xiàn)在的主流大數(shù)據(jù)使用安全技術(shù)包括:基于同態(tài)加密、支持SQL 的加密數(shù)據(jù)庫,基于加密協(xié)議的多方安全計(jì)算,基于可信計(jì)算環(huán)境的多方安全計(jì)算,基于隱私保護(hù)的機(jī)器學(xué)習(xí)算法等。

大數(shù)據(jù)中心

專題研究中心MORE+
  • 新能源產(chǎn)業(yè)

    近年來,在傳統(tǒng)能源供應(yīng)日趨緊張,環(huán)境保護(hù)壓力加大的背景下,新能源成為我國(guó)重要的能源戰(zhàn)略。

  • 生物產(chǎn)業(yè)

    隨著現(xiàn)代生命科學(xué)快速發(fā)展,以及生物技術(shù)與信息、材料、能源等技術(shù)加速融合,高通量測(cè)序、基因組編輯和生物信息分析等現(xiàn)代生物技術(shù)突破與產(chǎn)業(yè)化快速演進(jìn),生物經(jīng)濟(jì)正加速成為繼信息經(jīng)濟(jì)后新的經(jīng)濟(jì)形態(tài),對(duì)人類生產(chǎn)生活產(chǎn)生深遠(yuǎn)影響。

  • 新能源汽車產(chǎn)業(yè)

    新能源汽車行業(yè)涉及國(guó)家能源安全、環(huán)保以及汽車產(chǎn)業(yè)興衰等,目前世界主要汽車大國(guó)美/歐/日/韓等都已相繼對(duì)新能源汽車行業(yè)進(jìn)行了一系列戰(zhàn)略布局,國(guó)內(nèi)主要車企也相繼提出了各自的新能源汽車戰(zhàn)略,新能源汽車產(chǎn)業(yè)化、本土化浪潮勢(shì)不可擋。

 

免費(fèi)咨詢熱線:400-6630-998

地址:深圳市南山區(qū)深南大道9030號(hào)沙河世紀(jì)假日廣場(chǎng)B座507

郵箱:info@qhztzx.com

官網(wǎng):xf1people.com

手機(jī)版網(wǎng)站前海中泰咨詢移動(dòng)端微信訂閱號(hào)前海中泰咨詢 - 訂閱號(hào)微信服務(wù)號(hào)前海中泰研究咨詢 - 12cm.jpg

聯(lián)系我們 | 網(wǎng)站地圖 Copyright ? 2017 前海中泰(深圳)研究咨詢控股有限公司 粵ICP備17093436號(hào)-1 Powered by szweb
0755-32919669 深圳前海中泰咨詢公司微信 在線咨詢