大數(shù)據(jù)的4V特征是容量、速度、多樣性和價(jià)值。大數(shù)據(jù)特征的概念是在大數(shù)據(jù)時(shí)代由維克多·勛伯格和肯尼斯·基爾提出的。
體積(質(zhì)量)
到目前為止,人類生產(chǎn)的印刷品總量為200pb,而人類歷史上所說(shuō)的數(shù)據(jù)總量約為5eb。目前,典型的PC機(jī)硬盤(pán)容量為T(mén)B,而一些大型企業(yè)的數(shù)據(jù)量已接近EB級(jí)。
速度(高速)
這是傳統(tǒng)數(shù)據(jù)挖掘中大數(shù)據(jù)領(lǐng)域最顯著的特點(diǎn)。根據(jù)IDC的“數(shù)字世界”報(bào)告,到2020年,全球數(shù)據(jù)使用量預(yù)計(jì)將達(dá)到35.2zb。面對(duì)如此龐大的數(shù)據(jù)量,數(shù)據(jù)處理的效率是企業(yè)的生命。
多樣性(多樣性)
這種典型的多樣性還將數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。與主要存儲(chǔ)在數(shù)據(jù)庫(kù)或文本中的結(jié)構(gòu)變化數(shù)據(jù)相比,非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等。這些多類型的數(shù)據(jù)對(duì)數(shù)據(jù)處理能力提出了更高的要求。
值(值)
值密度與數(shù)據(jù)總量成反比。如何快速“凈化”有價(jià)值的數(shù)據(jù),成為大數(shù)據(jù)背景下亟待解決的難題。
@xuefen.com.cn 2013-2022 閩ICP備2023010389號(hào)-3 最近更新