大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。大数据的 3Vs 定义是目前为止最受推崇且最广为人知的说法。3Vs由 Gartner 的分析师 Doug Laney 最早在 2001 年时提出,分别代表资料量 Volume、资料传输速度 Velocity、资料类型 Variety。从那之后,便有人在 3Vs 之外陆续提出更多「V」, Veracity、Validity、 Value、Visibility 等,其中又以 Veracity (真实性)最被普遍认同。

随着云时代的来临,大数据也吸引了越来越多的关注。着云台的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据的作用

对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、 数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、 多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中, 将创造出巨大的经济和社会价值。

大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。 在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储 处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据 挖掘技术和软件产品的发展。

大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从”业务驱动” 转变成”数据驱动”。对大数据的分析可 以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企 业为消费者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据 也开始发挥促进经济发展、维护社会稳定等方面的重要作用。

大数据时代科学研究的方法手段将发生重大改变。例如,抽样调查是社会科学的基本研究方法。在大数据时代, 可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。