首页 > 大数据 > 正文

大规模流数据的机遇与挑战

2018-11-05 10:15:35  来源:大数据观察

摘要:过去十几年,随着智能手机的普及以及移动大红鹰网站登录的发展,移动应用层出不穷。这些应用涉及即时通信、社交网络以及网络购物等各个方面,并实时地产生大量的数据。这些数据本质上是现实世界人、事、物及其交互的一种深入量化。对这些数据的及时分析与挖掘能够产生高价值的信息,进而改进人们生活的多个方面。
关键词: 图数据
  图数据流是最近几年才受到广泛关注的前沿科研领域,其兴起主要是源于新时代下移动应用实时产生的大规模复杂数据。

\
  过去十几年,随着智能手机的普及以及移动大红鹰网站登录的发展,移动应用层出不穷。这些应用涉及即时通信、社交网络以及网络购物等各个方面,并实时地产生大量的数据。这些数据本质上是现实世界人、事、物及其交互的一种深入量化。对这些数据的及时分析与挖掘能够产生高价值的信息,进而改进人们生活的多个方面。

  例如,微信、微博等社交网络上有庞大的活跃用户,这些用户对社交网络而言更像是分布在各地的“传感器”,将各自的活动区域内的热点见闻“报告”在社交网络上。如在地震等自然灾害发生时,人们可以通过社交网络实时传递和获取相关的灾情。因此,这些应用数据具有极大的分析研究价值。

  尽管移动应用数据蕴含着高价值的信息,但这些数据却具有结构复杂、规模庞大、高速增长等特点。人们对不同应用有不同的需求,这决定了移动应用数据是复杂多样的,而针对同一应用产生的数据,不同的数据分析方也会有不同的数据需求。

  例如,针对社交网络的数据,研究社交心理的人更关注用户以及用户间的好友关系与交互行为,而广告媒体的从业人员则更关心平台上发文内容中的产品或话题信息。人们对数据的多样化的需求决定了移动应用数据的复杂性。

  数量众多的软件及其庞大的用户量决定了相关数据的海量规模。例如,微信的月活跃用户数已超过了10亿,而用户之间的交互则会带来更大规模的数据,包括语音、视频、图片以及相关的文本等。这些大规模的复杂数据还在实时地高速增长,如社交网络每天以亿级别的发文、轨道交通应用形成的大规模定位与轨迹信息以及网络通信中的数据传播等。

  传统的关系型数据管理模型虽然已有众多标准规范和技术积淀,但仍难以管理复杂多变的数据。

  一方面,数据的关系框架的设计成本较高,既定的数据框架结构很难适应数据种类、格式的频繁变化;

  另一方面,关系型数据库中,基于关联信息的计算代价很高,如表格的联结操作等,这使得在大规模数据场景下关系型数据库管理模型难以满足数据分析处理的需求。

  图模型的点、边元素非常适用于建模复杂数据中的对象以及对象间的关联和交互,点和边上的属性、标签以及相关数据等的自由定义使得图模型能够很容易地以统一的形式表达不同的对象及其间的交互行为。

  例如,在社交网络上,基于用户好友关系建模的图和以文本关键字共现关联建模的图可以很容易通过增加用户与文本的发表关系快速融合成一个图。因此,图模型非常适合用来建模大规模复杂数据。然而,图模型上的计算却很难应对图数据高速更新的场景。

  图数据上的计算往往通过构建复杂的索引来加速查询。在静态图数据上,因为索引只需要离线构建一次,所以高构建代价对整体性能的影响有限。而在图数据高速更新的场景下,索引也需要频繁更新,越是复杂的索引往往更新越困难,甚至需要完全重新构建。尽管索引能够加速查询,但在流场景下的频繁索引更新也会严重影响整体性能。

  数据流模型及其相关研究虽然都有针对数据更新的设计,但已有的数据流模型中缺少对图结构数据的支持。数据流中的元素往往具有统一简单的格式,并且元素之间相对独立,缺少对对象关联的建模。因此,数据流模型的相关算法也很难扩展到需要图模型建模的复杂数据上。

  在大规模复杂数据流的场景下,已有的图与数据流相关的模型和算法均有明显缺陷。尽管大规模实时更新的复杂数据给人们带来了获取高价值信息的重大机遇,但也带来了数据管理和计算上的巨大挑战。人们急需一种既能够为复杂数据建模,又能够应对更新挑战的新的数据模型、技术来满足相应的信息管理需求。
第二十八届CIO班招生
法国布雷斯特商学院MBA班招生
法国布雷斯特商学院硕士班招生
责编:zhangxuefeng
博聚网