返回顶部
分享到

图数据库和图计算的区别,终于有人讲明确了

科技 2023-1-2 04:11 509人浏览 0人回复
摘要

前所未有的本事假如你还猜疑关系型数据库的局限性,那么请想象一下,使用关系型数据库管理体系,是否能够办理以下问题:怎样找到一个人朋侪的朋侪的朋侪……?怎样(及时)找到一个账户与多个黑名单账户之间的关联路

前所未有的本事

假如你还猜疑关系型数据库的局限性,那么请想象一下,使用关系型数据库管理体系,是否能够办理以下问题:

  • 怎样找到一个人朋侪的朋侪的朋侪……?
  • 怎样(及时)找到一个账户与多个黑名单账户之间的关联路径?
  • 怎样判断某个时间段内两个账户之间的交易(或交易记载)是否正常?
  • 在一个供应链网络中,假如一个北美的制造厂/工厂停工,将会给韩国的百货阛阓旗舰店带来什么样的影响?
  • 在货运、电力传输、通信网络中,假如一个网络节点或服务停运(下线),受到波及和影响的范围有多大?
  • 在大健康领域,假如一个用户提交他的电子病历和健康档案,是否可以提供及时个性化的重大疾病保险推荐服务?
  • 在反洗钱的场景中,怎样知晓一个账户持有者把他的资金通过多层中心人的账户转账后,最终再重新汇入他本身(或其他关系人)的账户中?
  • 现有的搜索引擎只可以进行一维的、基于关键字的搜索,比方输入“牛顿与成吉思汗”,怎样返回任何有实质意义的、关联发散的结果?
  • 在一张知识图谱中,怎样找到多个知识实体间所形成的两两关联的网络?雷同地,在一个由通话记载构成的大网中,怎样找到1000个犯罪嫌疑人所构成的两两之间的6度以内的关联网络?

以上9个问题仅列举了传统数据管理体系(固然也包罗其他的NoSQL或大数据框架)或搜索引擎无法以高效、低代价的方式完成的浩繁挑战中的一小部分。图1展示了使用图进行网络分析,与其他类型的数据源不同,其可灵敏应对变化、未知的数据关系与类型以及能高效处理海量数据。

在及时图数据库和图计算引擎的资助下,我们可以及时地在不同数据间找到深度关联关系。举例来说,基于百科全书的知识体系而构建的知识图谱数据会合(一张大图,图中的顶点是一个个的知识点,而边则是知识点之间的关联关系),通过图引擎可以及时计算出如图1、图2所示路径。

图数据库和图计算的区别,终于有人讲明确了

▲图1 及时搜索最短路径:从牛顿到成吉思汗(表单模式)


图数据库和图计算的区别,终于有人讲明确了

▲图2 及时搜索最短路径:从牛顿到成吉思汗(图形模式)

与传统的搜索引擎不同,当搜索时,你期待的返回结果不再是单一的网页、链接排序,而是更为复杂、多边甚至全面的关联关系,搜索引擎不会返回为空、答非所问或无实际意义的答案,在及时图计算引擎的支撑下,它可以返回最优的、人脑都无法企及的智能路径。假如仔细观察图2中的路径,你会发现这些实体与关联关系所形成的每一条路径存在着强因果关系。通过这种“高维”搜索引擎返回的有强因果关系的路径,一环扣一环,其中蕴含的知识体量与密度(熵值)远高于传统的基于倒排索引和PageRank算法的互联网搜索引擎。而且,以上所有过程在图数据库支撑下都是及时完成,返回最优(不一定是最短)路径。假如用户对展望将来更感爱好,可以改变筛选过滤和调解条件,比方设置相关顶点(或节点)与边的参数(或属性),并按照一定的模板逻辑来实现搜索等,如图3所示。

图数据库和图计算的区别,终于有人讲明确了

▲图3 及时动态图过滤与剪枝(通过图搜索过滤)

很显然,随着过滤条件变得更苛刻,搜索返回结果的路径变得更长了(从5层增加为7层),但是搜索时间并没有指数级增长。这是及时图计算引擎的一个很紧张的本事—对子图的动态剪枝本事,一边搜索,一边过滤(剪枝)。缺乏这种本事的图数据库绝无大概成为有商业应用前景的及时图数据库。

图4展示了由以上路径动态天生的子图的2D空间可视化结果。

图数据库和图计算的区别,终于有人讲明确了


▲图4 通过图过滤后形成的多层关联

另一个实例是通过对转账、汇款、取现等交易的数据流进行追踪来实实际时反洗钱监测。图5中左边最大的点是资金流出方,经过10层中心账号不断转账转发,最终汇聚在右边的小点(账户)位置。除非经过10层以上的深层发掘,否则你很难发现数据(资金)的真正流向,以及它们背后的真正意图。对于各国的金融羁系机构而言,及时图数据库与图计算的意义不问可知—当犯罪分子在以图的方式规避羁系的时候,他们会通过构造深层的图模子来躲避反洗钱追踪,而羁系机构只有使用具备深度穿透分析本事的图数据库才能让犯罪分子无处遁形。

图数据库和图计算的区别,终于有人讲明确了


▲图5 资金流向图

绝大多数人都知道“蝴蝶效应”,就是在数据和信息的海洋中捕捉从一个(或多个)实体到遥远的别的一个(或多个)实体间玄妙的关联关系。从数据处理框架的角度来看,假如没有图计算的资助,蝴蝶效应是极难被发现的。有人会说随着算力的指数级增强,将来总有一天我们会实现,笔者以为,这一天已经到来!及时图数据库就是进行蝴蝶效应计算、查询的最佳工具。

在2017年,着名数据分析公司Gartner提出了一个5层的数据分析模子,如图6所示。

图数据库和图计算的区别,终于有人讲明确了


▲图6 Gartner 5层数据分析模子

在图6中,数据分析的将来在于“网络分析”,或称为实体链接分析,建立这个体系只能依赖图数据库。图计算体系把数据以网络拓扑布局的方式构建,并征采网络内的关联关系,它的服从远超关系型数据库管理体系。关系型数据库通过表毗连来进行计算,它大概永久无法完成雷同的任务。

数据分析(技能)的发展是商业发展的一定结果,它提高了数据处理的科技水平。在图6中,从第1层到第2层可以视为数据分析领域内从单机应用到互联应用的提升;第3层是渠道中心化数据分析,它经常发生在一个公司的渠道或部门的内部;第4层的特点是跨渠道,它要求大型公司内的不同渠道进行数据分享,从而最大程度发掘数据的代价,你必须合并各个渠道搜集到的不同类数据,并把它们视为一个团体,由此来进行网络化分析(比方交际网络分析)。这种通用的、跨部门、跨数据集的多维数据间关联分析需求的挑战,只有图数据库才能完善实现。

图计算与图数据库的差别

图计算(graph computing)与图数据库(graph database)之间的差别是很多刚打仗图的人不容易厘清的。只管在很多情况下,图计算可以和图数据库混用、通用。但是,它们之间存在很多不同,笔者认为有须要单独做个先容。

图计算可以简单地等同于图处理框架(graph processing frameworks)、图计算引擎(graph computing engines),它的紧张工作是对已有的数据进行计算和分析。图计算框架多数都出自学术界,这个和图论自20世纪60年代与计算机学科发生学科交叉并一直不断演化有关。

图计算框架在过去20年中的紧张发展是在OLAP(Online Analytical Processing,联机分析处理)场景中进行数据批处理。

图数据库的出现要晚得多,最早可以称之为图数据库的也要到20世纪90年代,而真正的属性图或原生图技能在2011年后才出现。

图数据库的框架紧张功能可以分为三大部分:存储、计算与面向应用的服务(比方数据分析、决策方案提供、猜测等)。其中计算部分,包罗图计算,但是图数据库通常可以处理AP与TP类操纵,也就是说可以兼顾OLAP与OLTP(Online Transactional Processing,在线事务处理),两者的结合也衍生出了新的HTAP类型的图数据库,第3章会详细先容它的原理。简言之,从功能角度上看,图数据库是图计算的超集。

但是,图计算与图数据库有个紧张的差别点:图计算通常只关注和处理静态的数据,而图数据库则能处理动态的数据。换言之,图数据库在数据动态变化的同时能保证数据的一致性,并能完成业务需求。这两者的区别基本上也是AP和TP类操纵的区别之所在。

多数图计算框架都源自学术界,其关注的要点和场景与工业界的图数据库有很大的不同。前者在创建之初多数面向静态的磁盘文件,通过预处理、加载入磁盘或内存后进行处理;而后者,特殊是在金融、通信、物联网等场景中,其数据是不断流动、频仍更新的。静态的计算框架不大概满足各类业务场景的需求,这也催化了图数据库的不断迭代,从以OLAP为主的场景开始,直至发展到可以实现OLTP类型的及时、动态数据处理。

另一方面,由于历史原因,图计算框架所面对的数据集通常都是一些路网数据、交际网络数据。在交际网络中的关系类型非常简单(比方:关注),任何两个用户间只存在一条边,这种图也称为单边图(simple graph),而在金融交易网络中,两个账户之间的转账关系可以形成非常多的边(每一条边代表一笔交易),这种图称为多边图(multi-graph)。显然,用单边图来表达多边图会造成信息缺失,大概通过增加大量点、边来实现从而达到同样的结果(得不偿失,且会造成图上处理服从低下)。

再者,图计算框架一般只关注图本身的拓扑布局,并不必要理会图上的点和边的复杂属性问题,而这对于图数据库而言则是必须关注的。

图计算与图数据库的别的两个差别点如下:

1)图计算框架中能提供的算法一般都比力简单,换言之,在图中的处理深度都比力浅,比方PageRank、LPA标签流传、联通分量、三角形计数等算法,图计算框架大概会面向海量的数据,而且在高度分布式的集群框架上运行,但是每个算法的复杂度并不高。图数据库所面对的查询复杂度、算法丰富度远超图计算框架,比方5层以上的深度路径查询、K邻查询、复杂的随机游走算法、大图上的鲁汶社区辨认算法、图嵌入算法、复杂业务逻辑的实现与支持等。

2)图计算框架的运行接口通常是API调用,而图数据库则必要提供更丰富的编程接口,比方API、各种语言的SDK,可视化的图数据库管理及操纵界面,以及最紧张的图查询语言。熟悉关系型数据库的读者一定不会对SQL生疏,而图数据库对应的查询语言是GQL,通过GQL可以实现复杂的查询、计算、算法调用和业务逻辑。

图计算与图数据库的差别梳理见表1。

表1 图计算与图数据库的差别

图数据库和图计算的区别,终于有人讲明确了

图数据库和图计算的区别,终于有人讲明确了

通过本文的配景先容,希望读者能够做好准备,更好地进入图数据库的天下。

本文暂无评论,快来抢沙发!

最新问答
天盟传媒网是一个由会员自行发布传媒的平台,一家集新闻稿发布平台,软文发稿平台,广告交易平台,媒体投放平台,为一体的全网媒体资源自助发布平台。尽一网在手,晓其所有!人人都是传媒者!。
  • 官方手机版

  • 微信公众号

  • 客户端下载