大内高手社区 › 首页 › 互联网资讯 ›

分享到

阿里和 Google 都在布局的图数据库，会如何改变世界？

互联网资讯 2022-7-30 17:28 949人浏览 0人回复

收藏分享邀请

摘要

阿里和 Google 都在布局的图数据库，会如何改变世界？以下文章来源于Founder Park数据成为了新的生产要素，如何管理数据成为了新的创新方向。据 Gartner 2021 年报告预测，随着对数据隐性关联实时洞察日益增长的需求 ...

阿里和 Google 都在布局的图数据库，会如何改变世界？

以下文章来源于Founder Park

数据成为了新的生产要素，如何管理数据成为了新的创新方向。

据 Gartner 2021 年报告预测，随着对数据隐性关联实时洞察日益增长的需求，到 2023 年，全球 30% 的企业都将使用图技术来支撑其智能商业决策；

到 2024 年，图存储和图分析将全面替代旧有的目录式数据资产管理，成为新的数据资产管理方案。

图技术的核心——图数据库也越来越受到关注。在计算机领域，图数据库（Graph Database，简称 GDB）是一种使用图结构进行语义查询的数据库，用顶点、边和属性来表示和存储数据。

在美国市场调研机构 Reports and Data 预测中，图数据库广泛应用在金融、IT、生物医药、物流、电商零售、政府等领域，有着将逾千亿美元市场规模。鉴于其前景，图数据库也成为阿里、腾讯和谷歌等科技巨头战略布局的标配。

最近我们邀请了商业图数据库公司创邻科技的创始人兼 CEO 张晨，和他聊了聊，图数据库热闹背后，有哪些你还不知道的认知？

1、图数据库能够得到蓬勃的发展有两个核心支撑点，一个是海量的数据，另一个是爆发性的场景和关联需求。

2、关系型数据库主要是为了管理数据，而图数据库本质上是为了管理关联。

3、人口红利带来了数据红利，数据红利背后是场景创新红利，这最终可能会让我们在技术上弯道超车。

4、图技术提供的是一套联通数据、并挖掘关联价值的机制，它会成为各种智能经济底层的一个标配基础设施。

5、便宜就是贵，我们要计算的是产品全生命周期的成本。

6、原生对于技术上的意义来讲，可以实现极致性能。

图数据库的商业化现状

Founder Park：图数据库和传统关系型数据库之间的区别？

张晨：既有关联又有区别。关系型数据库主要是为了管理数据，在某一个分支上进行深度数据管理和查询的，而图数据库本质上是为了管理关联。

它们的价值点其实是不一样的，两者有协同性，又有各自的用武之地。

比如，在银行的场景中，关系型数据库中有 800 列也就是 800 个字段的 Excel 表格表，但其中可能只有 20 列有关联筛选的需求。这时，我们会把这 20 列放到图数据库中，剩下的继续用关系型数据库。

最近低代码和无代码很流行，这背后其实是在一个数据快速迭代、交错的世界，让那些不会编程，也没有学习复杂的数据库系统的业务人员也能快速发挥数据的价值。而图数据库能够实现灵活建模和快速迭代。

因为图数据的基本结构由实体和关系构成的网络拓扑结构。你可以把它想象成水晶球和水晶线。本来图上可能有了两个水晶球加一条水晶线，我现在来了一个数据源，我再加一个水晶球或者再多加两条线，就是这么简单。

这就使得原来可能需要长时间跨表关联、复杂计算的流程，变成一个非常简单连点成线的过程，能够实现快速迭代。这是图和关系型的一个重要的区别。

第二个重要的区别在于：我们想象这样一个社交网络，我的兄弟姐妹彼此又认识谁，又给谁打过电话。现在我想查一查，过去给我打过电话的人又给我的朋友打过几个电话。这用关系型数据库的查询语句描述起来很复杂，而用图的查询语言，一两句话就可以搞定。

第三个区别体现在：当我们做复杂关联查询的时候。比如找企业的上游二供应商生产了哪些残次品并运输给了下游哪些门店，这个关联链条就很长了。关系型数据库无法有效完成这样的深链查询。因为关系型数据库本来设计的目的就是管理简单的单分数据，而不是做多表数据关联。凡是碰到这种深度关联多表查询的情况，关系型数据库会比图数据库慢千倍万倍，甚至根本无法完成。

Founder Park：我看见有人在说图数据库现在商业化很鸡肋，用了那么久了，一讲就还是防欺诈，你怎么看？

张晨：这个是好事。以前大家都问是不是做图片的，现在知道是可以用图数据库来做反欺诈，说明市场是在发展和逐步成熟的。

当然，我们的市场教育工作还需要进一步深入。让大家从以前的关系型的思维转变成图的思维，让大家能够找出很多以前做不到，现在可以做到并且有巨大价值的场景去使用图数据库。

其实现在图数据库的应用场景已经很广了，除了反欺诈，还有实时营销、网络安全、IT 运维、主数据管理、供应链管理、警情研判等等。大家如果去查相关研报，会发现图数据库应用的市场规模已经很大了，这也是图数据库公司为什么会越来越受到资本欢迎的原因。

Founder Park：很多数据库厂商市场路径选择是先做其他行业，然后再做金融，从农村包围城市，但你为什么一上来就做金融？

张晨：我之所以先选了金融行业，并且深耕金融行业主要的考量在于：

我在运通的工作经历，积累了很多金融机构的服务经验。

同时金融也是一个非常特别的行业，它有海量数据，有很多的创新的需求，在各方面又对于数据库产品的要求又十分严格。先在这个行业获得认可，对于我们到其他行业来说，算是降维打击。

Founder Park：工信部十四五规划里边提出的是突破大规模并行图数据处理的关键技术。这个大规模的技术需求怎么看？

张晨：为什么会有这个需求？因为我们国家人多、场景多，经济发展活跃，商业模式丰富，数据量产生的多，数据之间的关联性大。

当数据量变大的时候，你要考虑的很多设计、算法都不一样。以前数据量小的时候，大家用一台机器就可以搞定很多事情，但现在数据量变大了需要用多台。和单机相比，分布式解决的问题是原来单机跑不动的问题。可以想象渔民有一张很大的渔网，一个机器放不下。我把它剪成了一片片撒出去，每台机器上放一片，原理上可以无限制地把这个渔网变大。

但这也带来了数据传输效率的问题。因大渔网被剪成片，其中一片放到北京了，另外一片在上海。当你数据变得很大时，传输成本就变得很高。那数据传输要压缩吗？查询和计算怎么优化？数据如何确保一致性并有效协同？那么多分片，到底是北京先传给上海再传给广州，还是把上海和广州的同时传给北京。这涉及到很多基础问题和难点。

所以国家提出有这样的场景，需要去攻克。今年一月，我们的 Galaxybase 图数据库用 50 台商业机完成了 5 万亿规模交易数据智能挖掘，打破了之前海外厂商用 1000 台机器实现的 1 万亿的世界纪录。

大规模确实给我们带来了很大的挑战。但辩证看，好处在于：数据红利带来了场景创新红利，这最终可能会带来技术上的领先。

Founder Park：在 Galaxybase 图数据库的介绍中，强调的是「超大规模分布式并行原生图平台产品」，超大规模分布式并行都已经说明了，这里面「原生」为什么也很重要？

张晨：原生最简单来说就是自研的概念，本质上就是自己设计底层的存储结构和系统。

如果底层的是自成体系的一个「黑盒子」系统，性能调优、故障追溯等困难我们都抛开不谈，它带来的最大隐患，就是最近俄乌战争中，俄罗斯的一些关键软件被制裁，导致整个系统不可用。原生保证了我们的产品是全自主可控的。

原生对于技术上的意义来讲，可以实现极致性能。

这里想象一个场景，大家坐在一起，当我说「握拳」时，我自己拳头能很快握起来，但屋子里的其他人很可能不同步，因为大家要么没听见、要么不理解为什么，所以动作慢了。这里大家的心理和行动，对我来说都是一个黑盒子状态，存在着沟通成本的问题。

从计算机分布式理论来讲，其实分布式计算就是控制数据和计算的切分以及如何优化配置。我自己控制底层，就知道如何更高效实现系统最优，反之则很难实现极致化。

另外，还有一点反常识：便宜就是贵。产品的使用成本，应该计算产品全生命周期的成本，而非仅仅采购成本。如果底层系统突然不给你支持了，如果出现了问题，你敢随便修改吗？而且你要维护两套系统，维护自己和底层的，如果出现问题或故障还不知道是自己的系统出错了还是底层的问题。原生降低了产品的总体使用和运维成本。

不是所有底层技术都适合开源

Founder Park：最近云原生很热，很多新的底层软件都通过开源来做，你们为什么选择了闭源而不是开源？

张晨：借用 CNCF「Cloud Native Computing Foundation，简称 CNCF，云原生计算基金会」一位负责人的话，「开源之前你要想清楚，你创造了什么价值，然后你要给你自己保留什么样的价值」。

我们曾和一个 Gartner 的资深分析师交流，他分享了一些让人震惊的事实：大部分开源软件都非常缺乏能够全栈或者广泛的真正开源贡献者，大多贡献者都是花钱请来的，这就是为什么成功的开源软件，大多有大厂在背后持续造血支持的原因。

从实操的角度来说，新的开源图数据库产品，很难获得足够的社区贡献。在用户基数更大的小数据市场上，Neo4j 的社区版作为成功的图数据库开源软件，具备非常完备的生态，使用体验好还是免费的，这块机会不大了。从大数据市场来说，用户群体偏行业头部，开源并不是他们商业决策的主要依据，反而是优质、持续、稳定的服务。所以我们选择了离商业化更近的闭源路径，保证公司更加稳健的现金流做好核心技术、为客户提供持续稳定的优质服务。

当然，目前我们没有选择开源，不意味着我们不看好开源。开源是否合适取决于场景和产品类型。当产品具备开发出充分自闭环、且足够厚的独立商业价值空间时，开源是一个很好的选择。

Founder Park：图数据库往前发展还面临着什么样的挑战？

张晨：图数据库技术从 02 年可能是第一行代码，07 年商业化起步 Neo4j 诞生，到现在差不多 20 年了。底层技术进入主流大众市场平均需要 25-35 年时间。图数据库技术确实在爆发期的前夜。从技术成熟度来说，我们现在类比是 win98 水平，和 win10 还是差得很远，要进入大众市场还有很多的基础工作需要做。目前图数据库其实还没有形成足够多的杀手级应用领域，使得我们成为每个领域都有的固定技术栈中的一员。另外，行业里尚且缺乏统一查询语言标准，以及评估产品的测试方法的共识，这也一定程度地阻碍了行业的快速发展。

Founder Park：你怎么看图数据库的未来？

张晨：本质上来说，图技术提供的是一套联通数据、并挖掘关联价值的机制。

连接产生网络效应，单片数据的资产价值就被增益了，在广泛增益的数据资产价值平台上面就可以做很多的事情。而图是它最底层的核心连接器、数据连接桥梁和业务赋能者，这是图数据库的未来。

我认为未来的图数据库最终会发展形成一个智能平台，把存储和计算融合起来，结合各类原子算法成为系统能力，提供给各行各业使用。这里图数据库技术还有很大的发展空间：比如，实现 OLTP 和 OLAP 的融合；具备时序能力、能够把时空数据融合起来等等。但不管怎样，图技术必将一步步地走向商业生活的日常，成为智能经济底层的核心基础设施。

创业就是要做

「难而正确」的事情

Founder Park：创业前你的经历是什么样的？怎么就走上了创业？

张晨：2004 年，我大学毕业后选择了出国留学，做分布式并行计算系统的研究。在博士后期间，美国运通向我抛来了橄榄枝。我去做了他们的第一位大数据科学家，写了运通第一批大数据挖掘与机器学习的风控算法。

有一天，我接到了一个神奇的电话，说让我延续梦想，本以为是骗子，结果真不是。原来是我博士论文的成果被一个硅谷公司给产业化。当时我对创业很感兴趣，就加入了这家公司，做了世界首款基于 hadoop 的分布式的关系型数据库。

在这个时候，我碰到的问题：不再是运通从小数据变大数据，而是很多已经变大的数据之间要建立桥梁。数量达 20 至 30 个多表关联的需求用分布式关系型数据库，没有很好的解决办法。

我当时觉得这本质上是个图的问题，想看看是否有图相关的产品能够去解决，结果这些产品因为不具备海量高扩展的能力而无法满足需求。这引发了我的思考：也许可以做这样一个技术，能够从底层数据库的角度去支撑分布式并行海量数据的管理。

在要不要自己下场去做一家公司上，电影《黑客帝国》给了我很大的信心：未来世界是深度数字化的，我们不应该把它变成一张张孤立的行和列的 Excel 表格去表达，而应该从最原子的数据单元开始用关联的数据网络去表达，我认为这是一个重要的趋势。

当然我们也做了详细的调研，结果显示，超过 3/4 的全球百强企业，他们的场景需求和图高度相关的：随着业务数据体量的爆发式增长，它们之间的复杂关联也呈几何级增加。当前的底层的技术已经无法有效支撑这样的数据处理需求。那些现在还可以用的，可能两三年后就用不了了。

所以我们便在加拿大创业做了分布式图数据库公司 Graph Intelligence。

Founder Park：为什么回国创业？

张晨：因为在中国有机会能够诞生出世界顶级的图数据库公司。