数据库一体机:是选择专业硬件还是通用硬件?

张开发
2026/5/9 10:03:33 15 分钟阅读
数据库一体机:是选择专业硬件还是通用硬件?
在上一篇《从Britton-Lee到zData专用硬件和通用硬件之抉择》中我们提到了数据库领域的先驱之一保拉·霍索恩Paula Hawthorn。有朋友对这对伉俪的携手经历很感兴趣我在迈克尔·斯通布雷克Michael Stonebraker的书中找到了一张照片这张照片是Illustra团队的合影如图1所示。图中前排中间的是保拉·霍索恩中排左一为迈克·乌贝尔Michael Ubell。这个团队中每个人都有一个绰号霍索恩的外号是“老妈Mom”、乌贝尔的外号是“小个子Short One”。她们妇夫二人在Britton-Lee之后追随斯通布雷克的第二次创业历程共同发起了Illustra致力于将Postgres商业化。当然照片前排左一正是大家所熟知的Ingres传奇的缔造者迈克尔·斯通布雷克他也是数据库领域第四位图灵奖得主。图1 Illustra团队核心成员图2 戴维·德维特1948.7.20 —我们言归正传。保拉·霍索恩当年投身数据库机领域其实并非受斯通布雷克的影响事实上他甚至反对这一想法。真正对霍索恩产生影响的是另一位数据库领域的大师——戴维·德维特David DeWitt见图2。德维特出生于1948年比斯通布雷克小了5岁。当他1970年进入密歇根大学开始研究生学习时斯通布雷克正在攻读博士学位并且成为了德维特计算机体系结构入门课程的助教。斯通布雷克的博士论文是关于“马尔可夫链”的算法研究然而在撰写论文期间他就意识到这不是一个值得投身的领域。斯通布雷克后来回忆并评价这段经历时说“我当时认为而且至今仍然认为大多数博士论文都是在浪费时间我也认为我的论文是在浪费时间。”然而当时正值越南战争期间斯通布雷克面临的情况是如果毕业离开研究生院他就会被征召入伍。从斯通布雷克面对的越南战争到当下进行中的2026伊朗战争和平总是最宝贵的期待。1971年春天斯通布雷克在阿奇·内勒Arch Naylor的指导下完成了论文。研究生中流传着传言说斯通布雷克与内勒就论文爆发了史诗般的争执甚至有人说他们师徒动了手。德维特说“我从来没有听说过这些争论是关于内容还是风格内勒在写作方面非常严苛”。不过作为导师的内勒可能被斯通布雷克伤了心从那时起到1994年退休内勒再也没有带过研究生——尽管如此他仍将斯通布雷克视为自己最得意的门生。越南战争Vietnam War1955年—1975年简称越战是冷战时期在越南、老挝和柬埔寨进行的一场大规模局部战争主战场位于越南。该战争是第二次世界大战后美国参战人数最多的海外军事冲突对战后国际格局影响深远。斯通布雷克在1971年毕业后来到加利福尼亚大学伯克利分校担任助理教授。他迫切地希望找到新的研究方向发表论文从而拿到终身教职但他一时毫无头绪。每个人身边都可能有一位“点火者”而斯通布雷克就触发了一次伟大的变革。图3 王佑曾一切都是偶然。伯克利的华裔教授王佑曾Eugene Wong见图3正在研究关系型数据库的新进展他建议斯通布雷克阅读一下科德Edgar F. Codd的论文。就这样他们开始了数据库领域相关论文的研究并深深被其吸引。后来他们共同开启了数据库领域的传奇项目——Ingres。王佑曾出生于1934年的中国南京后躲避战乱辗转到美国学习。他比斯通布雷克年长9岁成为了后者的领路人。王佑曾Eugene Wong分别于1955年、1958年和1959年在普林斯顿大学获得电子工程学士、硕士和博士学位。在加入加州大学伯克利分校之前他是剑桥大学的国家科学基金会博士后研究员1959-1960并在纽约的IBM研究中心担任研究员1960-1962。他于1962年加入EECS电气工程与计算机科学系从事数据库管理系统、优化算法、随机过程和神经网络方面的研究工作。1985-1989年他担任系主任在此期间领导该系经历了发展最快的时期使其成为伯克利校园最大的学术部门也是该领域排名最高的部门之一。王教授于1994年从该系退休成为名誉教授。1980年他与Michael Stonebraker和Lawrence A. Rowe共同创建了Relational Technology公司后更名为INGRES公司该公司是数据库软件产品的领先供应商。他于1988年因其在Ingres方面的工作获得ACM软件系统奖并于2005年被授予IEEE创始人奖章。德维特毕业后一度想到加利福尼亚大学伯克利分校工作未果。但他与斯通布雷克保持了非常密切的合作关系。斯通布雷克为德维特提供了早期的Ingres版本供其在课堂上使用并邀请他参加了1977年5月在伯克利举行的第二届“分布式数据管理和计算机网络研讨会”。斯通布雷克在这里发表了他的第一篇关于分布式Ingres的论文。在这次会议上德维特受到斯通布雷克的启发将自己的博士论文研究方向调整为构建并行数据库系统并于1978年初启动了DIRECT项目。在DIRECT项目的实施过程中德维特决定尽可能复用Ingres的代码。斯通布雷克更加调动了Ingres团队帮助德维特解决有关Ingres工作原理的问题其中就包括鲍勃·爱泼斯坦和保拉·霍索恩。图4 《数据库机架构的性能评估》论文封面1981年霍索恩与德维特合作撰写了《数据库机架构的性能评估》A Performance Evaluation of Data Base Machine Architectures一文如图4所示探讨影响数据库机性能的关键因素。这篇论文就是Britton-Lee数据库机创始的理论基础。图5 Gamma系统进程结构1984年德维特在威斯康星大学麦迪逊分校启动了Gamma数据库机项目Gamma Database Machine Project如图5所示并持续到1992年。Gamma运行在使用标准网络技术连接的计算机集群上最初为DEC VAX 11/750其主要贡献包括设计并实现了多种分区技术轮询、范围和散列并将其用于在多台计算机和磁盘上分布数据以及在集群环境中执行关系查询的并行算法和流水线算法。通过广泛的基准测试Gamma成为了首个发布测试结果、证明具备实际“线性可扩展性”的并行DBMS。尽管Gamma项目从未商业化但它通过发表大量技术论文证明了不使用专用硬件亦能实现可扩展性从而对数据库领域产生了深远影响。业界几乎所有成功的Shared-Nothing并行数据库系统都采用了Gamma项目所开发和评估的思想与算法。既然通用硬件亦可实现数据库加速那么剩下的问题就是如何集成。Oracle Exadata提出的概念是“Engineered Systems”其本质定义是基于通用硬件的软硬件集成系统——Engineering Database Hardware and Software Together可谓直指本原。只不过Exadata是基于Oracle的共享存储集群技术Oracle RAC而非Gamma类系统所采用的Shared-Nothing架构。Engineered Systems工程化系统是Oracle提出的软硬件一体化设计理念指通过对数据库软件、操作系统、存储、网络及服务器硬件进行协同设计与深度优化从而实现高性能、高可靠性和高效率的系统整体交付。该概念的核心代表产品是Oracle Exadata。Oracle官方将其定义为“hardware and software engineered together”强调通过端到端集成优化来获得优于通用系统简单组合的性能与效率。云和恩墨zData数据库一体机的缘起正是Engineered Systems理念的一个典型实践。2013年6月EMC以23亿美元收购了以色列的一家初创软件定义存储公司ScaleIO2014年5月希捷以4.5亿美元现金购入了Avago旗下LSI的加速解决方案事业部及存储器组件事业部。云和恩墨创立于2011年是中国市场上数据库解决方案的领导厂商。当时EMC与希捷找到云和恩墨希望通过三方合作来整合一套工程系统——将LSI的闪存、EMC的ScaleIO通过云和恩墨的解决方案能力集成为数据库一体机这便是zData的由来。时至今日云和恩墨初代的zData仍运行在部分用户的生产环境中稳定运行已逾十载。图6 性能、成本、可靠性三者的权衡zData探索至今云和恩墨初心不改。zData的目标是从根本上实现以开放硬件支持通用数据库支持软硬解耦为用户提供稳定可靠、极致性能的统一“数据库运行平台”并确保成本可控。数据库一体机作为用户核心数据系统的关键载体云和恩墨希望破解“不可能三角”如图6所示在保障极致可靠性Reliability与极致性能Performance的前提下同时保持人人可承受的优化的成本Cost。而在中国企业国产化数据库创新应用时代用户正在这三方面面临更严峻的新挑战。面对不同场景zData在满足可靠性与性能需求的前提下推出了不同架构的产品以满足不同用户的成本控制需求。目前zData以存算分离架构满足电信、金融、能源等行业的大型核心应用需求以存算融合架构如图7所示满足制造业、医疗、教育等行业的中等规模核心场景需求在可靠性、性能和成本之间求解最佳模型。图7 zData的存算融合部署架构2023年云和恩墨zData上线某省电力营销2.0系统高效支撑了该省3000万户的供电服务是zData服务核心客户的里程碑事件之一。该系统全面采用国产化设备1000用户并发下的TPS每秒事务处理量稳定达到62843较传统架构提升近3倍随机写IOPS高达2172K顺序读吞吐量达到23.7GB/s1.98秒即可完成上亿条记录的检索运算将复杂查询响应时间压缩至原架构的1/10。zData的上线为该省电力营销系统的实时服务提供了坚实支撑如图8所示。图8 zData在某省电力营销2.0系统的应用实践在数据库一体机的历史上从Exadata到zData这些系统都受到了Gamma数据库机项目开创性研究的影响。在新的时代里通用硬件和软件优化成为行业不断努力的目标。戴维·德维特的Gamma系统还深刻影响了一系列数据库产品的构建这其中包括IBM DB2 Parallel Edition、Informix Version 8、Tandem Non-stop SQL、Vertica、Netezza、DATAAllegro、Greenplum、Aster Data和ParAccel等。因在Gamma系统中的贡献德维特于1995年当选ACM会士“Gamma并行数据库系统”亦于2008年荣获ACM软件系统奖。话说戴维·德维特可能是拉里·埃里森最痛恨的人之一。1983年德维特发布了首个科学的数据库评测基准——威斯康星基准。该基准不再只看单一任务而是通过复杂的SQL组合来测试系统的性能瓶颈。德维特用该基准测试发现Oracle性能不佳并公开了结果这激怒了拉里·埃里森。埃里森甚至试图施压威斯康星大学解雇德维特。Oracle后来在其软件许可协议中加入了一条禁止用户在未经允许的情况下发布性能评测结果。这一条款被业界戏称为“德维特条款”至今仍出现在许多数据库巨头的合同中。图灵奖得主、数据库领域的另一位传奇人物吉姆·格雷Jim Gray曾多次在公开场合和论文中引用德维特的工作作为并行计算的黄金标准。1992年吉姆·格雷和戴维·德维特联合发表了并行数据库领域的里程碑论文Parallel Database Systems: The Future of High Performance Database Systems。在这篇论文中他们系统性地提出了并行数据库的定义。由于德维特主导了Gamma系统的绝大部分工程实现格雷在后来的访谈中多次将并行数据库的实用化归功于德维特德维特也被很多人称为“并行数据库之父”。2008年微软聘请德维特成立麦迪逊实验室称其为“数据库领域的传奇”并强调他将把“并行数据库的基因”带入微软产品线。当时微软斥巨资收购了并行数据库公司DATAllegro德维特的任务是带领团队将DATAllegro的MPP大规模并行处理架构与微软的SQL Server核心进行深度融合这便是后来PDWSQL Server Parallel Data Warehouse的雏形。在PDW的演进过程中德维特意识到结构化数据SQL与非结构化数据Hadoop/HDFS不应是两个孤岛因而主导开发了PolyBase。这项技术允许用户使用标准的T-SQL语句直接查询存储在Hadoop或Azure Blob Storage中的数据而无需了解MapReduce或复杂的编程。同时他将并行数据库的“谓词下推Predicate Pushdown”和“并行数据移动”算法应用到了异构数据源之间极大地提升了混合数据环境下的查询效率。PDW后来演变为SQL Server APSAnalytics Platform System并最终发展为目前微软云业务的核心——Azure Synapse Analytics。图9 Wei Hong作为本篇的一个延展图1中排左三是一位华人他的名字是Wei Hong见图9斯通布雷克在图灵奖获奖演说中亲切地称其为“EMP1首位员工”。Wei Hong是Ingres团队中率先加入Illustra的两位明星之一也是该公司的第一位员工。他的数据库生涯受到开源的深刻影响。据Wei Hong回忆1985年他在清华大学首次接触到Ingres代码的打印件。当时他们将代码手工逐行输入到计算机中最终成功使其运行由此开启了对数据库技术的深入研究。1989年夏天Wei Hong加入了斯通布雷克在加州大学伯克利分校的研究小组并在那里获得博士学位。从他的经历中我们可以看到开源技术真的改变了很多人的人生。Wei Hong现任谷歌数据基础设施与分析DIA团队工程总监负责流式数据处理领域包括构建和维护谷歌广告与商业部门中一些最关键收入数据管道的相关基础设施。加入谷歌之前他曾联合创办并领导三家初创公司与斯通布雷克在数据库系统领域共同创立的Illustra和Cohera以及在物联网领域的Arch Rock。他还曾在Informix、PeopleSoft、Cisco和Nest担任高级工程领导职位。他曾是英特尔研究院伯克利分院的资深研究员从事传感器网络和流式数据库系统的研究工作并荣获ACM SIGMOD时间检验奖Test of Time Award。他是80项专利的共同发明人拥有加州大学伯克利分校的博士学位以及清华大学的硕士和学士学位。又及INGRES公司于1988年上市。IPO前三位联合创始人的持股比例分别为Lawrence Rowe 5.3%、斯通布雷克5.3%、王佑曾5.1%。INGRES公司IPO前后的主要股东持股情况如图10所示。王佑曾退休后参与了中国的很多科技建设。1994年至1996年间他曾经担任香港科技大学副校长并于2001年出任董建华任期内的香港创新科技顾问委员会主席。图10 INGRES公司IPO前后的主要股东持股情况参考文献https://awards.acm.org/award_winners/dewitt_1251768Making Databases Workhttps://en.wikipedia.org/wiki/David_DeWitthttps://www2.eecs.berkeley.edu/Faculty/Homepages/wong.htmlhttps://academicians.sinica.edu.tw/index.php?racademician-n%2Fshowid185

更多文章