數據敏捷,HTAP數據庫既決效率又決生死
數據庫發(fā)展的這50多年以來,聯(lián)機事務處理OLTP和聯(lián)機分析處理OLAP兩條道路上的風風雨雨,源自用戶需求的驅動,也經歷了漫長的“融合-分離-再融合”的演進過程。
但是,在沒有出現(xiàn)新一代HTAP數據庫前,想要實現(xiàn)數據敏捷卻很困難。為什么?
實際上,在同時支持OLTP和OLAP場景的HTAP數據庫技術迭代之路上,一直存在著“改革派”與“改良派”兩大陣營,他們從兩條路徑上探索著“數據敏捷”。
“改良派”基于結合中間件的模式來實現(xiàn)“OLTP+OLAP”的HTAP,在規(guī)模擴展與性能提升兩個重要方面都受限。一方面,基于中間件實現(xiàn)的HTAP,其數據必須匯聚到中間件節(jié)點,然后再執(zhí)行,速度必然就上不來,難以實現(xiàn)高性能;另一方面,數據節(jié)點之間靠中間件來匯聚實現(xiàn)交互,數據節(jié)點也就成了孤島,規(guī);瘮U展受限不說,分布式事務也難以支持。
作為HTAP數據庫最早的改革派代表之一,SAP HANA 通過內存數據庫實現(xiàn)了強大的混合負載能力,實現(xiàn)了很高的性能,快是快,但數據量有限,畢竟基于單一存儲架構,在規(guī);瘮U展上容易受限。更令眾多用戶望而卻步的是HANA“貴且專有”,僅在使用SAP的大企業(yè)有少量用戶。因而,這一代HTAP并沒有真正擴展起來,也并沒有流行成為數據庫行業(yè)大趨勢。
因為這些不足,所以這類數據庫廠商也很難構建出數據敏捷(Data Agility)的能力。
近年來,隨著互聯(lián)網的發(fā)展,數據爆炸式的狂增,海量、實時、在線的需求越來越廣泛,大量采用MySQL和PostgreSQL(PG)開源數據庫的新一代企業(yè),在針對提升熱數據的實時在線分析能力上有著強烈的需求,特別是從事線上業(yè)務的數字化轉型企業(yè),這類需求尤為強烈。比如電商、游戲、數字媒體、金融科技、網絡安全等互聯(lián)網和數字化業(yè)務,其新鮮數據的實時分析能力,強化了數據敏捷,在很大程度上直接決定了企業(yè)未來發(fā)展的興衰存亡。因為只有構建了數據敏捷,才能實現(xiàn)業(yè)務敏捷。
當新一代HTAP的發(fā)展成為全球數據庫行業(yè)中的大趨勢之時,以Google Cloud谷歌云的AlloyDB、Snowflake的Unistore、PingCAP的TiDB等為代表的新一代“改革派”,不僅打破了過去OLTP和OLAP兩大典型應用場景的傳統(tǒng)定位,獲得了強大的數據實時處理和分析計算能力,而且基于分布式架構,實現(xiàn)了傳統(tǒng)數據庫、數據倉庫難以實現(xiàn)的高性能、高擴展與實時處理能力。與此同時,“改革派”讓數據敏捷(Data Agility)成為了HTAP數據庫發(fā)展的關鍵詞。
目前,有兩大重要原因正在改變著新一代HTAP的市場需求和技術環(huán)境。一是來自用戶實際的實時分析需求在攀升,特別是MySQL和PG開源數據庫用戶對于實時分析的需求在激增,迫切需要擁有HTAP的能力。二是,近些年來隨著公有云的快速迭代發(fā)展,企業(yè)上云從剛需再到全面加速應用落地,分布式與云原生的疊加效應,也正在加速重構企業(yè)數據架構,并進一步影響著HTAP數據庫的發(fā)展。
應盡其用,充分展現(xiàn)數據敏捷的行業(yè)價值
正如PingCAP CEO劉奇之前所言,一個好的數據庫不是寫出來的,而是靠用出來的。在HTAP賽道上,國內外的選手也越來越多,數據庫行業(yè)“HTAP化”趨勢日益明顯,那么新一代HTAP數據庫究竟適合哪些用戶呢?
在早期還沒有誕生新一代HTAP數據庫之時,MySQL和PostgreSQL可以滿足用戶的基本需求,在較小規(guī)模數據量情況下MySQL 數據庫可以應對OLTP實時業(yè)務的挑戰(zhàn)。
后來數據倉庫興起,諸如數據倉庫(Data Warehouse)、數據湖(Data Lake)、湖倉一體(Data Lakehouse)等大數據技術可以處理大規(guī)模的數據量,但無法實現(xiàn)在線服務,可以想象一下,要將Hadoop直接當做一個OLTP數據庫平臺去用,將是多么尷尬的事情。再者,大數據棧要為用戶提供毫秒級別的響應,也是挑戰(zhàn)不小。
但是,新一代HTAP數據庫誕生后,在擴展性、TP與AP融合的HTAP兩個方面得到充分發(fā)揮,成功開辟并構建了一個數據敏捷(Data Agility)的數據庫發(fā)展區(qū)域。以此定位,將為用戶提供更簡單、更易用的新一代HTAP數據庫,這也成為了TiDB的定位。
事實上,全球已有眾多MySQL應用開發(fā)者,他們都需要更具備數據敏捷(Data Agility)的數據庫來承載。因此,新一代HTAP數據庫與傳統(tǒng)數據庫對比有錯明確的錯位。包括Databricks、MongoDB、Confluent、Snowflake、PingCAP等廠商,都基于云生態(tài)而發(fā)展,而得以彰顯其價值。TiDB也成為了云生態(tài)的受益者,發(fā)布了全托管的數據庫即服務(DBaaS)產品TiDB Cloud,為企業(yè)用戶提供開箱即用的TiDB服務。同時TiDB還陸續(xù)上線了亞馬遜云科技與谷歌云的Marketplace,以及阿里云云市場。
在更完整的生態(tài)對接方面,數據庫從來都不是單獨被使用的,而TiDB也在持續(xù)改進和生態(tài)環(huán)境的對接。在新版本中,TiDB引入了用戶級別鎖和TiCDC下的Avro格式向Kafka同步數據的支持。TiDB從6.1版本開始支持兼容MySQL的用戶級別鎖管理,支持GET_LOCK、RELEASE_LOCK、RELEASE_ALL_LOCKS 等鎖管理函數,這使得TiDB得以更好支持現(xiàn)有 ORM框架的生態(tài)。尤其在數據敏捷(Data Agility)方面,TiCDC工具表現(xiàn)出色,支持將TiDB數據庫的增量數據轉換為Avro格式,并發(fā)送到Kafka的方式,這將使得TiDB數據庫與Kafka、Snowflake、SQL Server等眾多生態(tài)系統(tǒng)都連接起來。從而實現(xiàn)對常用的數據格式的支持,降低開發(fā)復雜度。
全球云觀察分析指出,近年來,TiDB快速發(fā)展并獲得先發(fā)優(yōu)勢的秘籍,必然就在于將“數據規(guī)模高擴展性與數據處理實時性”得以有機結合,未來也將充分展現(xiàn)出數據敏捷(Data Agility)定位的行業(yè)應用價值。
Scalability x HTAP雖好,也需要兩大生態(tài)的助攻
然而,Scalability x HTAP雖好,也需要開源和云兩大生態(tài)助攻。
開源優(yōu)勢在于擁有開放生態(tài),敏捷創(chuàng)新與更快迭代速度。不過,在PingCAP聯(lián)合創(chuàng)始人兼CTO黃東旭看來,真正的迭代速度或者說更有價值、更有意義的迭代速度在于開源軟件如何幫助應用開發(fā)者更快地開發(fā)出新應用。
在這之前,PingCAP推出一個OSS Insight.io的開源項目,采用了46億個GitHub事件數據來構建,開源社區(qū)開發(fā)者可以憑借這個OSS Insight開源項目分析工具,多維度深入洞察開源項目的健康狀況,從而獲得有用的價值分析。值得關注的是,PingCAP只用了兩個人一周時間,就成功構建了整個OSS insight網站,其背后卻只有一個 TiDB Cloud 支撐其在線數據、所有數據的分析以及圖表等應用。
可見,通過開源數據庫與云服務融合發(fā)展,新一代HTAP數據庫能夠極大降低應用開發(fā)的復雜性,加速開發(fā)進程,為應用和業(yè)務贏得更多的時間,從而助力數字化企業(yè)趕超行業(yè)對手,占得市場先機。
在過去幾年中,開源與多云的融合發(fā)展,已經凸顯出來了三個關鍵技術賽道,包括云原生、數據技術和人工智能,新一代HTAP數據庫已經融合了這三大關鍵技術,并以云服務方式對外發(fā)展。
基于開源的開放性,通過云原生的靈活性,發(fā)揮公有云帶來的低門檻、更快速、更有業(yè)務友好性,通過與公有云合作,新一代HTAP數據庫在第三方云平臺的公有云上部署,可以應對當前企業(yè)出海,走向全球化發(fā)展面臨的數據挑戰(zhàn)。
然而,并非所有的企業(yè)都會將自己的應用全部上公有云。在發(fā)展to B業(yè)務過程中,大家也清醒地認識到一個事實,在國內的中大型用戶,基本上都采用的是1+N的部署模式,既采用自己數據中心的私有部署模式,同時又在公有云上部署,面向全球發(fā)展出海業(yè)務。為此,一種經典的SQL體驗,多種部署形態(tài)的新一代HTAP數據庫將更利于企業(yè)用戶業(yè)務發(fā)展需要,并助力加速企業(yè)數字化創(chuàng)新。這也是TiDB發(fā)版策略變化的原因所在。
不同于之前DMR開發(fā)里程碑版,PingCAP最新推出了LTS長期支持版TiDB 6.1,采取長期支持版+開發(fā)里程碑版的發(fā)版方式,對外提供服務。TiDB可以最大限度兼顧用戶的快速迭代和穩(wěn)定投產兩大需求。在沒有特定需求開發(fā)的情況下,用戶可以選擇最新的LTS版本投產;如果需求某個DMR發(fā)布的新功能,則可以選擇該版本進行 PoC以及試運行,待到對應的LTS版本發(fā)布后升級TiDB到穩(wěn)定生產狀態(tài)。
全球云觀察分析認為,部署在多云架構上,還保持著開源快速迭代的數據庫服務,可以同時滿足多種企業(yè)級部署模式,提供靈活更多元的開源數據庫應用選擇,來滿足企業(yè)數字化轉型進程的需要。在很大程度上,這更利于實現(xiàn)數據敏捷的行業(yè)價值,體現(xiàn)出了一個開源數據庫廠商重塑行業(yè)格局的決心與信心。從社區(qū)走向商業(yè)化,從互聯(lián)網行業(yè)走向企業(yè)級to B、to G,TiDB也邁向了企業(yè)級發(fā)展的新階段。
此外,在堅持開源開放生態(tài)與云生態(tài)融合制勝的同時,TiDB也不斷在降低應用門檻。一是,成為MySQL生態(tài)圈更好的鄰居。二是,基于開源與云的融合發(fā)展趨勢,持續(xù)兼容更多的生態(tài)組件和生態(tài)產品。未來,TiDB將與整個MySQL生態(tài)和云生態(tài)協(xié)同協(xié)作,助力企業(yè)構建創(chuàng)新業(yè)務構架和實現(xiàn)創(chuàng)新的技術目標。
源于開源帶來的開放性,通過開源數據庫天然和大數據生態(tài)集成,TiDB在增強跨云能力的同時,也對上游向上結合人工智能算法技術生態(tài),進一步強化“AI For DB”的能力,向下與云原生的生態(tài)融合,面向應用開發(fā)生態(tài),強化數據敏捷的綜合能力。
全球云觀察分析指出,融合開源和云兩個生態(tài)的價值,TiDB從第三方云平臺的公有云部署,到純托管的TiDB Cloud部署,再到LTS企業(yè)穩(wěn)定版私有部署,提供了一致的SQL經典體驗,聚焦了用戶價值的每一個環(huán)節(jié),滿足數字原生企業(yè)和數字轉型企業(yè)的廣泛需求。V6版的發(fā)布,對重塑行業(yè)格局帶來了積極的意義,使能行業(yè)數據價值釋放,新一代HTAP數據庫令業(yè)界刮目相看。因此,在開源和云兩大生態(tài)助攻下,基于Scalability x HTAP的數據敏捷發(fā)展區(qū)間的創(chuàng)新構建,HTAP數據庫“改革派”必將迎來新數據時代發(fā)展的春天。
小結:不容小覷,依然面臨四大挑戰(zhàn)
當前,HTAP概念雖然很火,新一代HTAP數據庫也開辟了數據敏捷的發(fā)展新區(qū)域,但是我們如果理性地看,不難發(fā)現(xiàn)HTAP一直還沒有成為主流應用,原因是什么?全球云觀察總結指出主要有四大挑戰(zhàn),不容小覷。
其一,應用場景仍在探索。眾多用戶不知道什么場景下什么時候用HTAP,雖然互聯(lián)網企業(yè)有實時數據分析的明確需求,但是尚有很多傳統(tǒng)企業(yè)還不知道如何利用實時數據來提升業(yè)務價值。
其二,應用門檻高。在公有云領域應用最廣泛的還是RDS,即Relational Database Service在線關系型數據庫服務,而HTAP較少。目前大多數HTAP數據庫是商業(yè)數據庫和開源數據庫,以私有部署為主,需要用戶采購服務器,既要懂得HTAP數據庫應用部署,又要懂得基礎設施架構,有一定的應用門檻。不過,在HTAP與云原生結合之后,多云化帶來部署門檻降低,公有云優(yōu)勢與HTAP數據庫優(yōu)勢都將雙雙凸顯。
其三,架構人員亟待調整。以前在用戶實際應用中,大數據技術棧使用比較多,DBA運維部門與大數據部門,即TP和AP的組織架構獨立,長期以來是兩個部門在維護不同的技術棧,現(xiàn)在HTAP正在改變用戶的技術架構和組織架構,一棧式模式帶來了架構人員統(tǒng)一的解決之道。
其四,新一代HTAP數據庫廠商風起云涌。如谷歌云、Snowflake、亞馬遜云科技、PingCAP等都在發(fā)力新一代HTAP數據庫,聚焦數據敏捷的發(fā)展新格局,大家都想去推動行業(yè)洗牌,重塑行業(yè)格局。
原文標題 : 數據敏捷,HTAP數據庫既決效率又決生死

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數智主辦酒仙橋論壇,探索AI產業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?