阿里云發布DLF-3.0全模態湖倉平臺,湖流一體全模態架構引領數據智能新范式
王峰宣布推出 Data Lake Formation-3.0 (DLF) 全模態湖倉管理平臺,在支持Paimon、Iceberg等主流湖表格式的基礎上,將存儲格式從傳統結構化數據,拓展至全模態數據場景,支持面向 AI 場景的 Lance 文件數據、表格數據等全類型。

在技術層面,阿里云通過兼容開源、超越開源的三大分析引擎構建統一底座:Flash向量化流處理引擎性能較開源提升5-10倍;Fusion向量化批處理引擎在100T TPC-DS測試中登頂;Stella存算分離OLAP引擎在10T TPC-H測試中性能領先。
針對不同業務需求,阿里云提出覆蓋全場景的數據分析方案:實時場景基于 Flink + Fluss 構建一站式流處理平臺,滿足毫秒級響應;準實時場景采用 Flink + StarRocks + DLF 流式湖倉架構,融合Apache Paimon流批一體湖表;離線場景則依托 Spark + StarRocks + DLF 流式湖倉架構,支撐大規模離線數據處理。這一“實時-準實時-離線”一體化架構,統一了存儲與計算邏輯,顯著降低企業數據管理復雜度。
在AI融合領域,阿里云通過 Spark + DLF全模態湖倉實現文本、音頻、視頻等多模態數據的統一治理與AI模型訓練,而 Flink + Milvus + LLM 構建的實時智能分析決策系統,則支持輿情分析、直播監控等場景的毫秒級AI決策。王峰強調,湖流一體全模態數智平臺不僅解決了傳統架構的碎片化問題,更通過開源生態與AI技術的深度融合,為千行百業提供了高效、開放、智能的數據底座。
實時計算Flink版升級:打造面向 AI 時代的新一代流處理存儲一體化平臺
阿里云智能集團實時計算Flink版產品負責人黃鵬程介紹了產品的核心升級方向。黃鵬程重點發布了實時計算Flink版分鐘級近實時計算能力,基于增量計算技術,在保證時效性的同時顯著降低成本。同時,Flink SQL支持分鐘級數據新鮮度配置,提升開發運維效率。
在流存儲方面,黃鵬程宣布面向實時流計算、湖流一體的存儲 Fluss 現已上線阿里云并即將在十月正式開啟公測。該存儲方案基于Apache Arrow列式存儲設計,大幅優化IO性能,并支持流讀列裁剪、分區下推等特性,實現高性能低成本的流處理。

在AI融合方面,實時計算Flink版提供了強大的AI函數功能,支持使用 Flink SQL直接調用大語言模型。該能力現已全面支持阿里云PAI、百煉等大模型服務平臺,并可與各類兼容OpenAI API的大模型服務實現無縫對接。同時支持將實時向量化數據寫入Milvus數據庫,為實時RAG場景提供技術支撐。這些新特性將為企業構建實時情感分析、智能推薦、異常檢測、語義搜索、智能客服等多樣化AI應用場景提供完整解決方案。
EMR產品線全面擁抱AI,登頂TPC 基準測試榜單
阿里云智能集團計算平臺事業部EMR負責人李鈺在年度發布中指出,面對AI時代對數據處理和讀寫的效率、多樣性以及便利性的全新挑戰,EMR 全系列產品(EMR on ECS、EMR Serverless Spark、EMR Serverless StarRocks)全面提升內核引擎性能和擁抱 AI 技術,完成一系列能力升級, Fusion (企業級 Spark 內核) 和 Stella (企業級 StarRocks 內核) 技術登頂 TPC 全球榜單。其中EMR Serverless Spark在TPC-DS 100TB測試中,以 QphDS 性能提升100%的成績奪冠。

首次參加評測的EMR Serverless StarRocks以QphH 超754萬分的性能結果斬獲全球冠軍,領先第二名111%。

在AI融合方面,EMR Agent 正式開啟公測,推出通過自然語言交互即可實現運維操作、開源組件自助診斷、平臺功能高效咨詢等智能化交互式產品能力,大幅降低大數據集群使用門檻。同時,EMR Serverless 產品提供面向 GPU 和多模態的數據處理能力、全面的 AI Function 支持等。為企業用戶提供高效智能的AI大數據平臺底座。
DataWorks構建湖倉一體化開發平臺
阿里云智能集團高級技術專家晨曦表示,DataWorks面向數據湖推出OpenLake湖倉一體化開發平臺,依托DLF 3.0實現多源數據高效入湖與智能化調度,覆蓋多模態數據從采集、存儲、開發、治理到分析的全生命周期管理閉環,進一步降低數據價值挖掘成本。
在入湖方面,提供豐富的數據源支持,極致性能優化;在湖流/湖倉一體化開發運維方面,提供豐富任務類型支持,統一運維方案;在企業級治理能力方面,覆蓋存儲、計算、開發、安全多維度,事前、事中、事后等全方位治理能力;在多模態數據管理方面,結合DLF 多模態數據管理,實現全鏈路血緣追蹤;同時提供豐富的 Data+AI 一體化開發任務,支持60余種任務類型,涵蓋開源大數據流/批處理、AI訓練、推理等能力;Copliot+ChatBI,幫助用戶提升開發、治理、數據分析的效率。

客戶實踐:多行業共筑“湖流一體”數智平臺新范式
在本次論壇中,來自汽車、農業、制造業及金融科技領域的客戶代表分享了基于阿里云新一代“湖流一體”數智平臺的創新實踐。零跑科技通過實時計算 Flink+Hologres 實現車輛終端與業務系統的全鏈路實時數據同步,支撐萬輛級車聯網的毫秒級響應;牧原集團依托 Flink 平臺構建生豬養殖的實時數據鏈路,實現環境感知與疫病預警的智能化升級;海信聚好看結合 EMR 與 Paimon 湖格式,打造多模態數據湖,為 AI 模型訓練提供 AI-Ready 數據底座;洋錢罐則基于 EMR Serverless 架構,構建全球一體化數字金融平臺,兼顧資源彈性與金融級可靠性。這些案例展現了“湖流一體”平臺在實時計算、多模態治理及 Serverless 落地中的核心價值,為多行業數字化轉型提供了可復用的技術路徑與實踐經驗。

零跑汽車大數據高級專家聶清分享零跑科技實時計算的應用與實踐

牧原集團大數據負責人王瑞潔分享牧原集團的 Flink 規模化落地之路

海信聚好看研發總經理張紀寬分享多模態數據湖實現數智化轉型AI-Ready的落地實踐

洋錢罐大數據運維總監宋曉峰分享洋錢罐基于EMR Serverless產品構建全球一體化數字金融平臺
結語
阿里云開源大數據平臺持續推動“湖流一體”架構創新與AI技術融合,為企業提供覆蓋數據存儲、實時計算、智能分析到全棧開發的完整解決方案。未來,阿里云將繼續深耕開源生態,助力全球客戶在AI時代實現數據驅動的業務躍遷。
海報生成中...