在互聯網行業快速迭代、數據規模呈指數級增長的今天,作為國內領先的年輕人文化社區,嗶哩嗶哩(Bilibili)面臨著海量、多維、實時的數據處理挑戰。為了高效賦能業務創新、提升用戶體驗并驅動科學決策,構建一個統一、高效、敏捷的數據服務中臺,尤其是其核心組件——數據處理服務,成為B站技術演進的必然選擇。本文將探討嗶哩嗶哩在數據服務中臺建設過程中,數據處理服務的實踐路徑、技術架構與核心價值。
一、建設背景與核心目標
嗶哩嗶哩的業務生態涵蓋視頻、直播、游戲、漫畫、社區互動等多個板塊,每日產生PB級別的結構化與非結構化數據。早期,數據處理往往以“煙囪式”架構存在于各業務線,導致數據孤島、計算資源浪費、研發效率低下、數據口徑不一致等問題日益凸顯。為此,數據服務中臺的建設核心目標確立為:
- 統一化:建立標準化的數據接入、處理、存儲與服務出口,打破數據壁壘。
- 平臺化:提供自助、易用的數據處理工具與平臺,降低數據使用門檻,提升研發效率。
- 服務化:將數據能力封裝成可復用、可擴展的API服務,敏捷響應前端業務需求。
- 智能化:融入實時計算與智能算法,支持實時推薦、風險控制、動態運營等場景。
數據處理服務作為中臺的“加工廠”,承擔著將原始數據轉化為清潔、可靠、有價值的數據資產的關鍵職責。
二、數據處理服務的架構演進
嗶哩嗶哩的數據處理服務架構經歷了從分散到集中、從批處理到批流一體的演進過程。
1. 分層解耦的架構設計:
當前的核心架構通常分為四層:
- 數據采集層:通過自研Agent、日志SDK、數據庫Binlog同步等多種方式,實現全端數據的高效、可靠接入。
- 數據存儲與計算層:這是數據處理的核心。結合Hadoop、Spark、Flink、Kafka等開源生態,構建了強大的批處理和流式計算能力。數據倉庫采用分層建模(如ODS、DWD、DWS、ADS),確保數據一致性和復用性。
- 數據管理與治理層:建立統一的數據資產目錄、元數據管理、數據血緣和質量監控體系。通過可視化工具,讓數據來源、加工邏輯、數據質量一目了然,為數據可信度奠定基礎。
- 數據服務層:將加工后的數據,通過統一查詢服務、實時數據服務、指標平臺、推薦/搜索數據服務等方式,以API或數據產品的形式提供給各業務方。
2. 批流一體的實踐:
為滿足實時業務需求(如實時彈幕分析、實時熱門榜單、實時風控),在傳統T+1批處理的基礎上,深度應用Apache Flink構建了低延遲的實時數據處理管道。通過將批流計算在SQL層面進行統一,并共享數據存儲(如Hive、Iceberg),實現了“一套代碼,兩種執行模式”,簡化了開發運維復雜度。
3. 平臺化與自助化:
開發了面向內部用戶的數據開發平臺。數據研發人員可以在平臺上進行任務編排、SQL/代碼開發、依賴配置、調度發布與監控告警。業務分析師也可以通過低代碼或SQL界面,自助進行數據查詢、報表生成和即席分析,大大縮短了從數據需求到數據產出的路徑。
三、關鍵技術挑戰與解決方案
- 海量數據下的效率與成本:通過計算引擎優化(如Spark動態資源分配、Flink增量計算)、存儲格式升級(采用ORC、Parquet及數據湖格式)、冷熱數據分層存儲與智能壓縮等手段,在保障查詢性能的有效控制了存儲與計算成本。
- 數據質量保障:建立了貫穿數據處理全鏈路的質量監控體系。在任務層面,設置關鍵指標(如記錄數波動、空值率、數值異常)的強規則校驗;在鏈路層面,通過數據血緣進行影響分析和故障溯源;推行數據資產認責制度,確保問題可追溯、可定責、可修復。
- 復雜業務場景的敏捷支持:面對快速變化的業務需求(如新活動、新功能上線),數據處理服務通過以下方式提升敏捷性:
- 模型復用:沉淀公共數據層(DWD/DWS),避免重復開發。
- 快速啟動模板:為常見場景(如用戶行為分析、AB實驗)提供標準化數據模型與處理模板。
- 服務化接口:將核心數據能力(如用戶畫像查詢、實時計數)封裝為高可用、低延遲的在線服務,供業務系統直接調用。
四、核心價值與未來展望
通過數據服務中臺及數據處理服務的建設,嗶哩嗶哩實現了顯著的業務與技術價值:
- 業務賦能:為個性化推薦、內容安全、商業化廣告、運營決策等提供了堅實、及時的數據支撐,直接提升了用戶體驗和商業效率。
- 效率提升:數據研發效率大幅提高,需求交付周期從“周/月”級縮短到“天/小時”級。業務方獲取數據從“提需求”轉變為“自助服務”。
- 成本優化:統一的資源調度與存儲管理,避免了重復建設,實現了集群資源利用率的整體優化。
- 質量與信任:標準化的流程與全面的監控,構建了公司內部對數據資產的信任文化。
嗶哩嗶哩的數據處理服務將繼續向更智能、更實時、更易用的方向發展:深化實時數倉建設,探索數據湖倉一體化架構;加強AI能力注入,實現數據處理的智能化運維與異常檢測;進一步降低數據消費門檻,讓數據能力像水電煤一樣,無縫、高效地流淌到每一個需要的業務環節,持續鞏固B站在內容生態領域的核心競爭力。