谷數大數據平臺
  • DAP分布式計算CDC CDC Customized Distributed Computing 針對應用定制化分布式計算 非結構化數據處理 支持MapReduce/Spark 線下數據映射簡化 針對不同應用建模
  • 分布式并行數據庫CDPD跨區域部署物理結構 關鍵技術 基于廣域網跨區域部署 全局數據表空間 數據本地存儲訪問、無需跨節 點匯總同步 全局元數據一致 SQL請求任務調度分發 數據并行處
  • 分布式數據存儲CNHC:基于Hadoop的NFS存儲 CeresData NFS Hadoop Connector 允許Hadoop運行在NFS存儲上 數據單副本:高可靠、低成本 讀性能高:單節點性能提升3倍 支持數據亂序讀寫查詢等操作 性能
  • 數據預處理(數據清洗)CDPP CDPP(Ceresdata Data PreProcessing) 數據清洗概念 外部數據源數據內容存在著臟數據,即數據有空缺、噪音等缺陷 臟數據會扭曲從數據中獲得的信息,影響數據挖