Kaleido 特征工程平臺
Kaleido是一款基于分布式存儲架構和分布式計算框架的特征工程平臺,所謂特征工程,是指利用數據領域的相關知識來創建能夠使機器學習算法達到最佳性能的輸入特征的過程;所謂特征,對于實體,特征是某些突出性質的表現;對于識別一個實體的過程而言,特征是區分該實體的關鍵。所以,當要對實體進行分類或者識別時,實際上就是提取‘特征’,通過特征的表現進行判斷。Kaleido支持從HDFS或關系數據庫等多種來源、以多種格式導入源數據集,支持對億萬級數據進行特征衍生、特征抽取、特征縮放和特征選擇等特征工程操作。此外,Kaleido還支持缺失值處理和數據過濾等預處理功能,實現了一站式生產滿足機器學習建模要求的數據,可向MaximAI等機器學習建模平臺供給高質量的特征。