Kaleido特征工程平台软件升级。
打开数据密码的钥匙,开启最具创造力的数据科学
产品介绍
Kaleido是一款基于分布式存储架构和分布式计算框架的特征工程平台,可以最大限度地从原始数据中提取特征以供算法和模型使用。数据科学家的工作中,有80%的时间都在获取、清洗和特征处理,Kaleido通过分布式存储架构和分布式计算框架,快速完成这80%的工作量,将数据转换为能更好的表示业务逻辑的特征,从而提高机器学习的性能。
核心功能
通用板块:主要实现常规的数据处理分析,包括统计分析、数据清洗、特征变换、特征衍生、特征提取等功能;
文本分析板块:主要实现文本数据的处理分析,包括文本分词、文本量化、主题抽取、情感分析等功能;
网络分析板块:主要实现网络数据的处理分析,包括连通图、静态特征分析、社团发现等功能;
时序分析板块:主要实现时序数据的处理分析,包括移动平均、指数平滑、GARCH、ARIMA等功能;
量化分析板块:主要实现基金、股票等数据的转换处理,包括包括模式识别、交易量指标、波动率指标等;
金融板块:主要实现金融领域常用数据处理,包括WOE变换、评分卡模型等功能;
勘探板块:主要应用于石油勘探领域,包括特定地震数据格式的读取及信息提取等功能。
市场痛点
人才供需失衡:市场上同时具备数据科学知识和编程经验的人才难以培养,成本高昂,供需严重失衡。
运行效率低下:通过单机与服务器方式运行数据处理脚本,执行质量与工程师经验息息相关,难以持续保证高效运行。
上线流程漫长:IT部门与模型部门沟通困难,重构代码容易引入错误。
产品价值
分布式计算框架:分布式计算框架能够增强计算可扩展性,轻松应对海量数据处理;
高效构建有效特征:拖拉拽免代码方式实现特征构建,直线缩短时间、降低成本;
特征可追溯:可对建模历史的特征工程版本进行追溯,流程可回溯,降低人才流失风险;
模型快速上线:生产流程即上线流程,无需代码重构,大大提高模型时效。