当基础的数据清洗已经没办法满足数据建设和数据分析,需要 AI 算法加持去挖掘数据更多隐藏的价值时。算法团队同学可能苦于无法很好与可视化图表联动使用,没办法生产好的数据快速被应用;而普通用户可能直接被 AI 代码的高门槛直接压灭了这个算法的苗头——提需求又怕需求太浅、价值无法很好评估输出,此时算法挖掘成为了一种奢望。
DataWind 的可视化建模封装了超过 30 类常见的 AI 算子能力,用户仅需了解算法的作用可以通过配置化的方式配置算法算子的输入和训练目标即可完成模型训练,根据配置的其他数据内容快速得到预测结果。
![](http://imgq8.q578.com/ef/1114/0ed63eba9ca81609.jpg)
![](http://imgq8.q578.com/ef/1114/05130a9f89cdc411.jpg)
![](http://imgq8.q578.com/ef/1114/c2f7e6f0a4bd63a4.jpg)
下方将以两个典型场景为例,看不写 Python 如何完成数据挖掘。
3.1 【初阶】不会 Python 也可做数据挖掘
用户日常工作基本不涉及写 Python,但存在做数据挖掘的需求场景。他需要基于存量高意向客户样本做客户意向度挖掘。此时可通过可视化建模构建数据挖掘流程:
1.拖入样本数据和全部数据作为数据输入。
2.拖入分类算法,如 XGB 算法用于模型训练。
3.拖入预测算子,搭建模型与全部数据的关系进行预测。
4.实际数据和预测结果结合输出数据集,从而分析全部用户数据的意向分布。
![](http://imgq8.q578.com/ef/1114/885eccf12242d3de.jpg)
3.2【高阶】不写 Python 也可构建复杂算法模型
用户需要根据现有数据,构建一个用户回购模型。在模型搭建中需要经过数据清洗、格式转换之后采用梯度提升树构建预测模型,此时可以根据可视化建模构建回购模型流程:
![](http://imgq8.q578.com/ef/1114/b15a76b74ddef999.jpg)
1.合并行:将 n 个算子(图中的长方形)输出数据表根据一致的表头合并成一张总的数据表,用户销售数据没有增删新属性时此处不用改动。
2.缺失值替换:属性列存在空值(null)时,会影响后续模型计算,使用替换缺失值算子可以将空值替换为指定默认值,用户销售数据没有增删新属性时此处不用改动。
3.one-hot 编码: 文本类型的属性无法直接被模型训练使用,需要 one_hot 编码成数字向量例如:
4.梯度提升树:负责拟合训练数据,输出一个可以用于预测的模型(图中没有标注的参数不需要维护人员修改):
![](http://imgq8.q578.com/ef/1114/bfce25f26b00f341.jpg)
5.聚合_1:去除预测数据中的重复项,取最大概率。