多选题 : “脏数据”即数据有空缺、噪声等缺陷,而且在数据仓库的各数据源之间,其内容也可能存在着不一致的现象这也称之为“脏数据”。对这些数据的处理过程称之为“数据清洗”,常见的处理方式有()
(A)针对数据空缺通常采用忽略元组、用一个全局常量填充空缺值、用属性的平均值填充空缺值、使用与给定元组同类的所有样本的平均值填充空缺值、使用最可能的值填充空缺值、使用Bayesian公式或判定树这样的基于推断的方法。
(B)对于噪声数据可以用分箱或聚类等方法处理
(C)数据不一致则需要根据具体的业务场景来采取不同的处理方法
(D)对于噪声数据可以用删除或替换等方法处理
参考答案
继续答题:下一题