多选题 : 以下描述属于数据准备阶段的是
(A)因数据来自数据仓库中多个数据表,可以经过数据采集、清理和集成,生成个针对数据挖掘目标,确定与交易行为有关的数据项集合。
(B)考虑样本是否具有代表性。
(C)为了确保各变量在分析中的地位相同,可以对数据进行中心化和标准化变换。
(D)检查数据的逻辑性,区分数据缺失"和"0"。根据逻辑推断某些值、寻找反常数据、评估数据是否真实。
参考答案
继续答题:下一题
更多HCIE大数据试题
- 1假设场景如下:癌症检查数据样本有10000个,其中10个数据样本是有癌症,其他是无癌症,假设分类模型在无癌症数据9990中预测正确了9980个,在10个癌症数据中预测正确了9个,此时真阳=9,真阴=9980,假阳=10,假阴=1。则模型准确率是多少?
- 2Spark Llib由一些通用的学习算法和工具组成,包括分类、回归、聚类、关联规则、优化计算、协同过滤、降维和推荐多种机器学习算法
- 3(单选)若随机变量X服从正态分布N(u,o^2),则随机变量Y=aX+b服从以下哪个正态分布?
- 4在进行完数据预处理和特征工程后,接下来要进行的就是选择合适的模型来训练我们己经处理好的数据和选择的特征。假如你是一名数据挖掘工程师,一般会从以下哪几个方面来进行特征分析?
- 5大数据治理系统整体架构包含如下哪些部分?
- 6(单选)以下哪个措施属于反爬措施?