多选题 : 传统的ETL与ELT存在局限性,为了更好地适应多数据源.实时数据处理.高容惜.并行化等业务需求,基于Kafka的ETL矿架应运而生,以下关于Kafka Connec 的描述正确的是?
(A)ApacheKafka是由ApacheHadoop开发的,能够实时处理数据,为所有的消息处理目的地提供现实状况来源管道,
(B)KafkaConect将数据源和数据目的地视为彼此独立的任务,源端和目的端完全解耦,彼此不知道对方的存在,
(C)Sources负责从其他异构系统中读取数据井导入到afka中。
(D)Sinks负责把Kafka中的数据写入到其他的系统中。
参考答案
继续答题:下一题
更多HCIE大数据试题
- 1RDDResilient Di stributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个可变、可分区、里面的元素可并行计算的集合。
- 2(判断)大数据统架构将机器学习和数据处理进一步整合,从核心上来说,统一架构依然以大数据基础架构为主,只是对其进行了优化和改造,重点是在流处理层新增了数据服务层(数据挖掘、机器学习等
- 3以下关于Spark Llib中FP-Growth的超参数描述不正确的是?
- 4两个变量的Pearson相关性系数为零,但这两个变量的值同样可以相关。
- 5除了精确率(Precision)和召回率(Recal1),以下还有哪些常用的模型评估指标?
- 6强规则是指同时满足最小支持度阈值和最小置信度阈值的规则。