多选题 : 出于效率和成本的考虑,在使用Maxcompute MR的时候,输入表最好应该只包含需要处理的字段,其余多余字段应该忽略。输入表wc_in包含10个字段,MR只对其中三个字段(c1,c2,c3)进行了处理,以下说法正确的是:()。
(A)使用包com.aliyun.odps.data中的TableInfo类中的setCols()方法指定处理的列c1,c2,c3 from wc_in;同时调用MR的时候输入新表wc_in_new
(B)MR的输入为一个SQL 查询:select c1,c2,c3 from wc_in;
(C)重建一张表wc_in_new,只包含三个字段(c1,c2,c3),加载数据:insert into table wc_in_new select c1,c2,c3 from wc_in;同时调用MR的时候
(D)建一个视图v_wc_in,视图仅包括相应的三个字段:create view v_wc_in select c1,c2,c3 from wc_in;然后把视图v_wc_in作为MR的输入
参考答案
继续答题:下一题
更多阿里云大数据助理工程师认证(ACA)试题
- 1大数据计算服务(MaxCompute,原ODPS )中的客户表customer是一张非分区表,现在想要清空表的内容然后重新上传数据,可以通过()将数据清空。
- 2某BI系统构建在大数据计算服务上,某数据分析员在分析订单的地域分布时,需要把订单表order(占用存储空间约10G)与地狱维表region(占用存储空间100M)关联起来,两张表的结构如下:create table order( order_id string, region_id string, order amt bigint); create table region(region_id string, region_name string)在运行时发现由于订单大量集中在上海地区,数据的倾斜导致整体运行时间较长,运行的SQL语句如下:select region_name, sum(order_amt)amt from order t1 join region t2 on t1.region_id=t2.region_id;此时可以考虑通过()优化SQL的运行效率。
- 3MaxCompute SQ适用于海量数据实时性要求不高的场合采用的是类似S①儿语法可以通过在表上合理的创建索引等方式提高数据查询效率。
- 4DataWorks中可以配置任务调度的时间粒度目前支持等时间粒度的调度。( )
- 5使用Maxcompute动态分区时,SELECT的分区列放在列表的()位置。
- 6大数据计算服务(MaxCompute,原ODPS )提出了安全沙箱的概念,为了保证整个计算环境的安全,某些特殊操作会被禁止。以下()操作会受到沙箱的影响。