欢迎来到第壹文秘! | 帮助中心 分享价值,成长自我!
第壹文秘
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 第壹文秘 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    GZ-2022041 大数据技术与应用赛项正式赛卷完整版包括附件-2022年全国职业院校技能大赛赛项正式赛卷.docx

    • 资源ID:590803       资源大小:68.95KB        全文页数:26页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    账号登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    快捷下载时,如果您不填写信息,系统将为您自动创建临时账号,适用于临时下载。
    如果您填写信息,用户名和密码都是您填写的【邮箱或者手机号】(系统自动生成),方便查询和重复下载。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    GZ-2022041 大数据技术与应用赛项正式赛卷完整版包括附件-2022年全国职业院校技能大赛赛项正式赛卷.docx

    2022年全国职业院校技能大赛高职组“大数据技术与应用”赛项赛卷(6卷)任务书参赛队编号:背景描述工业互联网是工业全要素、全产业链、全价值链的全面连接,是人、机、物、工厂互联互通的新型工业生产制造服务体系,是互联网从消费领域向生产领域、从虚拟经济向实体经济拓展的核心载体,是建设现代化经济体系、实现高质量发展和塑造全球产业竞争力的关键支撑。党中央、国务院高度重视工业互联网发展,习近平总书记连续四年对推动工业互联网发展做出重要指示。加快发展工业互联网产业,不仅是各国顺应产业发展大势,抢占产业未来制高点的战略选择,也是我国推动制造业质量变革、效率变革和动力变革,实现高质量发展的客观要求。为完成工业大数据分析工作,你所在的小组将应用大数据技术,以SCaIa作为整个项目的基础开发语言,基于大数据平台综合利用HivesSpark、FlinksVueJs等技术,对数据进行处理、分析及可视化呈现,你们作为该小组的技术人员,请按照下面任务完成本次工作。模块A:大数据平台搭建(容器环境)(15分)环境说明:服务端登录地址详见各模块服务端说明。补充说明:宿主机可通过ASbrU工具或SSH客户端进行SSH访问;相关软件安装包在宿主机的/opt目录下,请选择对应的安装包进行安装,用不到的可忽略;所有任务中应用命令必须采用绝对路径;进入MaSter节点的方式为dockerexec-itmasterbinbash进入SIaVel节点的方式为dockerexec-itslave1binbash进入SIaVe2节点的方式为dockerexec-itslave2binbashMySQL已在容器的MaSter中安装完毕,用户名/密码为root/123456任务一:HadooP完全分布式安装配置本环节需要使用root用户完成相关配置,安装HadoOP需要配置前置环境。具体要求如下:1、从宿主机/opt目录下将文件hadoop-2.7.7.tar.gz.jdk8u212linuxx64.tar.gz复制到容器master中的optsoftware路径中(若路径不存在,则需新建),将master节点JDK安装包解压到optmodule路径中(若路径不存在,则需新建),将JDK解压命令复制并粘贴至客户端桌面【Release'重命名为工位号模块A提交结果.docx】中对应的任务序号下;2、修改容器中etcprofile文件,设置JDK环境变量并使其生效,配置完毕后在master节点分别执行“java-version”和“javac”命令,将命令行执行结果分别截图并粘贴至客户端桌面【Release'重命名为工位号模块A提交结果.docx】中对应的任务序号下;3、请完成host相关配置,将三个节点分别命名为master、slave1sslave2,并做免密登录,用SCP命令并使用绝对路径从master复制JDK解压后的安装文件到SIaVe1、SlaVe2节点(若路径不存在,则需新建),并配置SlaVe1、SiaVe2相关环境变量,将全部SCP复制JDK的命令复制并粘贴至客户端桌面【Release'重命名为工位号模块A提交结果.docx】中对应的任务序号下;4、在master将HadOOP解压到optmodule(若路径不存在,则需新建)目录下,并将解压包分发至SlaVe1、SlaVe2中,其中master、slave1sSIaVe2节点均作为datanode,配置好相关环境,初始化HadOOP环境namenode,将初始化命令及初始化结果截图(截取初始化结果日志最后20行即可)粘贴至客户端桌面【Release'重命名为工位号模块A提交结果.docx】中对应的任务序号下;5、启动HadoOP集群(包括hdfs和yarn),使用jps命令查看master节点与SIaVel节点的JaVa进程,将jps命令与结果截图粘贴至客户端桌面【Release'重命名为工位号模块A提交结果.docx】中对应的任务序号下。任务二:SqooP安装配置本环节需要使用root用户完成相关配置,已安装Had。P及需要配置前置环境,具体要求如下:1、从宿主机/opt目录下将文件sqoop-1.4.2.bin_hadoop-2.0.0-alpha.tar.gzsmysql-COnneCtorjava5.1.47.jar复制至IJ容器master中的/OpVsoftware路径中(若路径不存在,则需新建),将容器master节点SqOOP安装包解压到optmodule目录下,将解压命令复制并粘贴至客户端桌面Release重命名为工位号模块A提交结果.docx】中对应的任务序号下;2、完善其他Sq。P相关配置,设置Sq。P环境变量,并使环境变量生效,执行命令SqoOPVerSion并将命令与其结果截图粘贴至客户端桌面【Release'重命名为工位号模块A提交结果.docx】中对应的任务序号下;3、测试Sq。P连接容器master节点的MySQL数据库是否成功并展示所有的database,并将连接命令与结果截图粘贴至客户端桌面【Release'重命名为工位号模块A提交结果.docx】中对应的任务序号下。任务三:HiVe安装配置本环节需要使用root用户完成相关配置,已安装Had。P及需要配置前置环境,具体要求如下:1、从宿主机/oPt目录下将文件apache-hive-2.34bin.tar.gz、mysql-connector-java-5.1.47.jar复制至IJ容器master中的/oPtySOftWare路径中(若路径不存在,则需新建),将MaSter节点HiVe安装包解压到/OpVmoduIe目录下,将解压命令复制并粘贴至客户端桌面【Release'重命名为工位号模块A提交结果.docx】中对应的任务序号下;2、设置HiVe环境变量,并使环境变量生效,执行命令hive-version并将命令与结果截图并粘贴至客户端桌面【Release'重命名为工位号模块A提交结果.docx】中对应的任务序号下;3、完成相关配置并添加所依赖的包,将MySQL数据库作为HiVe元数据库。初始化HiVe元数据,并通过SChematoOI相关命令执行初始化,将初始化结果截图(范围为命令执行结束的最后10行)粘贴至客户端桌面Release'重命名为工位号模块A提交结果.docx】中对应的任务序号下。模块B:离线数据处理(25分)环境说明:服务端登录地址详见各模块服务端说明。补充说明:各主机可通过ASbrU工具或SSH客户端进行SSH访问;MaSter节点MySQL数据库用户名/密码:root/123456(已配置远程连接);HiVe的配置文件位于optapachehive-2.3.4-binconfSPark任务在Yam上用CIient运行,方便观察日志。注:该SPark版本无法进行本地调试,请打包上传集群调试。任务一:数据抽取编写SqooP脚本,将MySQL库中表ChangeReCOrd、BaseMachinexMachineDatasProdUCeReCord全量抽取到HiVe的OdS库中对应表ChangereCOrd、basemachine.machinedata,producerecordo(提示:可通过SqooP将mysql的数据先加载到hdfs,然后再通过hive中loaddatainpath的方式为将数据加载到分区表中,同时hive表中默认的分隔符为t)1、抽取MySQL的ShtCUndUStry库中ChangeReCord表的全量数据进入HiVe的OdS库中表ChangereCOrd,字段排序、类型不变,同时添加静态分区,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)0使用hivec执行ShoWPartitiOnSOdS.ChangereCord命令,将Sq。P提交命令及hiveCli的执行结果分别截图粘贴至客户端桌面【Release'重命名为工位号模块B提交结果.docx】中对应的任务序号下;2、抽取MySQL的ShtCUndUStry库中BaSeMaChine表的全量数据进入HiVe的OdS库中表basemachine,字段排序、类型不变,同时添加静态分区,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)o使用hivecli执行ShoWPartitionSodS.basemachine命令,将Sq。P提交命令及hiveCIi的执行结果分别截图粘贴至客户端桌面【Release'重命名为工位号模块B提交结果.docx】中对应的任务序号下;3、抽取MySQL的ShtcundUStry库中ProdUCeReCOrd表的全量数据进入Hive的OdS库中表PrOdUCereCOrd,易IJ除ProdUCePgCode字段,其余字段排序、类型不变,同时添加静态分区,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)。使用hiveci执行ShoWPa巾tionsods.producerecord命令,将SqooP提交命令及hiveCli的执行结果分别截图粘贴至客户端桌面【Release'重命名为工位号模块B提交结果.docx】中对应的任务序号下;4、抽取MySQL的ShtCundUStry库中MaChineData表的全量数据进入HiVe的OdS库中表machinedata,字段排序、类型不变,同时添加静态分区,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)0使用hivec执行ShoWPartitiOnSodSmachinedata命令,将Sq。P提交命令及hiveCli的执行结果分别截图粘贴至客户端桌面【Release'重命名为工位号模块B提交结果.docx】中对应的任务序号下。任务二:数据清洗编写HiVeSQL代码,将OdS库中相应表数据全量抽取到HiVe的dwd库中对应表中。表中有涉及到timestamp类型的,均要求按照yyyyMMddHH:mm:ss,不记录毫秒数,若原数据中只有年月日,则在时分秒的位置添加00:00:00,添加之后使其符合yyyyMMddHH:mm:sso1、抽取OdS库中ChangereCord的全量数据进入HiVe的dwd库中表fact_change_record,抽取数据之前需要对数据根据Changeid和ChangemaChineid进行联合去重处理,分区字段为etldate且值与OdS库的相对应表该值相等,并添加dwd_insert_usersdwdJnsertJime.dwd_modify_usersdwd_modify_time四歹IJ,其中dwd_insert_usersdwd_modify_uSer均填写“useri",dwd_insert_timesdwd_modify_time均填写当前操作时间,并进行数据类型转换。使用hiveCli按照Change_machine_id降序、Change_id升序排序,查询前1条数据,将结果截图粘贴至客户端桌面【Release'重命名为工位号模块B提交结果.docx】中对应的任务序号下;2、抽取OdS库中basemachine的全量数据进入HiVe的dwd库中表dim_machine,抽取数据之前需要对数据根据basemachineid进行去重处理。分区字段为etldate且值与OdS库的相对应表该值相

    注意事项

    本文(GZ-2022041 大数据技术与应用赛项正式赛卷完整版包括附件-2022年全国职业院校技能大赛赛项正式赛卷.docx)为本站会员(p**)主动上传,第壹文秘仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知第壹文秘(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 1wenmi网站版权所有

    经营许可证编号:宁ICP备2022001189号-1

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。第壹文秘仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第壹文秘网,我们立即给予删除!

    收起
    展开