欢迎来到第壹文秘! | 帮助中心 分享价值,成长自我!
第壹文秘
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 第壹文秘 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    《数据采集技术(初级)》实验手册项目6:项目实战网络爬虫.docx

    • 资源ID:909942       资源大小:275.63KB        全文页数:16页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    账号登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    快捷下载时,如果您不填写信息,系统将为您自动创建临时账号,适用于临时下载。
    如果您填写信息,用户名和密码都是您填写的【邮箱或者手机号】(系统自动生成),方便查询和重复下载。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《数据采集技术(初级)》实验手册项目6:项目实战网络爬虫.docx

    任务1爬取手机端数据任务描述使用ReqUeStS库与抓包工具(拦截查看网络数据包内容的软件)的结合实现一个APP页面内容的爬取。能够通过FiddIer抓包工具配置及使用获取APP数据内容及相关信息,之后使用Requests库相关方法通过链接地址实现APP内数据的爬取。爬取思路如下:(1)安装FiddIer抓包工具。(2)使用FiddIer抓包工具进行网站分析。(3)分析网站。任务步骤第一步下载抓包工具。这里使用FiddIer抓包工具,点击下载按钮后,根据相关提示信息完成内容填写即可实现FiddIer下载,效果如下图所示。俞FMWr*F<<WebCu99rX£httWw.telef.comA ProgressCOMPAW TKHNoIoGY Telenke FiddIevwvw docs & support PmCMG Q v9 X QSUl Libraries for Web,MObiIe & DesktopTelerikFiddlerThefreewebdebuggingproxyforanybrowser,systemorplatformKeyFeatures第二步FicIdIer安装。双击下载好的软件安装包,之后点击“IAgree”TmStaIr按钮即可安装Fiddler工具。安装完成效果如下图所示。ProgressTelerikFiddler:CompletedCompletedShowdetailsJun-27-18v5.0,20182.28034<BadcClOSe第三步FiddIer工具配置。打开刚刚安装完成的Fiddler软件,效果如下图所示。Progress Telerik Fiddler Web DebuggerFile Edit Rules Tools View Help.WinConfig QReplay X * Go * Stream 隔 DeCOde IE*zHrn>zz*HpHPS*Hp*z*HTTP Ul©22222 2 2 22222 町,-22222I20(so5050so505050so5050so5020(50so505050so10111213M151617181920212223242S26272829303132333435 W 一二一一八二一:二二:二一八,鱼宜立<Host TaInel to Tmnelto Ttjinel to Tumd to Tirmelto Tnd to Turmd to Tnd to Tnd to Tnel to Tunnd to Tirndtohm.bad.com Ttxmd to Tnel to Tmndto Tiwd to Tmnd to Tumel to Timel to Timd to Tumd to Turmelto Tunnelto TirmeltoURLa小m0 付 8 18ck- 18d dents l.goo:44 dents l.gooflte.axn:44 dents 1.9oogle.cocn:44 dents l.googte.cocn:44 dents 1 goote. co44 dents :44 dten :44 dents l.gooz44 dents 1.9OO0le.c(xn:44 CientSLgOote.cwn中 Cknts 1.9oogle.axn:44 entsl.gooz44 w.gPcc=18ck=lSd CientSl . 900” GXn: 44 dents l.gooie. com :44 cn ts 1 , gooie com : 44 CientS Lgoo.com中 dcntsl.9oie.ccxnzH dents l.900gle. com :44 CkntSl Q00ie. ccxn+ dents :44 dten ts 1 . 900* com: 44 dents l.Qoz44 dents l.Qo44 dents L:44 "Keep: All sessions Any Process 为 Find Q Sove夕 AutoResponder 劣 Composer QQ Fiddter Orchestra Beta, FiddIerSaipt g Log Fiters = TimeSneO Stabsbcs Inspectors令 ProgreSSKendO URecommended by the iaMost read in JavaScript: Tips for Optimizing yourAngular Application Read Article点击上图中“Tools”菜单下的“Options”按钮进入工具配置界面,效果如卜图所示。点击图中七。所。明。的”按钮,之后进行端口号的配置,效果如下图所示。第四步手机配置。由于抓取的是手机APP数据,因此需要在同一局域网内进行手机网络的配置,进入手机WiFi修改界面,设置手动代理并进行主机IP和端口号的配置,效果如下图所示。WiredSSIDQ高级选项代理手动浏览器会使用HTTP代理,但其他应用可能不会使用。代理费!黄喜主机右192.168.10.233主机IP地址代理豳哥口8888FiddIer扒包工具设置的端口号对以下网址不使用代理取消保存第五步APP页面分析。配置完成后,即可使用当前手机打开需要爬取的APP,这里使用的是美团APP,页面美食网 Q六步查看APP信息。找到需要抓取的页面后,在FidClIer抓包工具页面中会获取到当前APP请求网络的路径,点击路径后即可查看当前APP的相关信息,效果如下图所示。aSWinConfigJReplayX»Go.Streamf溟DeCOdelKeep:Allsessions*AnyProcess的Find5¾Save萌3456789012345Sd¢444495555599999CJ9999*二:广比匕'*lu-广r.ft6.匕TJ)M)n)222222Resl2(x220(20(20(20(20(505050505050H11PH11PH11PH11PH11PZH11P霹HTTPH11PHostURLBodyCachingTunndtotng.me!tua.net-H3OTunndtoMng.mertua.net443OTunndto:443OTunndtong.mertua.net443OTunnelto:443OTunndtoimg.mtua.net443OTUnndto:443OTunndtodentsLgOOgtecom:443582-cache,must-rTunndto:443582no-cache,mst-nTurmdtocfentsl.googie.axn:443582no<ade,must-nTunndto:443582<ade,must-rTunndto:443582no<achejmust.TunndtodentsL:443网络请求路径582-cache,must-f一二R拨957一4UUI-'IUJ<ujcy.lmiUdil.>!Ll"200HTTP33,366藐懑黑懑淳懑席一VW222222coo222222c2o(2o)5o5o5o5oso5o22ol2ot5o5o5o5o5o5o29012345678901234565<l6(l6666e.e«el&7t777777l。999999999999Ch9-伫匕u*Lu,l1产。匕色曲c匕ft巴广iu"H<:443dentsL:443:443dentsl.QOO<>:443dntsl.googte.xnz443dentsl.google.axn:443:443sZmn.wpscdn.zH3xxfigwpstraycfig.js00582no-cade,must-r582-cache,must-r58211o<ache,must-582no<ad>e,must-n582-cade,must-rS82<ache,must-f01,137max-age=7200;E°582no<ache,mt<S82no<ache,must<582-cache,must-r582-cache,must-f582o<ade,must-f*582no-cache,must<43DTivate.ma×-aoeQuidcExccALT+Q>typeHaPtoteammore电FiddterOrchestraBetaHddterScript3LOeFiltersTnefre色StatisticsInSPeCtorS$AutoResponderWComposerIHeadersTextViewSyntaxViewWebFormsHexViewAuthCookiesRawJSONXML第七步代码编辑基本配置和信息获取完成后即可进行代码的编辑,将上面获取的相关请求头信息填入代码相应的位置,之后将爬取路径放入请求方法中进行页面内容的请求,之后通过JSe)N信息的分析,爬取需要的页面信息,如有需要可将信息保存到本地文件,代码如下所示。#弓|入Requests库importrequestsdefmain():#定义请求头headers=#将FiddIer右上方的内容填在headers中nAccept-Charsetn:UUTF-8”,“Accept-Encoding":',gzip,uUser-Agentn:uAiMeiTuan/OPPO-5.1.I-OPPORl1-1280x720-240-5.5.4-254-866174010228027-qqcpdn,nConnectionn:uKeep-Aliveuz,Host:,u)#循环请

    注意事项

    本文(《数据采集技术(初级)》实验手册项目6:项目实战网络爬虫.docx)为本站会员(p**)主动上传,第壹文秘仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知第壹文秘(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 1wenmi网站版权所有

    经营许可证编号:宁ICP备2022001189号-1

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。第壹文秘仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第壹文秘网,我们立即给予删除!

    收起
    展开