《数据采集技术(初级)》实验手册项目6:项目实战网络爬虫.docx
任务1爬取手机端数据任务描述使用ReqUeStS库与抓包工具(拦截查看网络数据包内容的软件)的结合实现一个APP页面内容的爬取。能够通过FiddIer抓包工具配置及使用获取APP数据内容及相关信息,之后使用Requests库相关方法通过链接地址实现APP内数据的爬取。爬取思路如下:(1)安装FiddIer抓包工具。(2)使用FiddIer抓包工具进行网站分析。(3)分析网站。任务步骤第一步下载抓包工具。这里使用FiddIer抓包工具,点击下载按钮后,根据相关提示信息完成内容填写即可实现FiddIer下载,效果如下图所示。俞FMWr*F<<WebCu99rX£httWw.telef.comA ProgressCOMPAW TKHNoIoGY Telenke FiddIevwvw docs & support PmCMG Q v9 X QSUl Libraries for Web,MObiIe & DesktopTelerikFiddlerThefreewebdebuggingproxyforanybrowser,systemorplatformKeyFeatures第二步FicIdIer安装。双击下载好的软件安装包,之后点击“IAgree”TmStaIr按钮即可安装Fiddler工具。安装完成效果如下图所示。ProgressTelerikFiddler:CompletedCompletedShowdetailsJun-27-18v5.0,20182.28034<BadcClOSe第三步FiddIer工具配置。打开刚刚安装完成的Fiddler软件,效果如下图所示。Progress Telerik Fiddler Web DebuggerFile Edit Rules Tools View Help.WinConfig QReplay X * Go * Stream 隔 DeCOde IE*zHrn>zz*HpHPS*Hp*z*HTTP Ul©22222 2 2 22222 町,-22222I20(so5050so505050so5050so5020(50so505050so10111213M151617181920212223242S26272829303132333435 W 一二一一八二一:二二:二一八,鱼宜立<Host TaInel to Tmnelto Ttjinel to Tumd to Tirmelto Tnd to Turmd to Tnd to Tnd to Tnel to Tunnd to Tirndtohm.bad.com Ttxmd to Tnel to Tmndto Tiwd to Tmnd to Tumel to Timel to Timd to Tumd to Turmelto Tunnelto TirmeltoURLa小m0 付 8 18ck- 18d dents l.goo:44 dents l.gooflte.axn:44 dents 1.9oogle.cocn:44 dents l.googte.cocn:44 dents 1 goote. co44 dents :44 dten :44 dents l.gooz44 dents 1.9OO0le.c(xn:44 CientSLgOote.cwn中 Cknts 1.9oogle.axn:44 entsl.gooz44 w.gPcc=18ck=lSd CientSl . 900” GXn: 44 dents l.gooie. com :44 cn ts 1 , gooie com : 44 CientS Lgoo.com中 dcntsl.9oie.ccxnzH dents l.900gle. com :44 CkntSl Q00ie. ccxn+ dents :44 dten ts 1 . 900* com: 44 dents l.Qoz44 dents l.Qo44 dents L:44 "Keep: All sessions Any Process 为 Find Q Sove夕 AutoResponder 劣 Composer QQ Fiddter Orchestra Beta, FiddIerSaipt g Log Fiters = TimeSneO Stabsbcs Inspectors令 ProgreSSKendO URecommended by the iaMost read in JavaScript: Tips for Optimizing yourAngular Application Read Article点击上图中“Tools”菜单下的“Options”按钮进入工具配置界面,效果如卜图所示。点击图中七。所。明。的”按钮,之后进行端口号的配置,效果如下图所示。第四步手机配置。由于抓取的是手机APP数据,因此需要在同一局域网内进行手机网络的配置,进入手机WiFi修改界面,设置手动代理并进行主机IP和端口号的配置,效果如下图所示。WiredSSIDQ高级选项代理手动浏览器会使用HTTP代理,但其他应用可能不会使用。代理费!黄喜主机右192.168.10.233主机IP地址代理豳哥口8888FiddIer扒包工具设置的端口号对以下网址不使用代理取消保存第五步APP页面分析。配置完成后,即可使用当前手机打开需要爬取的APP,这里使用的是美团APP,页面美食网 Q六步查看APP信息。找到需要抓取的页面后,在FidClIer抓包工具页面中会获取到当前APP请求网络的路径,点击路径后即可查看当前APP的相关信息,效果如下图所示。aSWinConfigJReplayX»Go.Streamf溟DeCOdelKeep:Allsessions*AnyProcess的Find5¾Save萌3456789012345Sd¢444495555599999CJ9999*二:广比匕'*lu-广r.ft6.匕TJ)M)n)222222Resl2(x220(20(20(20(20(505050505050H11PH11PH11PH11PH11PZH11P霹HTTPH11PHostURLBodyCachingTunndtotng.me!tua.net-H3OTunndtoMng.mertua.net443OTunndto:443OTunndtong.mertua.net443OTunnelto:443OTunndtoimg.mtua.net443OTUnndto:443OTunndtodentsLgOOgtecom:443582-cache,must-rTunndto:443582no-cache,mst-nTurmdtocfentsl.googie.axn:443582no<ade,must-nTunndto:443582<ade,must-rTunndto:443582no<achejmust.TunndtodentsL:443网络请求路径582-cache,must-f一二R拨957一4UUI-'IUJ<ujcy.lmiUdil.>!Ll"200HTTP33,366藐懑黑懑淳懑席一VW222222coo222222c2o(2o)5o5o5o5oso5o22ol2ot5o5o5o5o5o5o29012345678901234565<l6(l6666e.e«el&7t777777l。999999999999Ch9-伫匕u*Lu,l1产。匕色曲c匕ft巴广iu"H<:443dentsL:443:443dentsl.QOO<>:443dntsl.googte.xnz443dentsl.google.axn:443:443sZmn.wpscdn.zH3xxfigwpstraycfig.js00582no-cade,must-r582-cache,must-r58211o<ache,must-582no<ad>e,must-n582-cade,must-rS82<ache,must-f01,137max-age=7200;E°582no<ache,mt<S82no<ache,must<582-cache,must-r582-cache,must-f582o<ade,must-f*582no-cache,must<43DTivate.ma×-aoeQuidcExccALT+Q>typeHaPtoteammore电FiddterOrchestraBetaHddterScript3LOeFiltersTnefre色StatisticsInSPeCtorS$AutoResponderWComposerIHeadersTextViewSyntaxViewWebFormsHexViewAuthCookiesRawJSONXML第七步代码编辑基本配置和信息获取完成后即可进行代码的编辑,将上面获取的相关请求头信息填入代码相应的位置,之后将爬取路径放入请求方法中进行页面内容的请求,之后通过JSe)N信息的分析,爬取需要的页面信息,如有需要可将信息保存到本地文件,代码如下所示。#弓|入Requests库importrequestsdefmain():#定义请求头headers=#将FiddIer右上方的内容填在headers中nAccept-Charsetn:UUTF-8”,“Accept-Encoding":',gzip,uUser-Agentn:uAiMeiTuan/OPPO-5.1.I-OPPORl1-1280x720-240-5.5.4-254-866174010228027-qqcpdn,nConnectionn:uKeep-Aliveuz,Host:,u)#循环请