《数据采集技术(初级)》实验手册项目4:抽取网页数据.docx
《《数据采集技术(初级)》实验手册项目4:抽取网页数据.docx》由会员分享,可在线阅读,更多相关《《数据采集技术(初级)》实验手册项目4:抽取网页数据.docx(8页珍藏版)》请在第壹文秘上搜索。
1、任务1使用XPath提取网页数据任务描述在数据采集过程中,需要熟悉网页的数据提取和拆分。本任务是使用GoOgIeChrome浏览器辅助构造XPath提取浪潮官网中轮播图下面的列表信息。使用XPath提取网页数据的思路如下:(1)打开浏览器,找到对应的网站地址。(2)使用“检查”的方式查看网页源码。(3)使用GoogleChrome浏览器实现XPath路径的保存。(4)构造截取信息的XPatho(5)编写代码,使用python中的Ixml截取所需信息。任务步骤第一步百度搜索浪潮大数据,打开浪潮官网。C https /Www inspurxQm Iva 存U动Mr 400&0YTOe w mwMf
2、 4ooaoo 曰考RamE 8oyo7m*u,on1iM1MM”25WI“WxdnX-ISO%.*当业、专注的自主切新理念,提供安全霆X.智畸I台的存他产品及解决方家,充捌工做企业或应用Ia云、大效据、.充分网09业务原统陶霹茕动,A住舐,搔俊程性堤、可用.效率的IT费号.ScuEvMHtsNetworkTnrwraA*nfUwuc*Scw*tAWdQConaotoW,.Sgr.gk“23B4Rr33八八lr-【:门”tituU$vMHb则彳:6电良或ulfWPTbUIS人“加TE%多Ib优化gfll户&ttzvY-t*“stl-*tyl-MgKCgt81Hw0rc4XZ8WClwlRIWt
3、Ta)M.Sl(U:2M;U.。丫,3,11,*1.,243.M,S,4p.(-T,-rnn*Pr*r*f-O-第五步选定要提取的位置以后,开发者工具窗口的代码如卜.图所示。口出删关S应用主机承.审业、专注的自主IM淅现念,安全盛次、哲髭融台的存何产区及解决方案,充分海定传貌企业俄应阴粕云、大数Jt修充分副g三N翼埼IE5动.Afi皿L.E用、效率的ITj三3.91M*.tylIAidsWliiud.tbXMCMrotfM:E”G4lv*41vCUss-POrtltt-1。“XWXTXgH447)XCt3l09加12卷”7497窗3小$4.Olv41vcl*ssportletio11B1O71
4、M4MM22MCO9*m2i299n470M5W)l)etU0ilpXy:p;-dlv-16.5Zi-dC:1M).SW*(*Uat:l*t;wit*:27;acfift.right:11;Mjdwco*H力Sd*2OMa5W4d叱56、第六步在上面单击右键,选择“Copy”一“CopyXPath”命令,如下图所示。寻找一个可以输入文字的地方,把结果粘贴下来,可以看到如卜的XPath语句:/*Qid=nIl151f3a715d42088f88f2f2a5934cfaciiv2div1/table1这种写法是可以被IXml解析的。方括号中的数字,表示这是第几个该标签。例如/*(5)id=,111
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据采集技术初级 数据 采集 技术 初级 实验 手册 项目 抽取 网页
