RSS
当前位置 : 电脑维修 > 电脑维修 > 怎样抓取网页采集网站内容

怎样抓取网页采集网站内容

来源:未知 作者:老黑 时间:09-08-25 打印
我正在维护某个地方信息网站,我有下属的一些部门网站的列表,有的时候需要去关注他们网站的状况,并且将有用的内容采集上来补充到我维护的上级网站中,有没有什么简单易用的工具做这个工作? 网页抓取/数据抽取/信息提取软件工具包MetaSeeker很适合做这个工作。

MetaSeeker是一个Web页面信息抓取/抽取/提取工具包,能够按照用户的指导,从Web页面上筛选出需要的信息,将噪音信息过滤掉,将抓取/抽取/提取到的内容存储成XML文件,然后可以集成到其它网站上。该工具包有三个工具:
1,MetaStudio,用于定制目标网页内容抓取/抽取/提取规则,完全免除编程和调试的麻烦,全图形界面,定制一个新网站的抓取/抽取/提取规则只需要几分钟
2,DataScraper,用于连续且高效得从目标网站上抓取/抽取/提取内容,并滤除不需要的内容,存成XML文件
3,SliceSearch,将抓取/抽取/提取到的内容存储到搜索引擎中,提供强大的搜索功能和内容管理功能,用于快速部署垂直搜索和商业推荐引擎。

MetaSeeker采用专有的方法识别网页的语义结构,最适合提取结构化信息对象,例如,抽取商品和价格做比价服务。当然,提取新闻等大篇幅文字内容 fef 也是轻而易举。MetaSeeker工具除了自动识别网页结构产生抽取规则外,还支持两个级别的定制扩展:1, 用XPath表达式指定页面元素的位置;2, 用XSLT模板定制页面内容的提取范围和规则。使用这些扩展,用户可以任意定义特定的抽取规则,以应对各种复杂的页面结构。MetaSeeker工具包这种基于DOM+XPath+XSLT的数据抽取方案与基于正则表达式的方案相比,更灵活、适应性更强、更容易定制

MetaSeeker工具包有两个版本:企业版和在线版,在线版是免费的,功能相同,但是,不能部署自己私有的服务器,使用公共的服务器,实际上更方便,请访问gooseeker网站下载该软件包   网页抓取/数据抽取/信息提取软件工具包MetaSeeker最新版本将提取规则定义方法扩展到3种:
1,完全由软件自动生成;
2,用户可以使用XPath表达式指定特定信息属性的定位规则;
3,用户可以定义自己的XSLT提取片段。
这样可以应对各种网页结构,灵活地提取需要的内容。

MetaSeeker免费下载和使用,地址:http://www.gooseeker.com/cn/node/download/front  
最新评论共有位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
用户名: 密码:
匿名评论