顶尖时代网络信息采集软件 Top Spider

1    Top Spider介绍

  中文名称:顶尖时代智能信息采集系统软件

  英文名称:Top Spider

  版本: V3.5

Top Spider是一套互联网定向网页信息采集,分析的软件平台。系统采用先进网页抓取技术为核心,并针对专业用户所要求的采集深度、采集精度高和抓取速度快等进行了专门的优化,采用了分布式多线程并发指令执行体系结构 ,能够采集多种动态和静态网页类型 ,以及多种文档类型 ,同时网页实时增量采集技术实现分秒监测网站信息变化动态,使网站随时获取最新的信息资源。

2    Top Spider介绍及应用范围

Top Spider 依据采集配置主动抓取网站上的页面内容,然后将内容转换成为标准格式传输到Top Server进行索引。它能按照用户设定的信息采集条件,自动采集多种类型网站和内容,包括:

l  多源头采集(新闻,论坛,博客,微博等);

l  多语种采集(中文,英文等全球语言);

l  多类型采集(网页,文档,音视频等);

l  帐号登录采集(需要用户名密码登录的站点);

l  定向内容采集(按照某内容主题采集);


topspider1.png


Top spider在采集过程中,它将自动分析这个页面中的相关链接,然后继续抓取相关的页面。这些链接页面的判断是基于抓取器中相关配置,把需要的内容抓取过来,无用的信息排除掉。同时它还可以实现采集的预处理,包括排重处理,分类标引等,如下所示:


topspider2.png


根据用户信息采集的需求,Top Spider可以广泛的应用多种基于互联网应用的系统。具体类别:

l  搜索引擎与垂直搜索

l  综合门户与行业门户

l  电子政务与电子商务

l  知识管理与知识共享

l  企业竞争情报系统

l  信息咨询与信息增值

l  网络舆情监控系统

通过Top Spider的数据输出提供给以上各个系统及时、全面的网站信息。



产品结构图

topspider3.png


    Top Spider特点

   采集速度快

支持定义多站点,每站点多线程采集,可以高速采集网站,可以达到每分钟采集500个网页。

   采集内容全面

支持多种网页格式(ASP、JSP、PHP)网站采集,支持session 设置采集,支持多种文档附件(Doc、Xls、Pdf)采集

 采集规则定义灵活

支持采集url定义规则,支持定义屏蔽多种文件(GIF,JPG,mp3)格式采集规则。可以按照域名采集,可以按照站点采集,可以控制过滤URL格式。

    结果输出支持多种格式

采集网页的结果可以输出到用户指定的系统中。

支持输出到各种主流数据库,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等;

支持输出到全文检索系统,Top Server平台;

支持输出到文件格式txt。

    支持分布式海量网页数据采集

针对大量采集入口需求,采用多台客户机部署分布式采集,可以支持海量网页数据采集。可以支持几千站点,千万网页内容的采集。

    支持用户密码认证网页数据采集

在获得用户密码后,定义到系统认证模块,可以采集此类站点信息。

   针对屏蔽采集处理策略

采集软件配置采集进程与采集URL间隔参数

循环动态拨号控制

采用代理服务器IP配置,Top Spider 用多个代理采集,不断更换轮巡

模仿百度GOOGLE搜索引擎采集协议 




  Top Spider部分用户

政府

l  卫计委门户:门户网站群采集

l  人社部:内网资源采集

l  解放军某部:军网内网资源采集

l  北京市政府:首都之窗网站群采集

l  广州市政府:网络资源信息采集

l  海淀区政府:网站群采集

l  浙江扬州市政府:网络舆情信息采集

l  湖北潜江市政府:网络舆情信息采集

l  重庆江北区政府:网站群信息采集

l  广东国土局:网络舆情信息采集

l  河北检疫局:行业站点信息采集

l  卫计委12320 网络舆情采集

企业

l  国家电网集团:内网网站群采集

l  中国移动集团:省公司网站群采集

l  中国钢研集团:钢铁行业网站采集

l  中国电信集团:电信行业网站采集

l  中国有色集团:有色行业网站采集

l  亿利资源集团:能源行业网站采集

l  新奥集团:能源行业网站采集

l  冀东水泥:水泥行业网站采集

中国日报:媒体网站资源管理系统    




热门推荐