火车采集器V7正式版新版本对程序进行了完全的重构,是一个全新的采集平台。火车头采集器v7.6企业版包含了数据采集最常用的计划任务,数据发布,正文识别、OCR图形图像识别,采集入库等模块,可以支持其它采集软件快速稳定在平台上使用。
软件特性
1、无限级多页采集,可以实现无限深度的采集
2、任务队列运行管理,支持Cron表达式
3、无限级分组任务管理,任务回收站功能
4、RSS地址采集功能
5、列表页分页采集获取功能
6、列表页附加参数获取功能
7、列表页及标签XPath可视化提取功能
8、标签纯正则替换功能
9、Http接口查看运行情况
10、导出记录为单个或多个Txt、html 文件
11、标签间自由组合功能
12、针对标签内容继续发送Http请求功能
13、无限级列表网址采集
14、从Http头信息中获取数据
15、标题内容正文提取功能
16、Aspx列表分页自识别
17、多网站站群式web发布
18、导出记录为Word格式
19、导出所有记录为Excel格式
20、使用随机二级代理服务器(支持Socket代理)
21、多扩展间数据交换功能
22、下载的图片自动加增强型水印功能
23、Ocr识别(图片转化为文字)
24、Http接口管理采集器运行
25、Mongodb数据库保存数据
26、主从服务器分布式采集
火车采集器v7.6绿色正式版更新列表:
1、gif的图片不再加水印,修复加水印文字时没有判断加水印条件的问题;
2、增加了迅雷快传,YunFile,千脑,金山网盘文件上传功能;
3、增加了用户可以选择删除记录时是否删除下载文件的选项;
4、增加了日志记录,通过上传文件功能;
5、增加了批量导入数据导入网址功能;
6、添加了发布时使用代理功能;
7、修复当使用一般采一边发方式时保存为本地excel不起作用的bug;
8、文件保存格式中支持[标签:ID],可以将记录的id做为目录的一部分了;
9、处理了一个将$编码错误的问题;
10、增加若干个错误检查,防止采集器退出;
11、更换汉字转拼音词库,汉字增加到1万8;
12、更新自动补全链接中迅雷地址补全不对的问题。
火车头采集平台定义了统一的接口规范并提供了大量的api,用户可以很方便的开发自己的应用并在该平台上运行,可以减少开发上时间和成本。目前平台上有官方自带火车采集器。
此软件版本为火车采集器v7.7绿色正式版,软件下载后直接解压即可。注意:软件运行时,要有.net2.0框架,vista及win7系统用户可能会提示请求管理员权限,请放行。如果没有请下载!
安装说明★★
火车头数据采集平台要求:您的电脑必须安装.net framework2.0或2.0以上框架.如果您的采集器打不开,请下载并安装该框架
附windows .net framework 2.0
32位下载地址:http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe
64位下载地址:http://download.microsoft.com/download/a/3/f/a3f1bf98-18f3-4036-9b68-8e6de530ce0a/NetFx64.exe
若要从3.2sp5,2008,2009或2010版直接升级到火车头数据采集平台最新版,请运行程序目录下的 UpdateToV7.exe,按提示进行升级。升级程序不会对原来的数据进行任何的修改,但为了防止用户误操作,请在升级前备份旧版本数据和配置。备份方法是将原采集器完整复制一份。
1.采集规则
简称规则,V7以前版本采集规则分为站点规则和任务规则,通常是指任务规则。V7版及以后采用无限级分组管理任务规则,所以不再有站点规则的概念。所谓采集规则就是要采集一个网站或某一网站栏目网页需要在软件里进行的设置。这个设置可以从软件里导出保存成一个文件并可以再导入到软件里。V7版的任务规则文件后缀名为.ljobx,以前的站点规则文件的后缀名为:.lsite;任务规则文件的后缀名为:.ljob。
2.采集任务
采集任务又简称为任务。它是采集规则和发布规则的总和。也是采集规则和发布规则的载体。采集规则和发布规则的设置通过在任务编辑框里进行设置。从采集器里导出的采集规则文件(.ljobx后缀的)也可称为任务规则。导入导出任务规则就是指导入导出.ljobx文件。
3.发布模块
发布模块又称模块、发布规则,分为WEB发布模块和数据库发布模块。所谓发布模块就是在需要将已经采集的数据发布到目的地(比如:网站/后台中或指定数据库中)时在软件里进行的设置。这个设置可以保存成一个文件并可以导入到采集器里使用。数据库发布模块文件的后缀名为:.dpm;WEB在线发布模块文件的后缀名为:.wpm。(采集规则和发布模块都可以从采集器里导出,也都可以导入到采集器中使用。采集规则负责将网页上的数据采集下来,发布模块负责将采集的数据发布到网站中。可见,采集规则的编写和修改和被采集的网站有关系,而发布模块的编写和修改和要发布数据的网站有关系。如从不同的网站栏目采集数据往同一个网站的某个板块(频道)里发布,需要多个采集规则和一个发布模块。从一个网站栏目采集数据往不同的网站系统里发布,需要一个采集规则和多个发布模块。注意这里的说的采集规则是指采集网站和抓取内容的设置。)