集搜客网络爬虫瞄准的客户群体自然是网站的管理人员,而且是需要大量站点资源更新的网站,采用自研的爬虫技术,在启动后自动搜罗全网自己定义规则下的获取信息,每天自动更换IP地址来防止被采集站点拉黑,多条线路辅助下显得各外灵活,这边是推荐采集信息设置前后时间上的延迟,成功率更高。
1、直观点选 海量采集
用鼠标点选就能采集数据,不需要技术基础,爬虫群并发抓取海量网页,适合大数据场景,无论动态或静态网页,ajax和html一样采集,文本和图片一站采集,不再需要下图软件
2、整理报表
从公司年报摘录数据、从政府报告摘录数据、从政策文件摘录数据、从PDF文件摘录数据、生成结构化的excel报表
3、摘录笔记
为学术论文收集素材、为研究报告收集素材、为市场营销准备弹药、随想随记拓展知识
4、文本分词和标签化
自动分词,建设特征词库、文本标签化形成特征词对应表、用于多维度量化计算和分析、发现行业动态,发现市场机会,解读政策,快速掌握主旨要点
1、集成化图形界面
包括网页结构窗口、工作台、显示窗口等子窗口。选取被抓取内容时,三个子窗口联动,并显示HTML节点的重要属性
2、抓取规则自动生成
指定抓取内容,定义抓取结果存放结构(整理箱),然后将网页内容分别映射给整理箱中的抓取内容,MS谋数台即可自动生成抓取规则
3、抓取规则即时验证
点击界面上的按钮,可即时验证抓取规则的有效性,若达不到预期,可立即进行修改,不用等到DS打数机实际抓取时才验证,大大提高工作效率
4、直观验证以前定义的抓取规则是否有效
网页结构变化会导致以前定义的抓取规则失效,不用人工阅读抓取规则指令,只需加载以前的抓取规则,MS谋数台会自动加载样本网页,并验证抓取规则的有效性,如果哪个抓取内容无法定位,则会在输出信息中提示错误原因
5、所见即所得地修改以前定义的抓取规则
在验证抓取规则有效性后,如果哪个抓取内容无法定位,则重新对这个抓取内容做映射操作,即可生成新抓取规则
6、对网页编程技术透明
集搜客GooSeeker用户不用关心目标网站和网页采用的编程技术,显示在网页上的内容通常都可抓取,包括AJAX即时生成的动态内容
7、原始网页内容纠错
网页的发布者在写网页的时候可能存在语法和词法错误,只要是火狐浏览器能打开的,都能定义抓取规则并进行抓取
8、对网页编码透明
所有编码格式不加区别,用户不必操心网页具体的编码,只要是合法的能够被火狐浏览器解析和显示的网页都用统一的方法定义抓取规则和进行抓取
9、抓取服务器侧动态网页
服务器侧网页可以采用各种动态技术,比如,ASP,JSP,PHP,CGI等等,集搜客GooSeeker不加区别,都用统一的方法定义抓取规则并进行抓取
10、JS实现的动态网页
集搜客GooSeeker提供一系列手段,确保JS动态网页内容抓取的正确性和完整性,而且网页抓取规则定义方法与普通网页一致,所见即所得的方式让用户觉察不到哪些JS代码执行了什么操作
11、post和get一致处理
DS打数机并不关心向服务器发送的是post还是get消息,因为DS打数机模拟用户的行为只管点击指定的按钮或超链接,至于是post还是get,由低层函数库根据HTML网页上的内容自动识别处理
12、抓取用JS实现的分页
如果内容很长,网站会分成多个网页,如果用JS实现翻页,往往每个分页没有独立的URL地址,集搜客GooSeeker可以像抓取普通分页一样,连续模拟点击翻页按钮或者超链接,抓取每一分页的内容
13、模拟点击抓取
集搜客GooSeeker可模拟用户用鼠标点击网页上确定位置的按钮或者超链接,并在点击后抓取变化了的网页内容
14、开发者模式提高JS内容抓取能力
JS是一个全特性编程语言,它可以完成的网页展示行为情形是无限的,在开发者模式下,用户输入自定义JS代码,驱动网络爬虫,使用MS和DS的爬虫函数库,适用于各种JS内容情形,比如,连续鼠标悬浮、点击、键盘录入等
15、防屏蔽抓取
有些目标网站可能根据点击行为特征屏蔽网络爬虫的过度访问,集搜客GooSeeker采用技术手段尽量避免被屏蔽
16、随机延迟
通过设置最小延迟时间和最大延迟时间,每抓完一页,DS打数机会随机在这个区间找一个延迟时间,过后才启动下一页抓取
17、高仿真模拟点击
为了混过网站的反网络爬虫识别程序的检测,集搜客GooSeeker程序通过给鼠标点击事件赋予更逼真的参数,可以在一定程度上突破反网络爬虫检测
18、爬虫群并行抓取
把爬虫分布到不同电脑上,甚至可以部署在不同地点,可以利用集搜客社区平台广泛邀请GooSeeker会员,执行会员互助抓取
19、清理运行状态
使用ADSL等动态分配地址的部署方式,定期拨号更换IP地址,也可在火狐浏览器上清除cookie和缓存
20、抓取结果本地存储
抓取结果是XML格式文件,一个目标网页对应一个文件,抓取结果默认存储在Windows用户目录下的 DataScraperWorks文件夹,含有语义标签的XML格式利于与第三方系统集成。可以批量导入到excel,也可以成批压缩打包传送给集中管理程序
21、抓取结果存储路径规划
缺省情况下,抓取结果存储在系统盘C中,为了防止过度消耗系统盘的可用空间,可通过DS打数机的菜单,把存储目录指向别处,可规定每个文件夹存储的结果文件数量,DS打数机能自动创建深层文件夹,存储更多文件。为了防止创建过深的目录结构,可定期修改顶层目录的指向
22、断点续抓
在网络拥塞、设备断电、宕机、程序不可自修复故障、维护性或者意外关闭情况下,抓取程序重新恢复运行后,能够从任务中断处接着进行抓取
23、接替故障爬虫的抓取任务
DS打数机组成的网络爬虫集群工作在协同方式下,某台计算机失败,则集搜客服务器不再为其分配任务,那么正常的爬虫自然会接替这台计算机的工作
24、自动登录和输入验证码
软件具有自动登录功能,如果遇到验证码,可与打码平台对接,将打码平台返回的码值自动录入,无需人工看管。自动登录所需的账号密码信息需配置在周期性抓取调度文件中,文件名crontab.xml
25、手工预先登录
运行火狐浏览器并手工访问并登录目标网站,再运行集搜客软件,集搜客软件就能使用此手工预先登录状态
26、手工启动测试网络爬虫
用MS谋数台定义完抓取规则,并执行了保存操作,则在谋数台工具条上可以点击爬数据按钮启动一个测试用网络爬虫,即时验证抓取的正确性
27、手工启动单搜网络爬虫
单搜就是一次只使用一个抓取规则抓取一批网页,也就是说网络爬虫线程是独占的。便于观察失败情况,主要用于为一个项目专注抓一批网页内容
28、手工启动集搜网络爬虫
集搜就是能用一群网络爬虫线程同时抓取网页,每个线程服务一个抓取规则。主要用于要抓取的网站多,还想人工观察抓取进度的情形
29、周期性自动启动爬虫群
在网络爬虫计算机上配置周期性抓取调度文件(crontab.xml),可以启动多个爬虫线程,每个线程服务一个抓取规则,多个线程也可服务同一个抓取规则。可设定周期性调度参数
30、会员协同抓取
创建一个工作组,邀请其他会员加入工作组,每个会员的DS打数机都可以为相同的抓取规则服务,每个计算机也可以运行多个线程,提高抓取能力
31、增量抓取
对于不断发布新内容的网站,没有必要重复抓取以前抓取过的内容,通过在周期性抓取调度文件中设定相应参数,可以只增量抓取新内容
32、网络爬虫路径规划
互联网的页面由超链接相互连接起来就像一张蜘蛛网,DS打数机称为网络爬虫,MS谋数台定义抓取规则的时候可以设定下级线索,指示打数机进行深度和广度扩展
33、不限深度不限广度
集搜客对网站深度和广度不设限,任由您规划。集搜客对采集数量不设限,不会根据时间或者根据网页数量扣取积分或者费用,您把整个互联网下载下来都行
34、深度和宽度可限定
必要的时候,您可限定深度和宽度,以节省网络爬虫的计算机资源。在周期性抓取调度文件中进行设定
35、连贯抓取和非连贯抓取
连贯抓取主要用于翻页抓取,也用在多个抓取规则之间连续跳转页面抓取,比如,ajax页面的连续模拟点击抓取。也可以不设定连贯抓取,那么为跳转到的页面生成独立线索,可以在另外的线程中抓取新线索
36、抓指数图表
利用开发者扩展接口,允许技术基础高的用户用Javascript自定义更高级的网络爬虫动作,比如: 驱动鼠标在图表上移动,抓取悬停后显示的数据、模拟人的连续的鼠标点击动作、连续地输入查询条件。
37、高效率抓取
为了提高抓取效率,尤其在无人值守长期运行的情况下,DS大数据提供多个设置参数,可确保高效运行
38、自动关闭弹窗
勾选关闭弹窗之后,爬虫会自动关闭所有新近开启的火狐窗口,可以防止打开过多窗口导致内容耗完
39、配置浏览器加载选项
可告知DS打数机,不要加载图片、插件、js代码等,从而提高抓取速度
一、直观标注
在网页上,看到想采集的内容,点击两次,就弹出一个标签,给标签起个名字。把所有要采集的内容逐个这样标注。不分先后顺序。
二、整理箱
采集到的内容要存到一个表格里面,这个表格就叫整理箱,表示:把网页上的内容整理好,存在一个箱子中。这个整理箱显示在右边的一个浮动工作台上。
三、映射
映射这个词经常出现,表示:把网页上的内容与整理箱中的标签建立联系。标注过程就是建立映射关系,有了这个关系,网络爬虫就知道从哪里采集数据并存储到哪里。
第一步:打开网页
1.1,打开GS爬虫浏览器,输入网址并Enter,加载出网页后再点击定义规则按钮,看到一个浮窗显示出来,称为工作台,在上面定义规则;
1.2,在工作台中输入主题名,再点击查重,提示该名可以使用或该名已被占用,可编辑:是,就可以使用这个主题名,否则请重命名。
Tips:为了能准确定位网页信息,点击定义规则会把整个网页定格住,不能跳转网页链接,点击普通浏览,才会恢复到普通的网页浏览模式。
第二步:标注需要采集的信息
2.1,标注是针对网页的文本信息来操作的,双击目标信息就会选中它,在弹出小窗中输入标签名,打勾确认或Enter。首次标注还要输入整理箱名称,即存数据的表名。这也是标签与网页信息建立映射关系的过程。
2.2,重复上一步操作来标注地址、电话信息。
第三步:存规则,抓数据
3.1,点击测试,检查信息完整性。不完整的话,对整理箱的标签右击删掉后,再重新标注即可。
3.2,点击存规则。
3.3,点击爬数据,弹出DS打数机开始采集数据,测试采集规则是否有效。除了通过爬数据按钮来启动采集任务之外,还有其他运行方式,详见《DS打数机采集数据》。
第四步:查看数据
4.1,采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中。
1、采集结果存储位置
打数机采集下来的数据保存在哪里?在DS打数机的文件菜单->存储路径中可以找到文件路径。采集成功的话,网页数据会以xml文件形式保存在电脑的DataScraperWorks文件夹中。
2、采集结果文件格式
在对应主题名的文件夹中会看到成功采集的xml文件,xml文件是对应网页生成的,一页会生成一个xml文件。
注意:一个文件夹默认存储10000个xml文件,超过的话就会创建一个子文件夹m,继续存储新的xml文件,如需修改这个存储量的大小,请到DS打数机的文件菜单->存储路径里修改文件数量。
3、采集结果文件处理方法
xml文件可以用浏览器、记事本、excel打开,通过一些工具可以转为其他文件格式。例如:用集搜客会员中心的数据管理功能可以转换为excel格式,操作见《xml转为excel》,可以得到如下图的数据表。
1、网络爬虫状态错误,无法从FAILED状态启动爬虫?
这个报错是说服务器连接失败,失败的时候显示为红色状态,正常是绿色
2、保存信息结构描述文件失败:not writable?
①主题名重复了,换个主题名就行
②爬虫路线工作台上,如果有下级线索,也要注意不能与别人重名。都有查重按钮,可以检查一下
3、为什么谋数台又打不开了,打数机能打开?
①火狐自动升级后跟爬虫不配套,就不能正常使用了,所以,安装火狐的时候要去工具菜单->选项->高级->更新里设置不检查更新
②下载了更高版本或中国版火狐,里面安装很多插件,可能影响到gooseeker爬虫的正常使用
③电脑安装了360等杀毒软件,会悄悄破坏其他程序,只需禁止其安全防护功能
上文就是小编为您带来的集搜客网络爬虫软件了,更多精彩软件请多多关注软件爱好者。
在数字化金融浪潮中,比特币以其独特魅力成为加密货币的代名词。它由神秘人物中本聪于2008年提出概念,并于2009年正式发布开源软件,开启了第一个区块链网络。很多小伙伴还不太清楚比特币是如何形成的?下面就让小编为你详细讲解一下吧!比特币是怎么形成的?比特币是一种基于密码学和去中心化网络的数字货币。它的产生始于2008年,当时中本聪提出了比特币的概念,并于2009年1月3日正式发布并启动了比特币系统