爬山虎采集器是一款简单实用的网页数据采集軟件,一款免费的网页爬虫工具。它可以采集互联网上大部分网站数据,并且将数据导出为各种格式的文件或者数据库,比如csv、excel、mysql、sqlserver、sqlite、access,甚至可以通过指定接口发布到你的网站。軟件采用可視化界面,一鍵采集,無需編程,智能分析,需要的朋友快來下載吧!

爬山虎采集器功能
向導模式
簡單易用,輕松通過鼠標點擊自動生成
腳本定時運行
可按照計劃定時運行,無需人工
獨創高速內核
自研的浏覽器內核,速度飛快,遠超對手
智能識別
对于网页中的列表、表单结构(多选框下拉列表等)能够智能識別
廣告屏蔽
定制的廣告屏蔽模块,兼容AdblockPlus语法,可添加自定义规则
多種數據導出
支持Txt 、Excel、MySQL、SQLServer、SQlite、Access、网站等
軟件优势
一鍵提取數據
簡單易學,通過可視化界面,鼠標點擊即可抓取數據
快速高效
內置一套高速浏覽器內核,加上HTTP引擎模式,實現快速采集數據
適用各種網站
能夠采集互聯網99%的網站,包括單頁應用Ajax加載等等動態類型網站
軟件安装教程
1、雙擊打開PashanhuV2Setup.exe安裝文件,進入歡迎界面,點擊下一步

2、选择安装位置,系统默认“C:\Program Files (x86)\PashanhuV2”,可以点浏览选择,之后点安装

3、安裝完成就可進行數據采集了
軟件使用说明
第一步:輸入采集網址
打开軟件,新建任务,输入需要采集的网站地址。
第二步:智能分析,全程自動化提取數據
進入到第二步後,爬山虎采集器全自動智能分析網頁,並且從中提取出列表數據。
第三步:導出數據到表格、數據庫、網站等
運行任務,將采集到的數據導出爲Csv、Excel以及各種數據庫,支持api導出。
問題解答
問:如何過濾列表中的前N個數據?
1.有時我們需要對采集到的列表進行過濾,比如過濾掉第一組數據(在采集表格時,過濾掉表格列名)
2.點擊列表模式菜單中的,設置列表xpath
問:如何抓包獲取Cookie,並且手動設置?
1.首先,使用谷歌浏覽器打開要采集的網站,並且登陸。
2.然后按下 F12,会出现开发者工具,选择 Network
3.然后按下F5,刷新下页面, 选择其中一个请求。
4.复制完成后,在爬山虎采集器中,编辑任务,进入第三步,指定HTTP Header。
更新內容
1、修複分頁的采集優先級
2、提前檢驗xpath和正則的正確性
3、其他使用了Inputbox的驗證修改
4、增加數據處理-前後綴
5、修複英文系統下亂碼問題
6、修複小分辨率下,窗口超過屏幕問題
7、新增路由撥號和adsl撥號功能
8、對等待命令增加等待某元素
9、修複form的解析
10、任務列表按時間順序排列
11、完善探測列表數據(列表就是a元素)
12、修複下載文件無後綴問題
13、新增高級過濾功能
14、添加鼠標和鍵盤的模擬操作
15、增大滾動頁數