Web Scraper是一款适合谷歌浏览器使用的网页数据提取插件,通过使用该插件,可以快速,有效,准确的提取页面数据。可任意选择抓取范围,让你想抓就抓随心所欲,并且还能将你所需要的数据转换为CSV文件转出,是一款不可多得的网页内容提取插件。需要的朋友赶紧来本站下载吧!

Web Scraper特点
1、刮多頁
2、從動態頁面
3、出口刮數據作爲CSV
4、進口,出口的Sitemaps
5、只依賴于Chrome浏覽器
6、提取数据(的JavaScript AJAX)
7、刮數據存儲在本地存儲或CouchDB的
8、浏览刮数据/> 3、多个数据选择类型
插件功能
使用多線程快速掃描任何網站
在WebScraper主窗口中,必須指定要掃描的網頁的URL地址以及用于完成此過程的線程數。你可以借助一個簡單的滑塊來調整後面的參數。
爲避免任何不必要的掃描,您可以選擇僅抓取單個網頁,然後通過簡單的鼠標點擊開始此過程。在實時查看窗口中,您可以看到每個鏈接返回的狀態消息,這在處理調試任務時可能會很有用。
提取各種類型的信息,並將數據導出爲CSV或JSON
在WebScraper輸出面板中,您可以選擇希望實用程序從網頁中提取的信息類型:URL,標題,描述,與不同類或ID關聯的內容,標題,頁面內容各種格式(純文本,HTML或MarkDown)和最後修改日期。
您還可以選擇輸出文件格式(CSV或JSON),決定合並空格,並在文件超出一定大小時設置警報。如果您選擇采用CSV格式,則可以選擇何時在列周圍使用引號,采用引號替換引號或行分隔符類型。
最後但並非最不重要的是,WebScraper還允許您更改用戶代理,設置鏈接數量和來自主頁的點擊數量的限制,可以忽略查詢字符串,並可將根域的子域作爲內部頁面。
插件安裝方法
1、在欧普軟件园下载这款插件,把插件文件从压缩包里解压出来才可以进行安装;
2、打開浏覽器,進入浏覽器的插件管理頁面【chrome://extensions/】,並把解壓好的.crx文件拖拽進來添加;
3、等待插件安裝完成,您只要在界面點擊該插件的圖標即可開始使用該插件。
插件使用說明
一、安裝
1、小编这里使用的是chrome浏览器,首先在标签页输入【chrome://extensions/】进入chrome扩展程序,解压你在本页下载的Web Scraper插件,并拖入扩展程序页即可。
2、安裝完成後趕緊試試該插件的具體功能吧。
3、當然你頁可以先在設置頁面中對該插件的儲存設置和儲存類型功能進行設置。
二、使用抓取功能
安裝完成後,只需四步即可完成爬取操作,具體流程如下:
1、打开Web Scraper
首先要使用該插件來提取網頁數據需要在開發者工具模式中使用,使用快捷鍵Ctrl+Shift+I/F12後在出現的開發工具窗口中找到插件同名一欄即可。
2、新建一個Sitemap
点击Create New Sitemap,里面有两个选项,import sitemap是指导入一个现成的sitemap,咱小白一般没有现成的,所以一般不选这个,选create sitemap 就好。
然後進行這兩個操作:
(1)Sitemap Name:代表你这个Sitemap是适用于哪一个网页的,所以你可以根据网页来自命名,不过需要使用英文字母,比如我抓的是今日头條的数据,那我就用toutiao来命名;
(2)Sitemap URL:把网页链接复制到Star URL这一栏,比如图片里我把「吴晓波频道」的主页链接复制到了这一栏,而后点击下方的create sitemap来新建一个Sitemap。
3、設置這個Sitemap
整个Web Scraper的抓取逻辑是这样:设置一级 Selector,选定抓取范围;在一级 Selector 下设置二级 Selector,选定抓取字段,然后抓取。
对于文章而言,一级 Selector 就是你要把这一块文章的要素圈出来,这个要素可能包含了 标题、作者、发布时间、评论数等等,然后我们再在二级 Selector 中挑出我们要的要素,比如标题、作者、阅读数。
下面我们来拆解这个设置一级、二级 Selector 的工作流:
(1)点击 Add new selector 创建一级 Selector。
而後按照以下步驟操作:
-輸入id:id代表你抓取的整個範圍,比如這裏是文章,我們可以命名爲wuxiaobo-articles;
-选择Type:type 代表你抓取的这部分的类型,比如元素/文本/链接,因为这个是整个文章要素范围选取,我们需要用Element 来先整体选取(如果这个网页需要滑动加载更多,那就选 Element Scroll Down);
-勾选Multiple:勾选 Multiple 前面的小框,因为你要选的是多个元素而不是单个元素,当我们勾选的时候,爬虫插件会帮助我们识别多篇同类的文章;
-保留設置:其余未提及部分保留默認設置。
(2)點擊select選擇範圍,按照以下步驟操作:
-選擇範圍:用鼠標選擇你要爬取數據的範圍,綠色是待選區域,用鼠標點擊後變爲紅色,才是選中了這塊區域;
-多選:不要只選一個,下面的也要選,否則爬出來的數據也只有一行;
-完成选择:记得点Done Selecting;
-保存:点击Save Selector。
(3)設置好了這個一級的Selector之後,點進去設置二級的Selector,按照以下步驟操作:
-新建Selector:点击 Add new selector ;
-輸入id:id代表你抓取的是哪個字段,所以可以取該字段的英文,比如我要選「作者」,我就寫「writer」;
-選擇Type:選Text,因爲你要抓取的是文本;
-勿勾选Multiple:不要勾选 Multiple 前面的小框,因为我们在这里要抓取的是单个元素;
-保留設置:其余未提及部分保留默認設置。
(4)点击 select,再点击你要爬取的字段,按照以下步骤操作:
-選擇字段:這裏爬取的字段是單個的,用鼠標點擊該字段即可選定,比如要爬標題,那就用鼠標點擊某篇文章的標題,當字段所在區域變紅即爲選中;
-完成选择:记得点 Done Selecting;
-保存:点击 Save Selector。
(5)重複以上操作,直到選完你想爬的字段。
4、爬取數據
(1)之後你想要爬取數據只需要設置完所有的Selector就可以開始:
点击Scrape,然后点Start Scraping,弹出一个小窗后爬虫就会开始工作。你会得到一个列表,上面有你想要的所有数据。
(2)如果你希望把这些数据做一个排序,比如按照阅读量、赞数、作者等指标排序,让数据更一目了然,那么你可以点击 Export Data as CSV,把它导入 Excel 表里。
(3)导入 Excel 表格之后,你就可以对数据进行筛选了。
