黄片一级毛片,国产午夜精品久久久久免费视小说 ,香蕉视频国产精品

本篇文章抓取目標網站的鏈接的基礎上，進一步提高難度，抓取目標頁面上我們所需要的內容并保存在數據庫中。這里的測試案例選用了一個我常用的電影下載網站（http://www.80s.la/）。本來是想抓取網站上的所有電影的下載鏈接，后來感覺需要的時間太長，因此改成了抓取2015年電影的下載鏈接。

一原理簡介

其實原理都跟第一篇文章差不多，不同的是鑒于這個網站的分類列表實在太多，如果不對這些標簽加以取舍的話，需要花費的時間難以想象。

Java爬蟲抓取視頻網站下載鏈接

分類鏈接和標簽鏈接都不要，不通過這些鏈接去爬取其他頁面，只通過頁底的所有類型電影的分頁去獲取其他頁面的電影列表即可。同時，對于電影詳情頁面，僅僅只是抓取其中的電影標題和迅雷下載鏈接，并不進行深層次的爬行，詳情頁面的一些推薦電影等鏈接通通不要。

Java爬蟲抓取視頻網站下載鏈接

最后就是將所有獲取到的電影的下載鏈接保存在videoLinkMap這個集合中，通過遍歷這個集合將數據保存到MySQL里

二代碼實現

實現原理已經在上面說了，并且代碼中有詳細注釋，因此這里就不多說了，代碼如下：

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217	`package` `action;` `import` `java.io.BufferedReader;` `import` `java.io.IOException;` `import` `java.io.InputStream;` `import` `java.io.InputStreamReader;` `import` `java.net.HttpURLConnection;` `import` `java.net.MalformedURLException;` `import` `java.net.URL;` `import` `java.sql.Connection;` `import` `java.sql.PreparedStatement;` `import` `java.sql.SQLException;` `import` `java.util.LinkedHashMap;` `import` `java.util.Map;` `import` `java.util.regex.Matcher;` `import` `java.util.regex.Pattern;` `public` `class` `VideoLinkGrab {` `public` `static` `void` `main(String[] args) {` `VideoLinkGrab videoLinkGrab =` `new` `VideoLinkGrab();` `videoLinkGrab.saveData("http://www.80s.la/movie/list/-2015----p");` `}` `/*` ` 將獲取到的數據保存在數據庫中` `` ` @param baseUrl` `* 爬蟲起點` `* @return null` `* /` `public` `void` `saveData(String baseUrl) {` `Map<String, Boolean> oldMap =` `new` `LinkedHashMap<String, Boolean>();` `// 存儲鏈接-是否被遍歷` `Map<String, String> videoLinkMap =` `new` `LinkedHashMap<String, String>();` `// 視頻下載鏈接` `String oldLinkHost =` `"";` `// host` `Pattern p = Pattern.compile("(https?://)?[^/\\s]"); // 比如：http://www.zifangsky.cn` `Matcher m = p.matcher(baseUrl);` `if` `(m.find()) {` `oldLinkHost = m.group();` `}` `oldMap.put(baseUrl,` `false);` `videoLinkMap = crawlLinks(oldLinkHost, oldMap);` `// 遍歷，然后將數據保存在數據庫中` `try` `{` `Connection connection = JDBCDemo.getConnection();` `for` `(Map.Entry<String, String> mapping : videoLinkMap.entrySet()) {` `PreparedStatement pStatement = connection` `.prepareStatement("insert into movie(MovieName,MovieLink) values(?,?)");` `pStatement.setString(1, mapping.getKey());` `pStatement.setString(2, mapping.getValue());` `pStatement.executeUpdate();` `pStatement.close();` `// System.out.println(mapping.getKey() + " : " + mapping.getValue());` `}` `connection.close();` `}` `catch` `(SQLException e) {` `e.printStackTrace();` `}` `}` `/*` ` 抓取一個網站所有可以抓取的網頁鏈接，在思路上使用了廣度優先算法對未遍歷過的新鏈接不斷發起GET請求，一直到遍歷完整個集合都沒能發現新的鏈接` `* 則表示不能發現新的鏈接了，任務結束` `` ` 對一個鏈接發起請求時，對該網頁用正則查找我們所需要的視頻鏈接，找到后存入集合videoLinkMap` `` ` @param oldLinkHost` `* 域名，如：http://www.zifangsky.cn` `* @param oldMap` `* 待遍歷的鏈接集合` `` ` @return 返回所有抓取到的視頻下載鏈接集合` `* */` `private` `Map<String, String> crawlLinks(String oldLinkHost,` `Map<String, Boolean> oldMap) {` `Map<String, Boolean> newMap =` `new` `LinkedHashMap<String, Boolean>();` `// 每次循環獲取到的新鏈接` `Map<String, String> videoLinkMap =` `new` `LinkedHashMap<String, String>();` `// 視頻下載鏈接` `String oldLink =` `"";` `for` `(Map.Entry<String, Boolean> mapping : oldMap.entrySet()) {` `// System.out.println("link:" + mapping.getKey() + "--------check:"` `// + mapping.getValue());` `// 如果沒有被遍歷過` `if` `(!mapping.getValue()) {` `oldLink = mapping.getKey();` `// 發起GET請求` `try` `{` `URL url =` `new` `URL(oldLink);` `HttpURLConnection connection = (HttpURLConnection) url` `.openConnection();` `connection.setRequestMethod("GET");` `connection.setConnectTimeout(2500);` `connection.setReadTimeout(2500);` `if` `(connection.getResponseCode() ==` `200) {` `InputStream inputStream = connection.getInputStream();` `BufferedReader reader =` `new` `BufferedReader(` `new` `InputStreamReader(inputStream,` `"UTF-8"));` `String line =` `"";` `Pattern pattern =` `null;` `Matcher matcher =` `null;` `//電影詳情頁面，取出其中的視頻下載鏈接，不繼續深入抓取其他頁面` `if(isMoviePage(oldLink)){` `boolean` `checkTitle =` `false;` `String id="codetool">` 注：如果想要實現抓取其他網站的一些指定內容的話，需要將其中的一些正則表達式根據實際情況進行合理修改三測試效果以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持服務器之家。 Java 爬蟲視頻網站 Java爬蟲延伸 · 閱讀 2020-06-24java使用Socket類接收和發送數據 2020-06-24Java爬蟲實戰抓取一個網站上的全部鏈接 2020-06-24JAVA 數據結構鏈表操作循環鏈表 2020-06-24Java 數據結構鏈表操作實現代碼 2020-06-24java實現zip,gzip,7z,zlib格式的壓縮打包 2020-06-24Java常見內存溢出異常分析與解決精彩推薦 JAVA教程 Spring中多配置文件及引用其他bean的方式本文給大家介紹spring中多配置文件及引用其他bean的方式，涉及到spring配置文件的相關知識，感興趣的朋友一起學習吧 ... souvc2192020-04-14 JAVA教程 Java 線程池詳解及實例代碼這篇文章主要介紹了Java 線程池的相關資料,并符實例代碼，幫助大家學習參考，需要的朋友可以參考下 ... f2yy2042020-06-16 JAVA教程 java dom4j解析xml文件代碼實例分享這篇文章主要介紹了java dom4j解析xml文件的方法，分享給大家參考 ... java技術網2152019-10-23 JAVA教程 java中final關鍵字使用示例詳解 Java中的final關鍵字非常重要，它可以應用于類、方法以及變量。這篇文章中帶你看看什么是final關鍵字？將變量，方法和類聲明為final代表了什么？使用fi... java教程網3172019-10-30 JAVA教程 Java語法基礎之循環結構語句詳解這篇文章主要為大家詳細介紹了Java語法基礎之循環結構語句，感興趣的小伙伴們可以參考一下... 生命壹號3302020-06-14 JAVA教程 spring實例化javabean的三種方式分享這篇文章介紹了spring實例化javabean的三種方式，有需要的朋友可以參考一下 ... java技術網5062019-10-16 JAVA教程 JDBC 使用說明(流程、架構、編程) 這篇文章主要介紹了JDBC 使用說明,需要的朋友可以參考下 ... mdxy-dxy3602020-01-03 JAVA教程 Servlet和Filter之間的區別與聯系這篇文章主要介紹了Servlet和Filter之間的區別與聯系的相關資料,需要的朋友可以參考下 ... 桑梓子1672020-04-24 最近更新 java使用Socket類接收和發送數據 Java爬蟲抓取視頻網站下載鏈接 Java爬蟲實戰抓取一個網站上的全部鏈接 JAVA 數據結構鏈表操作循環鏈表 Java 數據結構鏈表操作實現代碼編輯推薦 2020最新好用的web服務器軟件推薦 2服務器操作系統有哪些? 2020-04-06 3web服務器配置（圖文詳解） 2020-04-06 4企業如何選擇阿里云服務器配置? 2019-10-18 5五大免費主機管理系統優缺點對比及推薦 2019-06-14 62019最新三款Windows下連接Linux的ssh軟件下載推薦 2019-05-28 7服務器常用管理軟件盤點 2019-05-27 8Nginx服務器究竟是怎么執行PHP項目 2019-05-24 9運維必須知道的關于云服務器的十個問題 2019-05-24 10什么叫cdn服務器？怎么部署？ 2019-05-24 閱讀排行 1 Windows搭建部署RocketMQ步驟詳解 2 Spring cloud Feign 深度學習與應用詳解 3 Intellij idea2020永久破解，親測可用?。?！ 4 Scala 操作Redis使用連接池工具類RedisUtil 5 Scala常用List列表操作方法示例 6 elasticsearch啟動警告無法鎖定JVM內存 7 java分形繪制科赫雪花曲線(科赫曲線)代碼分享 8 JavaFX之TableView的使用詳解 9 Mapper批量插入Oracle數據@InsertProvider注解 10 Java應用服務器對比 Tomcat、Jetty、 GlassFish、熱門標簽 501 　 2000 　 1433 　 415 　內存卡　隨機抽取　選擇排序法　對象池模式　子線程　下載器　十六進制字符　響應　靜態工廠　構造函數　 swt 　 Overview 　短信貓　作業調度　空心菱形　 htmlparser 　支票　金額大寫轉換　終止循環體　 AspectJ 　面向切面編程　方法名　網址信息　動態代理模式　線程安全　循環鏈表　 © 2019-2020 服務器之家版權所有 m.ythuaji.com.cn 關于我們聯系我們版權申明網站地圖感谢您访问我们的网站，您可能还对以下资源感兴趣：一区二区三区在线\|一区二区三区亚洲视频\|一区二区三区亚洲\|一区二区三区午夜\|一区二区三区四区在线视频\|一区二区三区四区在线免费观看主站蜘蛛池模板：天天色踪合合 \| 国产精品天天在线 \| 日韩去日本高清在线 \| 热九九精品 \| 久久无码人妻AV精品一区 \| 水岛津实在线 \| 四虎综合九九色九九综合色 \| 久久九九有精品国产23百花影院 \| 国产播放啪视频免费视频 \| 91精品免费观看老司机 \| 逼逼爱\| 我的妹妹最近有点怪在线观看 \| 国产精品成人免费福利 \| 调教女高中生第3部分 \| 精品国产国产精2020久久日 \| 美女张开腿黄网站免费精品动漫 \| 日韩一级片在线免费观看 \| 日本黄色大片免费观看 \| 日韩理论片在线看免费观看 \| 色吧五月婷婷 \| 久久久精品免费免费直播 \| 色综合网亚洲精品久久 \| 国产精品九九热 \| 日本免费三区 \| 国产精品反差婊在线观看 \| 国产亚洲精品视频中文字幕 \| beeg日本高清xxxx18 \| 逼逼狗影院\| 互换身体全集免费观看 \| 国产成+人+综合+亚洲欧美丁香花 \| 国产精品久久香蕉免费播放 \| a毛片在线免费观看 \| 国产卡一卡二卡四卡无卡 \| 九九九九九九 \| 欧美日韩国产一区二区三区在线观看 \| 日本96在线精品视频免费观看 \| 帅小伙和警官同性3p \| 色久天\| 短篇小说肉 \| 啊哈用力cao我 \| 999久久精品国产 \|

Java爬蟲抓取視頻網站下載鏈接

延伸 · 閱讀