一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

服務器之家:專注于服務器技術及軟件下載分享
分類導航

PHP教程|ASP.NET教程|JAVA教程|ASP教程|

服務器之家 - 編程語言 - JAVA教程 - java簡單網頁抓取的實現方法

java簡單網頁抓取的實現方法

2019-12-07 15:51shichen2014 JAVA教程

這篇文章主要介紹了java簡單網頁抓取的實現方法,詳細分析了與Java網頁抓取相關的tcp及URL相關概念,以及對應的類文件原理,具有一定的參考借鑒價值,需要的朋友可以參考下

本文實例講述了java簡單網頁抓取的實現方法。分享給大家供大家參考。具體分析如下:

背景介紹

一 tcp簡介

  1 tcp 實現網絡中點對點的傳輸

  2 傳輸是通過ports和sockets

  ports提供了不同類型的傳輸(例如 http的port是80)

    1)sockets可以綁定在特定端口上,并且提供傳輸功能

    2)一個port可以連接多個socket

二 URL簡介

URL 是對可以從互聯網上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址。

互聯網上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置以及瀏覽器應該怎么處理它。

綜上,我們要抓取網頁的內容實質上就是通過url來抓取網頁內容。

Java提供了兩種方法:

一種是直接從URL讀取網頁

一種是通過 URLConnection來讀取網頁

其中的URLConnection是以http為核心的類,提供了很多關于連接http的函數

本文將給出基于URLConnection的實例代碼。

在此之前我們先來看下關于url的異常。不了解java異常機制的請參看上一篇博文。

構造URL的異常MalformedURLException產生條件:url的字符串為空或者是不能辨認的協議

建立 URLConnection的異常 IOException產生條件: openConnection失敗,注意openConnection時 代碼還未連接遠程,只是為連接遠程做準備

綜上所述,最終代碼如下:

復制代碼代碼如下:

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;

 

public class SimpleNetSpider {

    public static void main(String[] args) {

        try{
            URL u = new URL("http://docs.oracle.com/javase/tutorial/networking/urls/");
            URLConnection connection = u.openConnection();
            HttpURLConnection htCon = (HttpURLConnection) connection;
            int code = htCon.getResponseCode();
            if (code == HttpURLConnection.HTTP_OK)
            { 
                System.out.println("find the website");
                BufferedReader in=new BufferedReader(new InputStreamReader(htCon.getInputStream()));
                String inputLine;
                while ((inputLine = in.readLine()) != null) 
                        System.out.println(inputLine);
                    in.close();
            }
            else
            {
                System.out.println("Can not access the website");
            }
        }
        catch(MalformedURLException e )
        {  
            System.out.println("Wrong URL");
        }
        catch(IOException e)
        {
            System.out.println("Can not connect");
        }
    }
}

 

希望本文所述對大家的Java程序設計有所幫助。

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 亚洲国产黄色 | 亚洲第一区在线观看 | 91色资源网在线观看 | 嫩草影院精品视频在线观看 | 午夜福利在线观看6080 | 久久青青草原综合伊人 | free哆拍拍免费永久视频 | 午夜视频一区二区三区 | 2018天天拍拍拍免费视频 | 91制片厂果冻传媒杨柳作品 | 王王的视频ivk | 乌克兰精品摘花处破 | 国产99久久精品一区二区 | 网友自拍咪咪爱 | 免费视频 久久久 | 91麻豆精品国产自产在线 | 好男人资源在线观看免费的 | 99热这里只有精品在线 | 污黄在线观看 | 国产欧美视频一区二区三区 | 四虎精品成人免费影视 | 莫莉瑞典1977k | 欧美最猛性xxxxx69交 | 国产99久久久国产精品成人 | 日韩精选| 天天操夜夜操狠狠操 | 青青操在线播放 | 日日干影院 | 国产成人啪精品午夜在线播放 | 亚洲AV无码专区国产乱码网站 | 国产精品欧美一区二区 | 超h高h肉h文武侠 | 微拍秒拍99福利精品小视频 | 韩国漂亮美女三级在线观看 | 色聚网久久综合 | 国产视频一区二 | 久久亚洲精品AV成人无码 | 欧美一区二区三区免费看 | 亚色九九九全国免费视频 | 亚洲欧美日韩久久一区 | 草草草视频在线观看 |