一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

服務器之家:專注于服務器技術及軟件下載分享
分類導航

PHP教程|ASP.NET教程|Java教程|ASP教程|編程技術|正則表達式|C/C++|IOS|C#|Swift|Android|VB|R語言|JavaScript|易語言|vb.net|

服務器之家 - 編程語言 - PHP教程 - PHP使用Curl實現模擬登錄及抓取數據功能示例

PHP使用Curl實現模擬登錄及抓取數據功能示例

2019-10-10 11:26編程人,在天涯 PHP教程

這篇文章主要介紹了PHP使用Curl實現模擬登錄及抓取數據功能,結合實例形式分析了php使用curl進行登陸、驗證、cookie操作與數據抓取等相關實現技巧,需要的朋友可以參考下

本文實例講述了PHP使用Curl實現模擬登錄及抓取數據功能。分享給大家供大家參考,具體如下:

使用PHP的Curl擴展庫可以模擬實現登錄,并抓取一些需要用戶賬號登錄以后才能查看的數據。具體實現的流程如下(個人總結):

1. 首先需要對相應的登錄頁面的html源代碼進行分析,獲得一些必要的信息:

(1)登錄頁面的地址;

(2)驗證碼的地址;

(3)登錄表單需要提交的各個字段的名稱和提交方式;

(4)登錄表單提交的地址;

(5)另外要需要知道要抓取的數據所在的地址。

2. 獲取cookie并存儲(針對使用cookie文件的網站):

$login_url = 'http://www.xxxxx';  //登錄頁面地址
$cookie_file = dirname(__FILE__)."/pic.cookie";  //cookie文件存放位置(自定義)
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $login_url);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);
curl_exec($ch);
curl_close($ch);

3. 獲取驗證碼并存儲(針對使用驗證碼的網站):

$verify_url = "http://www.xxxx";   //驗證碼地址
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $verify_url);
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$verify_img = curl_exec($ch);
curl_close($ch);
$fp = fopen("./verify/verifyCode.png",'w');  //把抓取到的圖片文件寫入本地圖片文件保存
fwrite($fp, $verify_img);
fclose($fp);

說明:

由于不能實現驗證碼的識別,所以我這里的做法是,把驗證碼圖片抓取下來存放到本地文件中,然后在自己項目中的html頁面中顯示,讓用戶去填寫,等用戶填寫完賬號、密碼和驗證碼,并點擊提交按鈕之后再去進行下一步的操作。

4. 模擬提交登錄表單:

$ post_url = 'http://www.xxxx';   //登錄表單提交地址
$post = "username=$account&password=$password&seccodeverify=$verifyCode";//表單提交的數據(根據表單字段名和用戶輸入決定)
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $ post_url);
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $post);     //提交方式為post
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
curl_exec($ch);
curl_close($ch);

5. 抓取數據:

$data_url = "http://www.xxxx";   //數據所在地址
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $data_url);
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,0);
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
$data = curl_exec($ch);
curl_close($ch);

到目前為止,已經把數據所在地址的這個頁面都抓取下來存儲在字符串變量$data中了。

需要注意的是抓取下來的是一個網頁的html源代碼,也就是說這個字符串中不僅包含了你想要的數據,還包含了許多的html標簽等你不想要的東西。所以如果你想要從中提取出你需要的數據的話,你還要對存放數據的頁面的html代碼進行分析,然后結合字符串操作函數、正則匹配等方法從中提取出你想要的數據。

以上方法對使用http協議的一般網站是有效的。但是如果你要模擬登錄的是使用了https協議的網站的話還需要添加如下一些處理:

1. 跳過https驗證:

curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);

2. 使用用戶代理:

$UserAgent = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.0.04506; .NET CLR 3.5.21022; .NET CLR 1.0.3705; .NET CLR 1.1.4322)';
curl_setopt($curl, CURLOPT_USERAGENT, $UserAgent);

注意:如果不添加這些處理的話模擬登錄時是不能成功的。

使用以上程序模擬登錄網站一般都是能成功的,但是實際上還是需要針對模擬登錄的網站具體情況具體考慮。例如:有些網站編碼不同,所以你抓取下來的頁面是亂碼的,這時就要進行一下編碼轉換,如:$data = iconv("gb2312", "utf-8",$data);,把gbk編碼轉換為utf8編碼。還有一些對安全性要求比較高的網站,比如網銀,會把驗證碼放在一個內聯框架中,這時你就需要先抓取到內聯框架的頁面然后在從中提取出驗證碼的地址,再去抓取驗證碼。還有一些網站(比如網銀)是在js代碼中去提交表單的,提交表單之前還會去做一些處理,比如加密等,所以如果你是直接提交的話也是不能登錄成功的,你必須要去做類似的處理后再提交,但是這種情況如果你能知道js代碼中進行的具體操作,比如加密的話,加密算法是怎樣的,你就可以進行跟它一樣的處理,然后再去提交數據,這樣也是能成功的。但是,關鍵的地方來了,如果你根本不知道它進行的是什么操作,比如它進行了加密,但是你不知道加密的具體算法,那么你就無法進行相同的操作,也就不能成功地模擬登錄了。這方面典型的案例就是網銀,它在js代碼中提交表單之前使用網銀控件對用戶提交的密碼和驗證碼進行了一些處理,但是我們根本不知道它進行的是什么操作,所以無法模擬。所以如果你以為你看了本文之后就能模擬登錄網銀的話那么你就太天真了,人家銀行的網站能那么容易被你模擬登錄嗎?當然,如果你能破解網銀控件的話,那就另當別論了。話說回來,為什么我的感受如此深刻,因為我就遇到這個難題了,不說了,說多了都是淚啊。。。希望本文所述對大家PHP程序設計有所幫助。

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 狠狠综合视频精品播放 | 6969精品视频在线观看 | 国产精品一二区 | 调教扩张宫颈女人惨叫 | 午夜一区二区免费视频 | 国产午夜精品久久久久小说 | 海角社区在线登录 | 26uuu老色哥| 特黄特色一级aa毛片免费观看 | 五月九九 | 182免费在线观看 | 99ri在线视频网 | 亚洲精品视频导航 | 99国产精品免费观看视频 | 久久热国产在线视频 | 国产香蕉国产精品偷在线观看 | 男人v天堂 | 闺蜜的样子小说安沁在线阅读 | 男人天堂网www| 欧美亚洲国产另类在线观看 | 99自拍视频在线观看 | 亚洲无限观看 | 毛片视频在线免费观看 | 色字当头| 免费观看欧美性一级 | 国产精品午夜性视频网站 | 精品国语国产在线对白 | 小货SAO边洗澡边CAO你动漫 | luan小说| 二次元美女脱裤子让男人桶爽 | 国产夜趣福利第一视频 | 亚洲高清无码在线 视频 | 无人视频在线观看完整版高清 | 亚洲色图欧美偷拍 | 四虎tv在线观看884aa | 日韩一区二区三 | 不卡一区二区三区卡 | 色综合亚洲天天综合网站 | 九九热免费在线观看 | 热久久最新地址 | 日本一区二区视频在线 |