python 獲取網頁編碼方式實現代碼
1
2
3
4
5
|
<span style = "font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);" > < / span><span style = "font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);" > python開發,自動化獲取網頁編碼方式用到了chardet庫,字符集檢測,這個類在python2. 7 中沒有,需要在官網上下載。 這里我下載好了chardet - 2.3 . 0.tar .gz壓縮包文件,只需要將壓縮包文件解壓后的chardet文件放到python安裝包下的 python27 / lib / site - packages / 下,就可以了。< / span> |
然后import chardet
下面寫了一個自動化檢測的函數供檢測Url連接,然后返回網頁url的編碼方式。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
import chardet #字符集檢測 import urllib url = "http://www.jd.com" def automatic_detect(url): content = urllib.urlopen(url).read() result = chardet.detect(content) encoding = result[ 'encoding' ] return encoding urls = [ 'http://www.baidu.com' , 'http://www.163.com' , 'http://dangdang.com' ] for url in urls: print url,automatic_detect(url) |
上面用到了chardet類的detect方法,返回字典,然后取出編碼方式encoding
感謝閱讀,希望能幫助到大家,謝謝大家對本站的支持!