一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - Python轉(zhuǎn)換HTML到Text純文本的方法

Python轉(zhuǎn)換HTML到Text純文本的方法

2020-05-19 09:18腳本之家 Python

這篇文章主要介紹了Python轉(zhuǎn)換HTML到Text純文本的方法,分析了常用的兩種方法,非常具有實用價值,需要的朋友可以參考下

本文實例講述了Python轉(zhuǎn)換HTML到Text純文本的方法。分享給大家供大家參考。具體分析如下:

今天項目需要將HTML轉(zhuǎn)換為純文本,去網(wǎng)上搜了一下,發(fā)現(xiàn)Python果然是神通廣大,無所不能,方法是五花八門。

拿今天親自試的兩個方法舉例,以方便后人:

方法一:

1. 安裝nltk,可以去pipy裝

(注:需要依賴以下包:numpy, PyYAML)

2.測試代碼:

復制代碼 代碼如下:
>>> import nltk 
>>> aa = r'''''
<html>
    <body>
 <b>Project:</b> DeHTML<br>
 <b>Description</b>:<br>
 This small script is intended to allow conversion from HTML markup to 
 plain text.
    </body>
</html>
'''
>>> aa 
'\n<html>\n            <body>\n                <b>Project:</b> DeHTML<br>\n                <b>Description</b>:<br>\n                This small script is intended to allow conversion from HTML markup to \n                plain text.\n            </body>\n        </html>\n        ' 
>>> <strong>print nltk.clean_html(aa)</strong> 
Project: DeHTML  
     Description :  
    This small script is intended to allow conversion from HTML markup to  
    plain text.

 

方法二:

如果覺得nltk太笨重,大材小用的話,可以自己寫代碼,代碼如下:

復制代碼 代碼如下:
from HTMLParser import HTMLParser 
from re import sub 
from sys import stderr 
from traceback import print_exc 
 
class _DeHTMLParser(HTMLParser): 
    def __init__(self): 
        HTMLParser.__init__(self) 
        self.__text = [] 
 
    def handle_data(self, data): 
        text = data.strip() 
        if len(text) > 0: 
            text = sub('[ \t\r\n]+', ' ', text) 
            self.__text.append(text + ' ') 
 
    def handle_starttag(self, tag, attrs): 
        if tag == 'p': 
            self.__text.append('\n\n') 
        elif tag == 'br': 
            self.__text.append('\n') 
 
    def handle_startendtag(self, tag, attrs): 
        if tag == 'br': 
            self.__text.append('\n\n') 
 
    def text(self): 
        return ''.join(self.__text).strip() 
 
 
def dehtml(text): 
    try: 
        parser = _DeHTMLParser() 
        parser.feed(text) 
        parser.close() 
        return parser.text() 
    except: 
        print_exc(file=stderr) 
        return text 
 
 
def main(): 
    text = r'''''
        <html>
            <body>
                <b>Project:</b> DeHTML<br>
                <b>Description</b>:<br>
                This small script is intended to allow conversion from HTML markup to 
                plain text.
            </body>
        </html>
    ''' 
    print(dehtml(text)) 
 
 
if __name__ == '__main__': 
    main()

 

運行結(jié)果:

>>> ================================ RESTART ================================ 
>>>  
Project: DeHTML  
Description :  
This small script is intended to allow conversion from HTML markup to plain text. 

希望本文所述對大家的Python程序設計有所幫助。

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 亚洲天堂一区二区在线观看 | 国产精品嫩草影院一二三区 | 成人国产午夜在线视频 | 人人爽人人看 | 满溢游泳池免费土豪全集下拉版 | 欧美色阁 | 日本护士xxxx视频免费 | 国产高清在线看 | 视频精品一区二区三区 | 搡60一70岁的老女人小说 | 国产成人免费观看在线视频 | 激情小视频网站 | 成人啪啪漫画羞羞漫画www网站 | 超碰av | 亚洲一区二区三区久久精品 | 国产高清好大好夹受不了了 | 色综合视频一区二区观看 | 91在线视频国产 | 色婷婷六月丁香在线观看 | 免费在线观看网址大全 | 日产欧产va1 | 欧美丝袜videohd | 欧美亚洲国产精品久久第一页 | www久久| 狠狠色婷婷狠狠狠亚洲综合 | 女明星放荡高h日常生活 | 日本动漫打扑克动画片樱花动漫 | 午夜AV内射一区二区三区红桃视 | bnb99八度免费影院 | 九九精品成人免费国产片 | 国产理论片在线观看 | 四虎影视地址 | 70老妇牲交毛片 | 99色在线视频 | 艹出白浆 | 亚洲欧美精品天堂久久综合一区 | 久久精品黄AA片一区二区三区 | 亚洲欧美午夜 | 久久成人永久免费播放 | 贰佰麻豆剧果冻传媒一二三区 | 午夜一个人在线观看完整版 |