8
Mới! Lưu câu hỏi hoặc câu trả lời và sắp xếp nội dung yêu thích của bạn. Tìm hiểu thêm.
Learn more.
Có thể trùng lặp: Giải mã các thực thể HTML trong chuỗi Python?
Decode HTML entities in Python string?
Tôi có một chuỗi đầy các ký tự thoát HTML như "
, ”
và —
.
Có bất kỳ thư viện Python nào cung cấp các cách đáng tin cậy để tôi thay thế tất cả các nhân vật thoát này bằng các nhân vật thực tế tương ứng của họ?
Chẳng hạn, tôi muốn tất cả các "
được thay thế bằng "s.
hỏi ngày 10 tháng 7 năm 2012 lúc 2:55Jul 10, 2012 at 2:55
2
Bạn muốn sử dụng điều này:
try:
from html.parser import HTMLParser # Python 3
except ModuleNotFoundError:
from HTMLParser import HTMLParser # Python 2
parser = HTMLParser[]
html_decoded_string = parser.unescape[html_encoded_string]
Tôi cũng đang thấy rất nhiều tình yêu dành cho người đẹp
from BeautifulSoup import BeautifulSoup
html_decoded_string = BeautifulSoup[html_encoded_string, convertEntities=BeautifulSoup.HTML_ENTITIES]
Cũng sao chép các câu hỏi hiện có:
Giải mã các thực thể HTML trong chuỗi Python?
Giải mã các thực thể HTML với Python
Giải mã các thực thể HTML với Python
Martin Thoma
Huy hiệu vàng 114K148574 Huy hiệu bạc877 Huy hiệu đồng148 gold badges574 silver badges877 bronze badges
Đã trả lời ngày 10 tháng 7 năm 2012 lúc 3:04Jul 10, 2012 at 3:04
6
Xem thảo luận
Cải thiện bài viết
Lưu bài viết
Xem thảo luận
Cải thiện bài viết
Lưu bài viết
Đọc html module
Bàn luận+], we can convert the ASCII string into HTML script by replacing ASCII characters with special characters by using html.escape[]method.
Điều kiện tiên quyết: Mô -đun HTML
Syntax:
html.unescape[String]
Đưa ra một chuỗi có các ký tự HTML, tác vụ là chuyển đổi các ký tự HTML thành một chuỗi. Điều này có thể đạt được với sự trợ giúp của phương thức html.escape [] [đối với Python 3.4+], chúng ta có thể chuyển đổi chuỗi ASCII thành tập lệnh HTML bằng cách thay thế các ký tự ASCII bằng các ký tự đặc biệt bằng cách sử dụng phương thức HTML.ESCAPE [].which handles entity conversion. In Beautiful Soup 4, entities get decoded automatically.
Bằng phương pháp này, chúng ta có thể giải mã các thực thể HTML thành văn bản. Python 3.6+
Python3
Chúng tôi cũng có thể sử dụng Soupwhich đẹp xử lý chuyển đổi thực thể. Trong súp đẹp 4, các thực thể được giải mã tự động.
Ví dụ 1: Python 3.6+
from BeautifulSoup import BeautifulSoup
html_decoded_string = BeautifulSoup[html_encoded_string, convertEntities=BeautifulSoup.HTML_ENTITIES]
3from BeautifulSoup import BeautifulSoup
html_decoded_string = BeautifulSoup[html_encoded_string, convertEntities=BeautifulSoup.HTML_ENTITIES]
4from BeautifulSoup import BeautifulSoup
html_decoded_string = BeautifulSoup[html_encoded_string, convertEntities=BeautifulSoup.HTML_ENTITIES]
3from BeautifulSoup import BeautifulSoup
html_decoded_string = BeautifulSoup[html_encoded_string, convertEntities=BeautifulSoup.HTML_ENTITIES]
6Output:
import
html
0____11from BeautifulSoup import BeautifulSoup html_decoded_string = BeautifulSoup[html_encoded_string, convertEntities=BeautifulSoup.HTML_ENTITIES]
2from BeautifulSoup import BeautifulSoup html_decoded_string = BeautifulSoup[html_encoded_string, convertEntities=BeautifulSoup.HTML_ENTITIES]
Γeek cho γeekPython 2.6-3.3
& Gamma; eek for & gamma; eek
- Ví dụ 2: Python 2.6-3.3
- Chúng ta có thể sử dụng htmlparser.Unescape [] từ thư viện tiêu chuẩn:
Python3
Chúng tôi cũng có thể sử dụng Soupwhich đẹp xử lý chuyển đổi thực thể. Trong súp đẹp 4, các thực thể được giải mã tự động.
from BeautifulSoup import BeautifulSoup
html_decoded_string = BeautifulSoup[html_encoded_string, convertEntities=BeautifulSoup.HTML_ENTITIES]
9html.unescape[String]0
Ví dụ 1: Python 3.6+
import
html
from BeautifulSoup import BeautifulSoup
html_decoded_string = BeautifulSoup[html_encoded_string, convertEntities=BeautifulSoup.HTML_ENTITIES]
0____11 from BeautifulSoup import BeautifulSoup
html_decoded_string = BeautifulSoup[html_encoded_string, convertEntities=BeautifulSoup.HTML_ENTITIES]
2Γeek cho γeek
from BeautifulSoup import BeautifulSoup
html_decoded_string = BeautifulSoup[html_encoded_string, convertEntities=BeautifulSoup.HTML_ENTITIES]
3def remove_html_tags[text]:
"""Remove html tags from a string"""
import re
clean = re.compile['']
return re.sub[clean, '', text]
7from BeautifulSoup import BeautifulSoup
html_decoded_string = BeautifulSoup[html_encoded_string, convertEntities=BeautifulSoup.HTML_ENTITIES]
2def remove_html_tags[text]:
"""Remove html tags from a string"""
import re
clean = re.compile['']
return re.sub[clean, '', text]
9Output:
import
html
Đầu tuần này, tôi cần xóa một số thẻ HTML khỏi văn bản, chuỗi đích đã được lưu với các thẻ HTML trong cơ sở dữ liệu và một trong những yêu cầu chỉ định rằng trong một trang cụ thể, chúng tôi cần hiển thị nó dưới dạng văn bản thô.
Ngay từ đầu tôi đã biết rằng các biểu thức thông thường có thể áp dụng cho thử thách này, nhưng vì tôi không phải là một chuyên gia với các biểu thức thường xuyên, tôi đã tìm kiếm một số lời khuyên trong Stack Overflow và sau đó tôi tìm thấy những gì tôi thực sự cần.
Dưới đây là chức năng tôi đã xác định:
def remove_html_tags[text]:
"""Remove html tags from a string"""
import re
clean = re.compile['']
return re.sub[clean, '', text]
Vì vậy, ý tưởng là xây dựng một biểu thức thông thường có thể tìm thấy tất cả các ký tự là một tỷ lệ đầu tiên trong một văn bản và sau đó, sử dụng hàm phụ, chúng ta có thể thay thế tất cả các văn bản giữa các ký hiệu đó bằng một chuỗi trống.
Hãy xem điều này trong vỏ:
Hy vọng điều này có thể giúp bạn!