Hướng dẫn python split string by html tags - chuỗi phân tách python bằng thẻ html

Nói rằng tôi có một chuỗi:

"
Quote

text

This is a title

"

Đầu ra dự kiến:

["

Quote

", "text", "

This is a title

"]

Tôi cần cả các thẻ mở và đóng để được bao gồm trong cùng một mục, như trên.

Tôi đã thử: re.split("<*>*", s)

Tôi khá mới với Regex nên bất kỳ sự giúp đỡ nào cũng được đánh giá cao

Đã hỏi ngày 12 tháng 7 năm 2018 lúc 20:02Jul 12, 2018 at 20:02

Hướng dẫn python split string by html tags - chuỗi phân tách python bằng thẻ html

Kpaulkpaulkpaul

3457 Huy hiệu bạc15 Huy hiệu Đồng7 silver badges15 bronze badges

6

Bạn có thể sử dụng re.findall để làm điều này.

import re
s = "
Quote

text

This is a title

" re.findall(r'<[^>]*>.*?]*>(?:<[^>]*/>)?|[^<>]+', s) # ['
Quote

', 'text ', '

This is a title

']

Nhưng tránh phân tích dữ liệu HTML như trực tiếp bằng cách sử dụng regex và xem xét sử dụng một cái gì đó như BeautifulSoup

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(s, "html.parser")
>>> soup.findAll()
[
Quote
,
,

This is a title

] >>> soup.findAll()[0].text 'Quote' >>> [s for s in soup.strings] ['Quote', 'text ', 'This is a title']

Đã trả lời ngày 12 tháng 7 năm 2018 lúc 20:14Jul 12, 2018 at 20:14

SunithasunithaSunitha

Huy hiệu vàng 11.5K2 Huy hiệu bạc23 Huy hiệu đồng2 gold badges18 silver badges23 bronze badges

3

Phương thức phân chia chuỗi python () Phương thức phân tách một chuỗi thành một danh sách. Bạn có thể chỉ định phân tách, dấu phân cách mặc định là bất kỳ khoảng trắng nào. Lưu ý: Khi MaxSplit được chỉ định, danh sách sẽ chứa số lượng phần tử được chỉ định cộng với một.

Làm thế nào để bạn chia một chuỗi thành nhiều chuỗi trong Python?

  • Trong Python, bạn có thể chia một chuỗi với phương thức chia (). Nó phá vỡ một chuỗi (dựa trên bộ phân cách đã cho) và trả về một danh sách các chuỗi. Để phân chia một chuỗi, chúng tôi sử dụng phương thức. tách ra() .
  • Làm cách nào để nhận văn bản giữa các thẻ trong HTML?
  • Phương thức phân chia chuỗi python () Phương thức phân tách một chuỗi thành một danh sách. Bạn có thể chỉ định phân tách, dấu phân cách mặc định là bất kỳ khoảng trắng nào. Lưu ý: Khi MaxSplit được chỉ định, danh sách sẽ chứa số lượng phần tử được chỉ định cộng với một.

    Làm thế nào để bạn chia một chuỗi thành nhiều chuỗi trong Python?

    Trong Python, bạn có thể chia một chuỗi với phương thức chia (). Nó phá vỡ một chuỗi (dựa trên bộ phân cách đã cho) và trả về một danh sách các chuỗi. Để phân chia một chuỗi, chúng tôi sử dụng phương thức. tách ra() .

    Làm cách nào để nhận văn bản giữa các thẻ trong HTML? :  ‘Gfg is Best. I love Reading CS from it.’ , tag = “br” 
    Output : [‘Gfg’, ‘Best’, ‘Reading CS’]
    Explanation : All strings between “br” tag are extracted.

    Hàm preg_match () là tùy chọn tốt nhất để trích xuất văn bản giữa các thẻ HTML với regex trong PHP. Nếu bạn muốn nhận nội dung giữa các thẻ, hãy sử dụng các biểu thức chính quy với hàm preg_match () trong PHP. Bạn cũng có thể trích xuất nội dung bên trong phần tử dựa trên tên lớp hoặc ID bằng PHP. : ‘

    Gfg

    is

    Best

    I love

    Reading CS

    ’  , tag = “h2” 
    Output : [‘Gfg’, ‘Best’, ‘Reading CS’] 
    Explanation : All strings between “h2” tag are extracted. 
     

    Cải thiện bài viết re module this task can be performed. In this we employ, findall() function to extract all the strings by matching appropriate regex built using tag and symbols.

    Python3

    Lưu bài viết

    Đọc

    Bàn luận

    Cho một chuỗi và thẻ HTML, trích xuất tất cả các chuỗi giữa thẻ được chỉ định.

    Đầu vào: & nbsp; ‘GFG là tốt nhất. Tôi thích đọc CS từ nó., Tag = Hồi Briêu & nbsp; đầu ra: [‘gfg,’ tốt nhất, ‘Đọc CS,] Giải thích: Tất cả các chuỗi giữa thẻ BR BR được trích xuất.

    Đầu vào: 'GFG là tốt nhất Tôi thích đọc CS' & nbsp ;, tag = Hồi H2 H2 & NBSP; đầu ra: ['gfg', 'tốt nhất', 'đọc cs'] & nbsp; giải thích: tất cả các chuỗi giữa thẻ H2 H2 được trích xuất . & nbsp; & nbsp;

    Sử dụng mô -đun RE, tác vụ này có thể được thực hiện. Trong đó chúng tôi sử dụng, chức năng findall () để trích xuất tất cả các chuỗi bằng cách phù hợp với regex thích hợp được xây dựng bằng thẻ và ký hiệu.

    Output:

    import re
    The Strings extracted : [‘Gfg’, ‘Best’, ‘Reading CS’]

    Phương thức chuỗi


    Thí dụ

    Chia một chuỗi thành một danh sách trong đó mỗi từ là một mục danh sách:

    TXT = "Chào mừng đến với rừng rậm"

    x = txt.split ()

    in (x)

    Hãy tự mình thử »


    Định nghĩa và cách sử dụng

    Phương thức re.split("<*>*", s)1 chia một chuỗi vào một danh sách.

    Bạn có thể chỉ định phân tách, dấu phân cách mặc định là bất kỳ khoảng trắng nào.

    Lưu ý: Khi MaxSplit được chỉ định, danh sách sẽ chứa số lượng phần tử được chỉ định cộng với một. When maxsplit is specified, the list will contain the specified number of elements plus one.


    Cú pháp

    String.Split (phân tách, MaxSplit)

    Giá trị tham số

    Tham sốSự mô tả
    máy tách biệtKhông bắt buộc. Chỉ định phân tách để sử dụng khi chia chuỗi. Theo mặc định, bất kỳ khoảng trắng nào cũng là một dấu tách
    MaxSplitKhông bắt buộc. Chỉ định số lượng để làm. Giá trị mặc định là -1, là "tất cả các lần xuất hiện"

    Nhiều ví dụ hơn

    Thí dụ

    Chia một chuỗi thành một danh sách trong đó mỗi từ là một mục danh sách:

    TXT = "Chào mừng đến với rừng rậm"

    x = txt.split ()

    in (x)

    Hãy tự mình thử »

    Thí dụ

    Chia một chuỗi thành một danh sách trong đó mỗi từ là một mục danh sách:

    TXT = "Chào mừng đến với rừng rậm"

    x = txt.split ()

    in (x)

    Hãy tự mình thử »

    Thí dụ

    Chia một chuỗi thành một danh sách trong đó mỗi từ là một mục danh sách:

    TXT = "Chào mừng đến với rừng rậm"

    x = txt.split ()
    x = txt.split("#", 1)

    in (x)

    Hãy tự mình thử »


    Phương thức chuỗi


    Làm thế nào trích xuất chuỗi từ thẻ HTML trong Python?

    Cho một chuỗi và thẻ HTML, trích xuất tất cả các chuỗi giữa thẻ được chỉ định ...
    Đầu vào: 'GFG là tốt nhất. Tôi thích đọc CS từ nó. ' , tag = BR BR.
    Đầu ra: ['gfg', 'tốt nhất', 'đọc cs'].
    Giải thích: Tất cả các chuỗi giữa thẻ BR BR được trích xuất ..

    Làm thế nào để bạn chia dây trong Python?

    Phương thức phân chia chuỗi python () Phương thức phân tách một chuỗi thành một danh sách.Bạn có thể chỉ định phân tách, dấu phân cách mặc định là bất kỳ khoảng trắng nào.Lưu ý: Khi MaxSplit được chỉ định, danh sách sẽ chứa số lượng phần tử được chỉ định cộng với một.The split() method splits a string into a list. You can specify the separator, default separator is any whitespace. Note: When maxsplit is specified, the list will contain the specified number of elements plus one.

    Làm thế nào để bạn chia một chuỗi thành nhiều chuỗi trong Python?

    Trong Python, bạn có thể chia một chuỗi với phương thức chia ().Nó phá vỡ một chuỗi (dựa trên bộ phân cách đã cho) và trả về một danh sách các chuỗi.Để phân chia một chuỗi, chúng tôi sử dụng phương thức.tách ra() .with the split() method. It breaks up a string (based on the given separator) and returns a list of strings. To split a string, we use the method . split() .

    Làm cách nào để nhận văn bản giữa các thẻ trong HTML?

    Hàm preg_match () là tùy chọn tốt nhất để trích xuất văn bản giữa các thẻ HTML với regex trong PHP.Nếu bạn muốn nhận nội dung giữa các thẻ, hãy sử dụng các biểu thức chính quy với hàm preg_match () trong PHP.Bạn cũng có thể trích xuất nội dung bên trong phần tử dựa trên tên lớp hoặc ID bằng PHP.preg_match() function is the best option to extract text between HTML tags with REGEX in PHP. If you want to get content between tags, use regular expressions with preg_match() function in PHP. You can also extract the content inside element based on class name or ID using PHP.