Hướng dẫn how do you read data between xml tags in python? - làm cách nào để bạn đọc dữ liệu giữa các thẻ xml trong python?

Mới! Lưu câu hỏi hoặc câu trả lời và sắp xếp nội dung yêu thích của bạn. Tìm hiểu thêm.
Learn more.

Tôi đang sử dụng Python và cần tìm và truy xuất tất cả dữ liệu ký tự giữa các thẻ:

I need this stuff

Sau đó tôi muốn xuất dữ liệu tìm thấy vào một tệp khác. Tôi chỉ đang tìm kiếm một cách rất dễ dàng và hiệu quả để làm điều này.

Nếu bạn có thể đăng một đoạn mã nhanh để mô tả sự dễ sử dụng. Bởi vì tôi đang gặp một chút rắc rối khi hiểu các trình phân tích cú pháp.

hỏi ngày 19 tháng 1 năm 2010 lúc 23:07Jan 19, 2010 at 23:07

Đệ quyRecursion

2.8577 Huy hiệu vàng37 Huy hiệu bạc 50 Huy hiệu Đồng7 gold badges37 silver badges50 bronze badges

Không có các mô -đun bên ngoài, ví dụ

>>> myhtml = """ I need this stuff
... blah blah
... I need this stuff too
... 
... blah blah """
>>> for item in myhtml.split[""]:
...   if "" in item:
...       print item [ item.find[""]+len[""] : ]
...
I need this stuff
I need this stuff too

Đã trả lời ngày 20 tháng 1 năm 2010 lúc 0:00Jan 20, 2010 at 0:00

ghostdog74ghostdog74ghostdog74

Phù bằng vàng 315K5555 gold badges253 silver badges341 bronze badges

Súp đẹp là một trình phân tích cú pháp HTML/XML tuyệt vời cho Python:

Súp đẹp là một trình phân tích cú pháp Python HTML/XML được thiết kế cho các dự án quay vòng nhanh như xẹp màn hình. Ba tính năng làm cho nó mạnh mẽ:
Súp đẹp sẽ không bị nghẹt thở nếu bạn cho nó đánh dấu xấu. Nó mang lại một cây phân tích có ý nghĩa gần như tài liệu gốc của bạn. Điều này thường đủ tốt để thu thập dữ liệu bạn cần và chạy trốn.
Súp đẹp cung cấp một vài phương pháp đơn giản và thành ngữ pythonic để điều hướng, tìm kiếm và sửa đổi một cây phân tích: một bộ công cụ để mổ xẻ một tài liệu và trích xuất những gì bạn cần. Bạn không phải tạo trình phân tích cú pháp tùy chỉnh cho mỗi ứng dụng.
Súp đẹp tự động chuyển đổi các tài liệu đến thành unicode và các tài liệu đi thành UTF-8. Bạn không cần phải nghĩ về mã hóa, trừ khi tài liệu không chỉ định một món súp mã hóa và đẹp không thể tự động tự động. Sau đó, bạn chỉ cần chỉ định mã hóa gốc.

Đã trả lời ngày 19 tháng 1 năm 2010 lúc 23:10Jan 19, 2010 at 23:10

Andrew Hareandrew HareAndrew Hare

338K71 Huy hiệu vàng634 Huy hiệu bạc630 Huy hiệu Đồng71 gold badges634 silver badges630 bronze badges

Tôi khá thích phân tích cú pháp vào cây phần tử và sau đó sử dụng element.text và element.tail.

Nó cũng có xpath như tìm kiếmxpath like searching

>>> from xml.etree.ElementTree import ElementTree
>>> tree = ElementTree[]
>>> tree.parse["index.xhtml"]

>>> p = tree.find["body/p"]     # Finds first occurrence of tag p in body
>>> p

>>> p.text
"Some text in the Paragraph"
>>> links = p.getiterator["a"]  # Returns list of all links
>>> links
[, ]
>>> for i in links:             # Iterates through all found links
...     i.attrib["target"] = "blank"
>>> tree.write["output.xhtml"]

Đã trả lời ngày 19 tháng 1 năm 2010 lúc 23:11Jan 19, 2010 at 23:11

Aiden Bellaiden BellAiden Bell

Phù bằng vàng 28k372 Huy hiệu bạc117 Huy hiệu đồng3 gold badges72 silver badges117 bronze badges

Đây là cách tôi đang làm điều đó:

    [myhtml.split[''][1]].split[''][0]

Hãy cho tôi biết nếu nó hoạt động!

Đã trả lời ngày 16 tháng 8 năm 2017 lúc 9:45Aug 16, 2017 at 9:45

Shravya Kshravya kShravya K

371 Huy hiệu bạc3 Huy hiệu đồng1 silver badge3 bronze badges

Sử dụng XPath và LXML;

from lxml import etree

pageInMemory = open["pageToParse.html", "r"]

parsedPage = etree.HTML[pageInMemory]

yourListOfText = parsedPage.xpath["//tag//text[]"]

saveFile = open["savedFile", "w"]
saveFile.writelines[yourListOfText]

pageInMemory.close[]
saveFile.close[]

Nhanh hơn so với súp đẹp.

Nếu bạn muốn kiểm tra Xpath của bạn - Tôi thấy XPather của Firefox cực kỳ hữu ích.

Ghi chú thêm:

lxml-an-underappreciated-web-scraping-library
web-scraping-with-lxml

Đã trả lời ngày 20 tháng 1 năm 2010 lúc 6:15Jan 20, 2010 at 6:15

Torgertorgertorger

2.1983 Huy hiệu vàng27 Huy hiệu bạc35 Huy hiệu Đồng3 gold badges27 silver badges35 bronze badges

def value_tag[s]:
    i = s.index['>']
    s = s[i+1:]
    i = s.index['


				
					

                 
	Bài Viết Liên Quan
	
	 	
		
		   
		   
		   
		
		
			Hướng dẫn how to know which function is calling javascript - làm thế nào để biết hàm nào đang gọi javascript

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how do i output in python? - làm cách nào để xuất trong python?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn can you use excel with javascript? - bạn có thể sử dụng excel với javascript không?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how do i connect to a mysql database from another server? - làm cách nào để kết nối với cơ sở dữ liệu mysql từ một máy chủ khác?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn php array undefined index - chỉ mục không xác định mảng php

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn where is script mode in python? - chế độ script trong python ở đâu?

		
	

		
		
		   
		   
		   
		
		
			Nam quý hợi 1983 năm 2023

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn add (+/-) button number incrementers html w3schools - thêm (+/-) nút tăng số lượng html w3schools

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how do i automate a file to download from a website in python? - làm cách nào để tự động tải tệp xuống từ một trang web bằng python?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn python turtle w3schools - trăn rùa w3schools

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how do you initialize a class object in python? - làm thế nào để bạn khởi tạo một đối tượng lớp trong python?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn dùng relative time trong PHP

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn print base64 pdf javascript - in base64 pdf javascript

		
	

		
		
		   
		   
		   
		
		
			Trong css làm thế nào để bắt buộc đoạn text xuống dòng?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how do you turn a string into a list in python? - làm cách nào để biến một chuỗi thành một danh sách trong python?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn file to blob php - tập tin vào blob php

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn turn on javascript android - bật javascript android

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn dùng methodes JavaScript

		
	

		
		
		   
		   
		   
		
		
			Xem asiad 2023 online

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how do you make a product in python? - làm thế nào để bạn tạo ra một sản phẩm trong python?

		
	

	
	




Toplist mới

 
	
	 
		#1
		
			Top 4 uống nước chanh sả mật ong có tác dụng gì 2023
			6 tháng trước
		
	



	
	 
		#2
		
			Top 10 bài tập làm văn số 5 lớp 7 de 4 2023
			6 tháng trước
		
	



	
	 
		#3
		
			Top 3 vừa chơi đã có tài khoản vương giả chap 1 2023
			6 tháng trước
		
	



	
	 
		#4
		
			Top 6 anh sẽ on thôi cover phạm nguyên ngọc lyrics 2023
			6 tháng trước
		
	



	
	 
		#5
		
			Top 7 tài liệu quản lý nhà nước và quản lý ngành giáo dục đào tạo 2023
			6 tháng trước
		
	



	
	 
		#6
		
			Top 7 hãy ra khỏi người đó đi hợp âm 2023
			6 tháng trước
		
	



	
	 
		#7
		
			Top 6 giáo án thơ về thăm nhà bác 2023
			6 tháng trước
		
	



	
	 
		#8
		
			Top 8 giáo án ngữ văn 6 cánh diều 2023
			6 tháng trước
		
	



	
	 
		#9
		
			Top 9 tinh bột tham gia phản ứng nào 2023
			6 tháng trước
		
	






		


	Bài mới nhất
	
	 	
		
		   
		   
		   
		
		
			Chèn ảnh có sẵn trong word vào văn bản năm 2024

		
	

		
		
		   
		   
		   
		
		
			14 tháng 1 năm 2023 là ngày gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Các sở ban ngành tiếng trung là gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Bài 37 sgk toán 9 tập 1 trang 94 năm 2024

		
	

		
		
		   
		   
		   
		
		
			Http www.animesex.pro en search highschool 20dxd-top 1.html năm 2024

		
	

		
		
		   
		   
		   
		
		
			Hiền tài sinh lỗi số trong tam quốc diễn nghĩa năm 2024

		
	

		
		
		   
		   
		   
		
		
			Bluestack là gì chơi có quảng cáo không năm 2024

		
	

		
		
		   
		   
		   
		
		
			Bị hạt gạo ở móng tay là bị gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Chứng nhận bổ túc văn hóa tiếng anh là gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Cách sao lưu dữ liệu kế toán misa năm 2024

		
	

	
	
                 
	Chủ Đề
	
	
	
		  programming
		  Hỏi Đáp
		  Mẹo Hay
		  Toplist
		  Là gì
		  Địa Điểm Hay
		  Học Tốt
		  mẹo hay
		  Công Nghệ
		  Nghĩa của từ
		  Bao nhiêu
		  Khỏe Đẹp
		  đánh giá
		  Top List
		  bao nhieu
		  bao nhiêu
		  hướng dẫn
		  So Sánh
		  Tiếng anh
		  So sánh
		  Bài tập
		  Xây Đựng
		  Sản phẩm tốt
		  Ngôn ngữ
		  Bài Tập
		  Máy tính
		  javascript
		  Ở đâu
		  Hướng dẫn
		  Thế nào
		  Dịch 
		  Tại sao
		  Đại học
		  Món Ngon
		  Facebook
		  Khoa Học