Làm cách nào để lấy nội dung HTML bằng Python?

urllib là một mô-đun Python có thể được sử dụng để mở URL. Nó định nghĩa các hàm và lớp để trợ giúp trong các hành động URL

Với Python, bạn cũng có thể truy cập và lấy dữ liệu từ internet như XML, HTML, JSON, v.v. Bạn cũng có thể sử dụng Python để làm việc trực tiếp với dữ liệu này. Trong hướng dẫn này, chúng ta sẽ xem cách chúng ta có thể truy xuất dữ liệu từ web. Ví dụ: ở đây chúng tôi đã sử dụng URL video guru99 và chúng tôi sẽ truy cập URL video này bằng Python cũng như in tệp HTML của URL này

Trong hướng dẫn này chúng ta sẽ học

  • Cách mở URL bằng Urllib
  • Cách đọc tệp HTML cho URL của bạn bằng Python

Cách mở URL bằng Urllib

Trước khi chúng tôi chạy mã để kết nối với dữ liệu Internet, chúng tôi cần nhập câu lệnh cho mô-đun thư viện URL hoặc “urllib”

Làm cách nào để lấy nội dung HTML bằng Python?

  • Nhập urllib
  • Xác định chức năng chính của bạn
  • Khai báo biến webUrl
  • Sau đó gọi hàm urlopen trên thư viện URL lib
  • URL chúng tôi đang mở là hướng dẫn guru99 trên youtube
  • Tiếp theo, chúng ta sẽ in mã kết quả
  • Mã kết quả được lấy bằng cách gọi hàm getcode trên biến webUrl mà chúng tôi đã tạo
  • Chúng tôi sẽ chuyển đổi nó thành một chuỗi, để nó có thể được nối với chuỗi “mã kết quả” của chúng tôi
  • Đây sẽ là mã HTTP thông thường “200”, cho biết yêu cầu http được xử lý thành công

Cách lấy tệp HTML từ URL trong Python

Bạn cũng có thể đọc tệp HTML bằng cách sử dụng “chức năng đọc” trong Python và khi bạn chạy mã, tệp HTML sẽ xuất hiện trong bảng điều khiển

Python là một trong những ngôn ngữ lập trình linh hoạt nhất. Nó nhấn mạnh khả năng đọc mã với việc sử dụng rộng rãi khoảng trắng. Nó đi kèm với sự hỗ trợ của một bộ thư viện khổng lồ phục vụ cho nhiều mục đích khác nhau, giúp trải nghiệm lập trình của chúng ta mượt mà và thú vị hơn.  

Các chương trình Python được sử dụng để

  • Kết nối với cơ sở dữ liệu và thực hiện phát triển phụ trợ
  • Làm ứng dụng web
  • Viết kịch bản hệ thống hiệu quả
  • Và đặc biệt là trong khoa học dữ liệu và trí tuệ nhân tạo

Như đã nói, chúng ta hãy xem cách chúng ta có thể sử dụng các chương trình python để tạo tệp HTML làm đầu ra. Điều này rất hiệu quả đối với những chương trình tự động tạo siêu liên kết và thực thể đồ họa

Tạo một tệp HTML trong python

Chúng tôi sẽ lưu trữ các thẻ HTML trong một chuỗi Python nhiều dòng và lưu nội dung vào một tệp mới. Tập tin này sẽ được lưu với một. phần mở rộng html chứ không phải là một. phần mở rộng txt

Note: We would be omitting the standard declaration!

Python3




# to open/create a new html file in the write mode

f= open('GFG.html','w')

# to open/create a new html file in the write mode0

# to open/create a new html file in the write mode1

# to open/create a new html file in the write mode2= # to open/create a new html file in the write mode4

# to open/create a new html file in the write mode5

# to open/create a new html file in the write mode6

# to open/create a new html file in the write mode7

# to open/create a new html file in the write mode8

# to open/create a new html file in the write mode9

# to open/create a new html file in the write mode0

f1

# to open/create a new html file in the write mode0

f3

f4

f5

# to open/create a new html file in the write mode0

f7

f8

# to open/create a new html file in the write mode0

=0

=1

Chương trình trên sẽ tạo một tệp HTML

Làm cách nào để lấy nội dung HTML bằng Python?

Xem tệp nguồn HTML

Để hiển thị tệp HTML dưới dạng đầu ra python, chúng tôi sẽ sử dụng thư viện codec. Thư viện này được sử dụng để mở các tệp có mã hóa nhất định. Nó nhận một mã hóa tham số làm cho nó khác với hàm open() tích hợp. Hàm open() không chứa bất kỳ tham số nào để chỉ định mã hóa tệp, điều này thường gây khó khăn cho việc xem các tệp không phải là ASCII mà là UTF-8

Python3




=2

=3 =4

# to open/create a new html file in the write mode0

# to open/create a new html file in the write mode

f= open('GFG.html','w')

# to open/create a new html file in the write mode0

# to open/create a new html file in the write mode1

# to open/create a new html file in the write mode2= f5

(0

(1

# to open/create a new html file in the write mode8

(3

# to open/create a new html file in the write mode0

f3

f4

f5

# to open/create a new html file in the write mode0

f7

f8

# to open/create a new html file in the write mode0

=0

=1

# to open/create a new html file in the write mode0

'GFG.html'5

'GFG.html'6

'GFG.html'7

'GFG.html'8 = ,0open(,3,,5,,7)

# to open/create a new html file in the write mode0

'w'0

'w'1

'w'2____4'GFG.html'8'w'5

đầu ra

Làm cách nào để lấy nội dung HTML bằng Python?

Xem tệp web HTML

Trong Python, mô-đun trình duyệt web cung cấp giao diện cấp cao cho phép hiển thị các tài liệu dựa trên Web cho người dùng. Mô-đun trình duyệt web có thể được sử dụng để khởi chạy trình duyệt theo cách độc lập với nền tảng như hình bên dưới

Làm cách nào để lấy dữ liệu HTML trong python?

Cài đặt BeautifulSoup. Sử dụng trình quản lý gói Anaconda để cài đặt gói cần thiết và các gói phụ thuộc của nó. .
Đọc tệp HTML. Trong ví dụ dưới đây, chúng tôi yêu cầu một url được tải vào môi trường python. .
Trích xuất giá trị thẻ. .
Trích xuất tất cả các thẻ

Làm cách nào để phân tích cú pháp nội dung HTML trong python?

Ví dụ .
từ html. trình phân tích cú pháp nhập HTMLParser
Trình phân tích cú pháp lớp (HTMLParser)
# phương pháp nối thêm thẻ bắt đầu vào danh sách start_tags
def handle_starttag(bản thân, thẻ, attrs)
start_tags toàn cầu
start_tags. nối thêm (thẻ)
# phương pháp nối thêm thẻ kết thúc vào danh sách end_tags
def handle_endtag(bản thân, thẻ)

Làm cách nào để lấy giá trị từ biểu mẫu HTML trong python?

lời yêu cầu. hình thức. get(“fname”) sẽ lấy đầu vào từ giá trị Đầu vào có thuộc tính name là fname và lưu trữ trong biến first_name
lời yêu cầu. hình thức. get(“lname”) sẽ nhận đầu vào từ giá trị Đầu vào có thuộc tính tên là lname và lưu trữ trong biến last_name