Hướng dẫn python script to check multiple url status - tập lệnh python để kiểm tra nhiều trạng thái url

Bạn có thể kiểm tra mã trạng thái cho một bộ URL lớn trong vòng vài giờ với tập lệnh Python đơn giản này.

Công cụ trực tuyến miễn phí: Trình kiểm tra mã trạng thái cho 100 URLS

Trước khi bạn tiếp tục chạy tập lệnh kiểm tra mã trạng thái Python của riêng mình, chúng tôi có thể có một giải pháp thuận tiện hơn cho bạn: Chúng tôi có sẵn một công cụ trực tuyến miễn phí có sẵn mã trạng thái số lượng lớn kiểm tra tối đa 100 URL. Ngoài ra, nó cũng có thể thực hiện kiểm tra liên kết nội bộ cho một URL duy nhất: mọi liên kết trên trang web đó đều được trích xuất và gửi đến công cụ kiểm tra mã trạng thái của bạn.

Trình kiểm tra mã trạng thái pemavor miễn phí

Kiểm tra tính khả dụng của URL cho các chiến dịch tìm kiếm trả phí

Khi bạn gửi lưu lượng truy cập được trả tiền đến các URL không hoạt động, đó là một sự lãng phí tiền bạc và nó nên được sửa ngay lập tức. Nếu bạn muốn kiểm tra mã trạng thái của mình cho các trang đích của quảng cáo Google, bạn sẽ tìm thấy một số tập lệnh của Google ADS để kiểm tra mã trạng thái URL. Điều này có thể hoạt động cho các tài khoản nhỏ hơn và nếu bạn ở trong giới hạn urlfetchApp là 20.000 url mỗi ngày. Nếu không, bạn phải phân vùng dữ liệu URL của mình và phải mất nhiều ngày để hoàn thành kiểm tra trạng thái danh sách URL đầy đủ của bạn. Trong nhiều kịch bản thế giới thực, đây không phải là một lựa chọn.

Nếu bạn phải kiểm tra trang đích đầy đủ của mình trong vòng vài giờ, ví dụ: Khi bạn khởi chạy một trang web hoặc hệ thống cửa hàng mới, bạn có thể sử dụng tập lệnh Python đơn giản đang thực hiện công việc. Trên máy của tôi, tôi mất 30 giây để kiểm tra danh sách 100 URL. Điều này có nghĩa là bạn có thể kiểm tra 12.000 mã trạng thái mỗi giờ.

Kiểm tra tính khả dụng của trang web

Nếu bạn muốn theo dõi tính khả dụng của các trang web khác nhau khác nhau, bạn cũng có thể sử dụng mã. Thay vì các URL cụ thể cho một trang web, bạn cũng có thể chạy kiểm tra tính khả dụng cho các trang web khác nhau. Bạn có thể dễ dàng thiết lập một công việc cron đang chạy các kiểm tra mã trạng thái này cứ sau 5 phút để không bao giờ bỏ lỡ sự cố với tính khả dụng của trang web của bạn. Nếu bạn muốn kiểm tra tính khả dụng của trang web một cách chuyên nghiệp, hãy xem PRTG Network Monitor - Kiểm tra tính khả dụng của trang web dễ dàng được đề cập với phiên bản miễn phí.

Kiểm tra mã trạng thái URL cho SEO

Thiết lập trình kiểm tra mã trạng thái URL

Bạn có thể sử dụng tập lệnh Python để bao gồm các trường hợp sử dụng kiểm tra URL như được đề cập bằng cách làm theo các bước sau:

1] Sao chép tất cả các URL của bạn vào URLS.CSV. Đặt nó trong cùng một thư mục như tập lệnh Python của bạn.2] Chạy tập lệnh và Wait3] Nhìn vào kết quả trong URLS_WithStatusCode.csv. Đối với mỗi URL, một cột bổ sung với mã trạng thái HTTP đã được thêm vào.urls.csv. Put it in the same folder like your python script.
2] Run the script and wait
3] Look at the result in urls_withStatusCode.csv. For every URL an additional column with the http status code was added.

# status code checker
import requests
import csv
import time

SLEEP = 0 # Time in seconds the script should wait between requests
url_list = []
url_statuscodes = []
url_statuscodes.append[["url","status_code"]] # set the file header for output


def getStatuscode[url]:
    try:
        r = requests.head[url,verify=False,timeout=5] # it is faster to only request the header
        return [r.status_code]

    except:
        return -1


# Url checks from file Input
# use one url per line that should be checked
with open['urls.csv', newline=''] as f:
    reader = csv.reader[f]
    for row in reader:
        url_list.append[row[0]]


# Loop over full list
for url in url_list:
    print[url]
    check = [url,getStatuscode[url]]
    time.sleep[SLEEP]
    url_statuscodes.append[check]

# Save file
with open["urls_withStatusCode.csv", "w", newline=""] as f:
    writer = csv.writer[f]
    writer.writerows[url_statuscodes]

Nếu cách tiếp cận vẫn không đủ nhanh, bạn cũng có thể chạy kiểm tra mã trạng thái song song. Điều này sẽ cải thiện thời gian chạy rất nhiều. Vui lòng hỏi bộ phận CNTT của bạn có bao nhiêu yêu cầu mỗi giây được chấp nhận.

Các mã trạng thái HTTP khác nhau có nghĩa là gì?

  • Mã trạng thái 200: Mọi thứ đều ổn! Mã phản hồi URL là OK. Không cần hành động.: Everything fine! The URL response code is OK. No action required.
  • Mã trạng thái 3xx: Phản hồi chuyển hướng. Thông thường không có hành động khẩn cấp cần thiết.: Redirect Response. Normally there is no urgent action required.
  • Mã trạng thái 4xx: Yêu cầu xấu Vì lỗi của khách hàng, các hành động được yêu cầu khi bạn gửi lưu lượng truy cập PPC đến URL với mã trạng thái đó. Cũng liên kết trên trang web của bạn với trạng thái đó nên được xem xét và sửa chữa.: Bad Request because of client error, actions are required when you send PPC Traffic to URLs with that status code. Also links on your website with that status should be reviewed and fixed.
  • Mã trạng thái 5xx: Yêu cầu xấu vì lỗi máy chủ. Đây là điều mà Quản trị viên Máy chủ nên có một cái nhìn.: Bad Request because of server error. This is something the server admins should have a look at.

Tham gia cuộc trò chuyện trên LinkedIn

Python là một ngôn ngữ lập trình phổ biến cung cấp nhiều tính năng hữu ích. Đôi khi bạn có thể cần kiểm tra xem URL có thể truy cập được không, hãy kiểm tra trạng thái máy chủ, kiểm tra xem URL hình ảnh có hoạt động hay không. Python giúp dễ dàng ping URL và lấy mã phản hồi của nó để xác định xem URL có hoạt động hay không. Đây là tập lệnh Python để kiểm tra trạng thái URL.

Bạn có thể sử dụng mã này để kiểm tra xem trang web có hoạt động hay không, nếu liên kết bị hỏng hoặc nếu quyền truy cập bị từ chối cho URL.

Python cung cấp nhiều gói cho mục đích này. Nhưng chúng ta sẽ thấy cách thực hiện việc này bằng cách sử dụng 3 gói phổ biến - urllib, yêu cầu và httplib.

1. Sử dụng urllib

Urllib cung cấp chức năng GetCode [] để lấy mã phản hồi của URL. Nếu URL lên, phản hồi sẽ là 200.

Dưới đây là một đoạn mã đơn giản để kiểm tra xem URL www.example.com có ​​hoạt động không.

import urllib.request
url='//www.example.com'

status_code = urllib.request.urlopen[url].getcode[]
website_is_up = status_code == 200

print[website_is_up]

#Output
True

Trong ví dụ trên, xin lưu ý, bạn cần chỉ định URL đầy đủ cùng với giao thức HTTP/HTTPS. Ngoài ra, hàm getCode [] sẽ trả về mã phản hồi của chỉ URL được chỉ định, không phải toàn bộ trang web. Nếu mã phản hồi là 200, điều đó chỉ có nghĩa là URL được chỉ định đang hoạt động. Nếu URL không tồn tại, nó sẽ ném URLERROR và không trả lại mã phản hồi 404.

2. Sử dụng các yêu cầu

Yêu cầu là một thư viện Python có sẵn trong Python 2 & 3 và cung cấp nhiều tính năng và tính linh hoạt hơn đối với nhiều thư viện khác, khi nói đến các yêu cầu xử lý.

Trong trường hợp này, chúng tôi sử dụng hàm Yêu cầu.head [] để kết nối với URL và yêu cầu.Response.status_code để lấy mã trạng thái của URL đã cho.

url = "//www.example.com"

request_response = requests.head[url]
status_code = request_response.status_code
website_is_up = status_code == 200

print[website_is_up]
# OUTPUT
True

Xin lưu ý, request.head [] cũng không kiểm tra xem một URL nhất định có tồn tại hay không và đơn giản là đưa ra các yêu cầu.Exceptions.connectionError trong quá trình kết nối với URL.

3. Sử dụng httplib

Giống như mô -đun yêu cầu, trước tiên, httplib thiết lập kết nối với một URL nhất định bằng hàm httpConnection [], thực hiện hàm yêu cầu sử dụng hàm request [] và nhận được phản hồi bằng hàm getResponse []. Dưới đây là một ví dụ để lấy mã phản hồi của một URL nhất định bằng mô -đun HTTPLIB.

import httplib
conn = httplib.HTTPConnection["www.example.com"]
conn.request["HEAD", "/"]
r1 = conn.getresponse[]
print r1.status, r1.reason
# output
200 OK

Không giống như trong mô -đun urllib và yêu cầu, bạn không cần đề cập đến giao thức trong URL của bạn. Bạn có thể chỉ cần đề cập đến phiên bản URL WWW hoặc không phải WWW để kiểm tra trạng thái của nó. Xin lưu ý, HTTPLIB sẽ trả về mã phản hồi là 200, ngay cả khi máy chủ phản hồi với phản hồi bị cấm truy cập 403.

Trong bài viết này, chúng tôi đã học được cách kiểm tra trạng thái URL trong Python. Bạn có thể sử dụng chúng để kiểm tra xem URL hình ảnh có hoạt động hay không, nếu URL tệp tải xuống vẫn còn và chạy. Bạn cũng có thể sử dụng nó trong một vòng lặp để kiểm tra xem nhiều trạng thái URL.

Cũng đọc:

Cách tạo thực thi trong Pythonhow để lưu trữ dữ liệu JSON trong mysqlhow để sửa lỗi DPKG đã bị gián đoạn lỗi trong Linuxhow để đăng dữ liệu JSON trong Curlhow để lưu trữ dữ liệu JSON để tệp trong Python
How to Store JSON Data in MySQL
How to Fix ‘Dpkg Was Interrupted’ Error in Linux
How to POST JSON Data in cURL
How to Store JSON Data to File in Python

Bài viết liên quan:

Bài Viết Liên Quan

Chủ Đề