Hướng dẫn how to remove html tags from text - cách xóa thẻ html khỏi văn bản

Xóa ngay các thẻ HTML khỏi một chuỗi nội dung với công cụ trực tuyến này. Nhập tất cả mã cho một trang web hoặc chỉ là một phần của trang web và công cụ này sẽ tự động xóa tất cả các phần tử HTML chỉ để lại nội dung văn bản bạn muốn.

Công cụ dựa trên JavaScript này cũng sẽ trích xuất văn bản cho phần tử nút HTML và tiêu đề metatag cùng với nội dung văn bản thông thường.

Nếu bạn cần xóa các thẻ HTML thì hãy cho nó một vòng xoáy - nó hoạt động khá tốt trong việc loại bỏ các yếu tố HTML không mong muốn đó.

Cách xóa thẻ HTML khỏi văn bản

Đây chỉ là một chút ghi chú kỹ thuật về việc loại bỏ các phần tử HTML bằng mã JavaScript, vì vậy nếu bạn không tham gia các chi tiết kỹ thuật thì chỉ cần bỏ qua phần này và sử dụng công cụ Stripper HTML ở trên.

Nói chung, tốt hơn là sử dụng một cách tiếp cận tận dụng DOM một cách duyên dáng để tìm và xóa nội dung HTML qua một cách tiếp cận chỉ sử dụng các biểu thức thông thường để tìm và xóa thẻ HTML.

Bởi vì bạn sẽ gặp HTML bị dị tật, phương pháp Regex có thể thất bại theo những cách ngoạn mục nên ở đây tôi đã cố gắng tận dụng thuộc tính JavaScript InsideText để hoàn thành công việc theo cách đáng tin cậy hơn.

Vấn đề với việc sử dụng bên trong

Sử dụng thuộc tính bên trong JAAVScript để xóa các thẻ HTML không may không hoạt động chính xác như thế nào tôi muốn nó quá nên tôi phải làm ngọt thỏa thuận với một số biểu thức thông thường để có được đầu ra văn bản mà tôi muốn.

Đối với tôi, vấn đề lớn, với việc sử dụng InternalText để xóa các thẻ HTML là nó sẽ xóa các thẻ tập lệnh nhưng để lại nội dung ở giữa thẻ tập lệnh mở và đóng trong nội dung văn bản của bạn. Nó cũng đã làm tương tự cho các thẻ kiểu trong những trường hợp mà bạn có thể gặp một số quy tắc về kiểu trang.

Mặc dù tùy chọn, tôi cũng đã thêm một regex để làm cho đầu ra dễ đọc hơn bằng cách loại bỏ các lần phá vỡ nhiều dòng dư thừa. Nó chỉ làm cho định dạng đầu ra dễ đọc hơn một chút.

Dù sao, nếu không ai trong số này là bộ ngắt thỏa thuận cho bạn thì tôi sẽ chỉ nói sử dụng thuộc tính InnerText để xóa các thẻ HTML khỏi nội dung web của bạn. Nếu không, bạn sẽ cần sử dụng một số regex để xóa các thẻ HTML.

Các công cụ phổ biến nhất

Các công cụ mới nhất theo danh mục

Công cụ sửa lỗi văn bản

Công cụ mã hóa HTML

Công cụ Word & Ngôn ngữ

Công cụ cuộc sống ngẫu nhiên


Dải HTML và định dạng từ văn bản của bạn

Dán nội dung bên dưới và nhấn nút

Tại sao phải sử dụng Striphtml để làm sạch văn bản?

Striphtml.com cung cấp cho bạn một cách nhanh chóng, dễ dàng và thỏa mãn để chuyển đổi văn bản được định dạng xấu xí và/hoặc htmlified của bạn thành một văn bản sạch và đẹp để bạn thưởng thức.

Dịch vụ này có thể hữu ích cho những người muốn tiết kiệm một lượng lớn thời gian dọn dẹp văn bản lộn xộn được đóng gói với các thẻ HTML và định dạng xấu xí.

Nếu bạn thấy Striphtml.com hữu ích, hãy là một người bạn và chia sẻ trang web trong các mạng xã hội của bạn

Làm thế nào để nó loại bỏ HTML?

StripHTML sử dụng một loạt các hàm PHP (như Strip_tags) và một số mã được thực hiện tùy chỉnh để xóa định dạng HTML và xấu xí. Tất cả những gì bạn phải làm là dán văn bản, nhấp vào nút - và voila!

Vì các ứng dụng khác nhau và các trình chỉnh sửa wysiwyg sử dụng tất cả các loại đánh dấu và định dạng tùy chỉnh khác nhau, chức năng vũ nữ thoát y HTML có thể không phải là 100% chống đạn - nhưng nó vẫn rất hữu ích.

Catch là gì?

Không có gì đâu. Nó hoàn toàn miễn phí để tước HTML khỏi văn bản của bạn bằng dịch vụ này. Tôi hy vọng Striphtml sẽ giúp mọi người làm việc với web, văn bản và HTML dễ dàng hơn.

Tôi sử dụng một loạt các dịch vụ tương tự, nhưng không thể tìm thấy một vũ nữ thoát y HTML khá - vì vậy tôi đã tự mình tạo ra một dịch vụ. Ồ - tôi đã đặt một vài quảng cáo trên trang web, hy vọng kiếm được một đô la mọi lúc mọi nơi.

Công cụ mới - Hãy thử bộ đếm nhân vật trực tuyến

Câu trả lời được chấp nhận của việc làm đơn giản là Jsoup.parse(html).text() có 2 vấn đề tiềm năng (với JSOUP 1.7.3):

  • Nó loại bỏ các dòng phá vỡ khỏi văn bản
  • Nó chuyển đổi văn bản <script> thành