Word to Clean HTML là một công cụ chuyển đổi miễn phí dành cho các tài liệu do Microsoft Word và phần mềm văn phòng tương tự tạo ra. Word to Clean HTML loại bỏ các thẻ không hợp lệ hoặc thẻ sở hữu, để lại HTML sạch, an toàn để sử dụng trong các trang web và sách điện tử
HTML. Mô-đun sạch gói gọn một số kỹ thuật phổ biến để giảm thiểu kích thước của tệp HTML. Thông thường, bạn có thể tiết kiệm từ 10% đến 50% kích thước của tệp HTML bằng các phương pháp này. Nó cung cấp các tính năng sau
Remove unneeded whitespace [begining of line, etc]Remove unneeded META elements.Remove HTML comments [except for styles, javascript and SSI]Replace tags with equivilant shorter tags [ --> ]etc.Toàn bộ quá trình có thể định cấu hình, vì vậy bạn có thể chọn và chọn những gì bạn muốn dọn dẹp
HTML. LỚP HỌC Sạch sẽ$h = HTML. Sạch->mới[$dataorfile, [$level]];
Điều này tạo ra một HTML mới. Làm sạch đối tượng. Điều kiện tiên quyết cho tất cả các chức năng khác trong mô-đun này
Tham số $dataorfile cung cấp HTML đầu vào, chẳng hạn như tên tệp hoặc tham chiếu đến giá trị vô hướng chứa HTML
$h = HTML::Clean->new["/htdocs/index.html"];
$html = "Hello!";
$h = HTML::Clean->new[\$html];
Thông số 'cấp độ' tùy chọn kiểm soát mức độ tối ưu hóa được thực hiện. Các cấp độ nằm trong khoảng từ 1 đến 9. Cấp 1 chỉ bao gồm các tối ưu hóa nhanh đơn giản. Cấp 9 bao gồm tất cả các tối ưu hóa
$h->khởi tạo[$dataorfile]
Chức năng này cho phép bạn khởi tạo lại dữ liệu HTML được sử dụng bởi đối tượng hiện tại. Điều này hữu ích nếu bạn đang xử lý nhiều tệp
$dataorfile có cùng cách sử dụng với phương thức mới
Trả về 0 nếu có lỗi, 1 nếu thành công
$h->cấp[[$cấp]]
Nhận/đặt mức tối ưu hóa. $level là một số từ 1 đến 9
$myref = $h->data[]
Trả về dữ liệu HTML hiện tại dưới dạng tham chiếu vô hướng
dải [\% tùy chọn];
Loại bỏ không gian thừa từ HTML
Bạn có thể kiểm soát các tối ưu hóa được sử dụng bằng cách chỉ định chúng trong tham chiếu hàm băm %options
Các tùy chọn sau được công nhận
giá trị boolean [giá trị 0 hoặc 1] whitespace Remove excess whitespace
shortertags -> , etc..
blink No blink tags.
contenttype Remove default contenttype.
comments Remove excess comments.
entities " -> ", etc.
dequote remove quotes from tag parameters where possible.
defcolor recode colors in shorter form. [#ffffff -> white, etc.]
javascript remove excess spaces and newlines in javascript code.
htmldefaults remove default values for some html tags
lowercasetags translate all HTML tags to lowercase
giá trị được tham số hóa meta Takes a space separated list of meta tags to remove,
default "GENERATOR FORMATTER"
emptytags Takes a space separated list of tags to remove when there is no
content between the start and end tag, like this: .
The default is 'b i font center'
tương thích[]
Chức năng này cải thiện khả năng tương thích đa nền tảng của HTML của bạn. Hiện đang kiểm tra các vấn đề sau
Insuring all IMG tags have ALT elements.Use of Arial, Futura, or Verdana as a font face.Positioning the tag immediately after the tag.defrontpage[];
Hàm này chuyển đổi các trang được tạo bằng Microsoft Frontpage thành thứ mà máy chủ Unix sẽ hiểu rõ hơn một chút. Chức năng này hiện đang làm như sau
Chuyển đổi Frontpage 'hit counters' thành một định dạng unix cụ thể. Xóa một số nhận xét html cụ thể trên trang nhất XEM CSONGmô-đun
Trang chủ. Web, FrontPage. Tập tin
trang web
Trang web phân phối - http. //Mọi người. nó. int/~lindner/TÁC GIẢ và ĐỒNG TÁC GIẢPaul Lindner cho Liên minh Viễn thông Quốc tế [ITU]
Pavel Kuptsov
BẢN QUYỀNHTML. Mô-đun dải là Bản quyền [c] 1998,99 của ITU, Geneva Thụy Sĩ. Đã đăng ký Bản quyền
Bạn có thể phân phối theo các điều khoản của Giấy phép Công cộng GNU hoặc Giấy phép Nghệ thuật, như được chỉ định trong tệp README Perl
×
Hướng dẫn cài đặt mô-đun
Để cài đặt HTML. Làm sạch, sao chép và dán lệnh thích hợp vào thiết bị đầu cuối của bạn
cpanm
cpanm HTML::Clean
vỏ CPAN
perl -MCPAN -e shell
install HTML::Clean
Để biết thêm thông tin về cài đặt mô-đun, vui lòng truy cập hướng dẫn cài đặt mô-đun CPAN chi tiết
Chỉ cần nhìn vào những dòng trống và ngắt dòng ngẫu nhiên, khoảng trắng ở cuối, tab hỗn hợp, thẻ không dùng nữa - điều đó thật kỳ quặc
Hãy làm sạch nó
var cleaner = require['clean-html'],
fs = require['fs'],
filename = process.argv[2];
fs.readFile[filename, function [err, data] {
cleaner.clean[data, function [html] {
console.log[html];
}];
}];
Chạy tập lệnh này trên tệp ở trên sẽ tạo ra kết quả sau
Currently we have these articles available:
The History of Foo
An informative piece of information.
A Horse Walked Into a Bar
The bartender said "Why the long face?"
Bạn có thể chuyển các tùy chọn bổ sung cho hàm
3 như thế nàyvar cleaner = require['clean-html'],
fs = require['fs'],
filename = process.argv[2];
fs.readFile[filename, function [err, data] {
cleaner.clean[data, function [html] {
console.log[html];
}];
}];
________số 8
Trong trường hợp này, nó tạo ra
Currently we have these articles available:
The History of Foo
An informative piece of information.
A Horse Walked Into a Bar
The bartender said "Why the long face?"
Phục hồi tinh thần
Tùy chọn
phá-xung-bình-luận
Thêm ngắt dòng trước và sau bình luận
Loại. Boolean
Mặc định.
4var cleaner = require['clean-html'],
fs = require['fs'],
filename = process.argv[2];
fs.readFile[filename, function [err, data] {
cleaner.clean[data, function [html] {
console.log[html];
}];
}];
phá-xung-thẻ
Các thẻ nên thêm ngắt dòng trước và sau
Loại. Mảng
Mặc định.
5var cleaner = require['clean-html'],
fs = require['fs'],
filename = process.argv[2];
fs.readFile[filename, function [err, data] {
cleaner.clean[data, function [html] {
console.log[html];
}];
}];
thụt vào
Chuỗi sử dụng để thụt đầu dòng. e. g. , một ký tự tab hoặc một hoặc nhiều dấu cách
Loại. Chuỗi
Mặc định.
6 [hai dấu cách]var cleaner = require['clean-html'],
fs = require['fs'],
filename = process.argv[2];
fs.readFile[filename, function [err, data] {
cleaner.clean[data, function [html] {
console.log[html];
}];
}];
xóa thuộc tính
Các thuộc tính cần xóa khỏi đánh dấu
Loại. Mảng hỗn hợp [chuỗi hoặc mẫu RegExp]
Mặc định.
7var cleaner = require['clean-html'],
fs = require['fs'],
filename = process.argv[2];
fs.readFile[filename, function [err, data] {
cleaner.clean[data, function [html] {
console.log[html];
}];
}];
xóa bình luận
Xóa bình luận
Loại. Boolean
Mặc định.
8var cleaner = require['clean-html'],
fs = require['fs'],
filename = process.argv[2];
fs.readFile[filename, function [err, data] {
cleaner.clean[data, function [html] {
console.log[html];
}];
}];
xóa-trống-thẻ
Các thẻ cần xóa khỏi đánh dấu nếu trống
Loại. Mảng hỗn hợp [chuỗi hoặc mẫu RegExp]
Mặc định.
9var cleaner = require['clean-html'],
fs = require['fs'],
filename = process.argv[2];
fs.readFile[filename, function [err, data] {
cleaner.clean[data, function [html] {
console.log[html];
}];
}];
xóa thẻ
Các thẻ luôn xóa khỏi đánh dấu. Nội dung lồng nhau được giữ nguyên
Loại. Mảng hỗn hợp [chuỗi hoặc mẫu RegExp]
Mặc định.
0
Currently we have these articles available:
The History of Foo
An informative piece of information.
A Horse Walked Into a Bar
The bartender said "Why the long face?"
thay thế-nbsp
Thay thế các thực thể khoảng trắng không phá vỡ [______ 61] bằng khoảng trắng thông thường
Loại. Boolean
Mặc định.
8var cleaner = require['clean-html'],
fs = require['fs'],
filename = process.argv[2];
fs.readFile[filename, function [err, data] {
cleaner.clean[data, function [html] {
console.log[html];
}];
}];
bọc
Số cột nơi các dòng sẽ ngắt dòng. Đặt thành 0 để tắt ngắt dòng
Loại. Số nguyên
Mặc định.
3
Currently we have these articles available:
The History of Foo
An informative piece of information.
A Horse Walked Into a Bar
The bartender said "Why the long face?"
Thêm giá trị vào danh sách tùy chọn
Các tùy chọn này tồn tại để thuận tiện cho bạn
thêm-ngắt-xung quanh-thẻ
Các thẻ bổ sung để bao gồm trong
4
Currently we have these articles available:
The History of Foo
An informative piece of information.
A Horse Walked Into a Bar
The bartender said "Why the long face?"
Loại. Mảng
Mặc định.
5
Currently we have these articles available:
The History of Foo
An informative piece of information.
A Horse Walked Into a Bar
The bartender said "Why the long face?"
thêm-xóa-thuộc tính
Các thuộc tính bổ sung để bao gồm trong
6
Currently we have these articles available:
The History of Foo
An informative piece of information.
A Horse Walked Into a Bar
The bartender said "Why the long face?"
Loại. Mảng
Mặc định.
5
Currently we have these articles available:
The History of Foo
An informative piece of information.
A Horse Walked Into a Bar
The bartender said "Why the long face?"
thêm-xóa-thẻ
Các thẻ bổ sung để bao gồm trong
8
Currently we have these articles available:
The History of Foo
An informative piece of information.
A Horse Walked Into a Bar
The bartender said "Why the long face?"
Loại. Mảng
Mặc định.
5
Currently we have these articles available:
The History of Foo
An informative piece of information.
A Horse Walked Into a Bar
The bartender said "Why the long face?"
cài đặt toàn cầu
Nếu gói này được cài đặt trên toàn cầu, nó có thể được sử dụng từ dòng lệnh
meta Takes a space separated list of meta tags to remove,
default "GENERATOR FORMATTER"
emptytags Takes a space separated list of tags to remove when there is no
content between the start and end tag, like this: .
The default is 'b i font center'
6Thay vì chuyển đầu vào từ một chương trình khác, bạn có thể cung cấp tên tệp làm đối số đầu tiên
meta Takes a space separated list of meta tags to remove,
default "GENERATOR FORMATTER"
emptytags Takes a space separated list of tags to remove when there is no
content between the start and end tag, like this: .
The default is 'b i font center'
7Bạn có thể chuyển hướng đầu ra sang một tệp khác
meta Takes a space separated list of meta tags to remove,
default "GENERATOR FORMATTER"
emptytags Takes a space separated list of tags to remove when there is no
content between the start and end tag, like this: .
The default is 'b i font center'
8Hoặc bạn có thể sửa file tại chỗ
meta Takes a space separated list of meta tags to remove,
default "GENERATOR FORMATTER"
emptytags Takes a space separated list of tags to remove when there is no
content between the start and end tag, like this: .
The default is 'b i font center'
9Tất cả các tùy chọn trên có thể được sử dụng từ dòng lệnh. Các giá trị tùy chọn mảng phải được phân tách bằng dấu phẩy