Đối với những người là nhà phát triển php, bạn có thể có yêu cầu thích hợp để chuyển đổi PDF thành HTML hoặc trích xuất nội dung văn bản từ PDF cho mục đích lập chỉ mục. Tại API2PDF, chúng tôi có điểm cuối PDF sang HTML nỗ lực hết sức để trích xuất văn bản từ PDF và xuất tài liệu HTML
API của chúng tôi sẽ đưa bạn. pdf và chuyển nó sang html. Chỉ cần đảm bảo rằng PDF của bạn được lưu dưới dạng. pdf và có thể truy cập tại một URL mà dịch vụ của chúng tôi có thể nhập. Ví dụ, xem cái này. http. //www. api2pdf. com/wp-content/uploads/2021/01/1a082b03-2bd6-4703-989d-0443a88e3b0f-4. pdf — Lý tưởng nhất là nhà cung cấp dịch vụ lưu trữ tệp như S3 hoặc Azure Blob Storage. Xem mẫu mã dưới đây
Chuyển đổi PDF sang HTML bằng PHP
Bước 1] Cài đặt thư viện máy khách PHP từ github. https. //github. com/Api2Pdf/api2pdf. php
Bước 2] Lấy khóa API từ https. // cổng thông tin. api2pdf. com. Chỉ mất 60 giây
Bước 3] Sử dụng mã mẫu bên dưới và thay thế “YOUR-API-KEY” bằng khóa api bạn đã lấy ở bước 2
require_once 'your-own-directory/Api2Pdf.php';
$apiClient = new Api2Pdf['YOUR-API-KEY'];
$result = $apiClient->libreOfficePdfToHtml['//www.api2pdf.com/wp-content/uploads/2021/01/1a082b03-2bd6-4703-989d-0443a88e3b0f-4.pdf'];
echo $result->getFile[];
Và đó là nó. Sửa đổi mã khi bạn thấy phù hợp. Hy vọng rằng điều này giúp bạn tiết kiệm thời gian và làm cho việc chuyển đổi các tệp PDF sang HTML trở nên dễ dàng và không gây khó khăn cho những người viết mã php
Xem toàn bộ thư viện github
Chúng tôi có toàn bộ thư viện máy khách dựa trên php cho API của chúng tôi, API của chúng tôi còn làm được nhiều việc hơn thế này. Kiểm tra các khả năng thư viện đầy đủ ở đây. https. //github. com/Api2Pdf/api2pdf. php
FlowPaper 1. 4. 5 trở lên cung cấp các tập lệnh mẫu trong PHP để chuyển đổi nhanh chóng và xuất bản tài liệu PDF bằng cách sử dụng bộ công cụ PDF sang flash được đề xuất SWFTools
Yêu cầu
Đảm bảo bạn đã cài đặt các phần mềm sau.
Để cài đặt FlowPaper, chỉ cần trích xuất nội dung của tệp zip phân phối FlowPaper vào một trong các thư mục của máy chủ web của bạn
Chuẩn bị - cài đặt các điều kiện tiên quyết
FlowPaper có thể sử dụng một vài thư viện nguồn mở khác nhau để tối ưu hóa việc hiển thị tài liệu. Liên kết đến các thư viện này có sẵn trên trang tải xuống của chúng tôi. Ví dụ sau đây cho thấy cách cài đặt các thành phần này trên hệ thống Ubuntu. Chạy các lệnh này với quyền root.apt-get install pdftk apt-get install mupdf-tools mkdir pdf2json cd pdf2json wget //github.com/flowpaper/pdf2json/releases/download/v0.68/pdf2json-0.68.tar.gz tar -zxvf pdf2json-0.68.tar.gz ./configure make && make install
Bước 1 - Định cấu hình bằng hướng dẫn - bắt đầu thiết lập
Gói PHP của chúng tôi đi kèm với hướng dẫn giúp bạn kiểm tra xem các công cụ cần thiết đã được cài đặt chưa và máy chủ của bạn đã được cấu hình đúng chưa
Để bắt đầu hướng dẫn này sau khi giải nén nội dung của tệp zip của chúng tôi vào máy chủ web của bạn, hãy điều hướng trình duyệt của bạn đến "/php/setup. php"Màn hình bên phải sẽ hiển thị khi mở thiết lập. trang php trong trình duyệt của bạn. Nó phác thảo các yêu cầu cơ bản cần đáp ứng để FlowPaper có thể hoạt động trên máy chủ của bạn
Như bạn có thể thấy trong ảnh chụp màn hình, một trong các điều kiện không được đáp ứng trên máy chủ của chúng tôi. Tệp cấu hình mà FlowPaper sử dụng cần có thể ghi được để FlowPaper có thể lưu cấu hình của nó. Do đó, chúng tôi thực hiện lệnh sau trên máy chủ của chúng tôi
cd /var/www/php_demo/php/config/ sudo chmod 777 config.ini.nix.phpTrang sẽ chuyển sang màu xanh lục sau khi bạn làm mới nó trong trình duyệt của mình
Bước 2 - Định cấu hình bằng hướng dẫn - xác minh các thành phần máy chủ cần thiết
Bước tiếp theo trong hướng dẫn xác minh rằng tất cả các thành phần nguồn mở bên thứ ba bắt buộc đã được cài đặt trên máy chủ. Bạn có thể thấy ở bên phải rằng tất cả các thành phần được cài đặt trên máy chủ, hướng dẫn này đã được ghi lại trên đó. Cách cài đặt các thành phần này sẽ phụ thuộc một chút vào hệ thống bạn đang cấu hình [Linux hay Windows]. Vui lòng sử dụng các liên kết ở đầu trang này để truy cập các thành phần riêng lẻBạn cũng có thể thấy rằng máy chủ của chúng tôi có giới hạn về kích thước tải lên. Điều này không có gì đáng lo ngại nếu tài liệu của bạn có kích thước nhỏ hơn 10 megabyte nhưng nếu bạn muốn thay đổi cài đặt này thì vui lòng chỉnh sửa php của bạn. ini và điều chỉnh cài đặt này
Bước 3 - Định cấu hình bằng hướng dẫn - cài đặt thư mục và đăng nhập
Bước cuối cùng này sẽ cho phép bạn chỉ định tên người dùng và mật khẩu cho quá trình cài đặt của mình. Nó cũng sẽ hỏi bạn nơi bạn muốn lưu trữ tài liệu PDF của mình cũng như nơi bạn muốn sử dụng làm thư mục làm việc cho FlowPaper. FlowPaper cần thư mục này để có thể đọc các tệp đã chuyển đổi. Chúng tôi đã chọn sử dụng thư mục '/var/www/php demo/php/pdf/'Bạn có thể thấy trong ảnh chụp màn hình bên phải rằng chúng tôi đang gặp lỗi trong quá trình cài đặt nói rằng thiết lập không thể ghi vào thư mục mà chúng tôi đã chỉ định. Do đó, chúng tôi thực hiện lệnh sau trên máy chủ Linux của mình
cd /var/www/php_demo/php/ sudo chmod 777 -R pdfNhấp vào 'thử lại' sẽ xóa thông báo lỗi. Lặp lại bước tương tự cho thư mục làm việc của bạn nếu cần
Bạn cũng có thể chọn công nghệ xem nào bạn muốn sử dụng làm công nghệ xem chính và phụ cho trình xem [chỉ trình xem thương mại]
Bước 4 - Cấu hình theo hướng dẫn - upload và xem tài liệu
Bây giờ bạn sẽ thấy một danh sách trống các tài liệu khi bạn đã hoàn tất việc định cấu hình môi trường của mình. Nhấp vào nút 'TẢI LÊN' sẽ cho phép bạn tải tài liệu lên máy chủ của mìnhChúng tôi đã tải lên một tài liệu gọi là 'Giấy. pdf' vào máy chủ của chúng tôi trong ví dụ của chúng tôi. Nhấp vào tài liệu này sẽ mở tài liệu trong trình duyệt của bạn
Bạn có thể sử dụng URL đã mở trong trình duyệt [với phần mở rộng 'split_document. php' trong đường dẫn của nó] và liên kết tới tài liệu này từ các vị trí trên trang web của riêng bạn nếu bạn muốn
Cuối cùng - bảo mật cài đặt của bạn
Khi bạn hài lòng với cấu hình của mình, chúng tôi khuyên bạn nên bảo mật cài đặt của mình bằng cách xóa các tệp sau- cài đặt. php
- kiểm tra quyền dir. php
cấu hình thủ công
FlowPaper đi kèm với một tệp mẫu cấu hình dành cho các hệ thống dựa trên Windows và Linux. Các tệp cấu hình này được điền tự động cho bạn nếu bạn đang sử dụng hướng dẫn nhưng bạn cũng có thể chọn chỉnh sửa các tệp này theo cách thủ công. Các tệp cấu hình nằm trong thư mục "php/config/" và được đặt tên là "config. ban đầu. nix. php" cho các hệ thống dựa trên Linux và "config. ban đầu. thắng lợi. php" cho các hệ thống Windows.Đoạn mã sau được lấy từ tệp cấu hình Windows.
[general] path.pdf = 'C:\inetpub\wwwroot\flowpaper\php\pdf\' path.swf = 'C:\inetpub\wwwroot\flowpaper\php\docs\' [external commands] cmd.conversion.singledoc = '"C:\Program Files\SWFTools\pdf2swf.exe" {path.pdf}{pdffile} -o {path.swf}{pdffile}.swf -f -T 9 -t -s storeallcharacters' cmd.conversion.splitpages = '"C:\Program Files\SWFTools\pdf2swf.exe" {path.pdf}{pdffile} -o {path.swf}{pdffile}%.swf -f -T 9 -t -s storeallcharacters' cmd.searching.extracttext = '"C:\Program Files\SWFTools\swfstrings.exe" {path.swf}{swffile}'
Hãy chắc chắn rằng con đường đó. pdf trỏ đến một thư mục chứa các tệp PDF mà bạn muốn xuất bản và đường dẫn đó. swf trỏ đến một thư mục mà bạn muốn lưu trữ các tài liệu đã xuất bản của mình. Ngoài ra, hãy đảm bảo rằng đường dẫn đến SWFTools trỏ chính xác đến nơi bạn đã cài đặt nó
Quyền
Để xuất bản hoạt động, đường dẫn. thư mục swf cần có quyền ghi cho người dùng web. Trên các hệ thống dựa trên Windows, điều này có thể được thực hiện bằng cách cho phép tài khoản đang thực thi có quyền ghi vào thư mục [hoặc bằng cách cho phép nhóm "Người dùng" có quyền ghi vào thư mục]. Người dùng Linux thực hiện cài đặt tương tự bằng cách thực thi chmod 777 trên thư mục này
Các thư mục này không cần nằm trong thư mục gốc và một ý tưởng hay là đặt chúng ở một nơi khác nếu bạn muốn kiểm soát cách đọc tài liệu của mình