為什麼有些 PDF 檔的內容無法複製?

PDF 檔案是製造業在承接客戶訂單時常用的一個媒介,企業在收到 PDF 訂單後再將客戶所訂購的項目騰打到如 ERP 等內部系統中,隨著資訊量日漸增加,我們常會使用複製貼上的方式來加快騰打的速度,但你可能會發現為什麼有些 PDF 的內容可以複製,有些卻不行,而有些看起來可以複製,但貼上後的內容卻變成亂碼,今天就跟大家拆解這些 PDF 背後的差異。

第一種無法複製的 PDF: 開啟複製保護的 PDF

PDF 的標準中規範了幾個可以限制使用者對 PDF 檔案進行的操作,包括列印、修改、註解、複製等,若 PDF 檔案的製作者開啟了複製保護,檔案的內容就無法被複製。但這些限制依賴 PDF 閱覽軟體支援,有些閱覽軟體並不會嚴格遵守這些限制。

第二種無法複製的 PDF: 掃描而成的 PDF

掃描而成的 PDF 是很常見的一種無法複製的 PDF 檔案,通常是由於遞送方先將文件列印出來進行簽名或用印後再掃描成 PDF 檔案進行傳送,這樣的 PDF 檔案雖然看起來像是文字,但實際上是一張圖片,所以內容無法被複製。若您觀察到 PDF 中的文字無法選擇,而且看起來模糊、有殘影,或是空白處不是那麼的白皙、有紙張掃描的痕跡,那麼這份 PDF 檔案很有可能就是掃描而成的 PDF。

第三種無法複製的 PDF: 將字型轉換為外框的 PDF

另一種文字內容無法選取和複製的 PDF 檔案是經過將字型轉換為外框處理的 PDF。PDF 創建的緣由是為了讓文件能在任何地方都能保持原來的格式,所以 PDF 會將製作者所使用的字型嵌入到 PDF 檔案中,但在用於印刷等需要確保每個像素都完美的情況,製作者會將文字轉換為外框 (outlined) 以確保印刷的成果,你可以將文字轉換為外框這個動作想像成用鉛筆沿著文字的外型描繪,轉換為外框後閱覽軟體便只認得這些「圖形」,而不再是文字。如同掃描而成的 PDF 一樣,將字型轉換為外框的 PDF 中的文字內容無法被選取,但差別在文字不會有模糊或殘影,空白處也不會有紙張掃描的痕跡,而且檔案大小通常會大上許多。

第四種無法複製的 PDF: 特殊字型編碼的 PDF

你是否遇過有些 PDF 檔案中的文字是可以選取的,但複製貼上後卻顯示毫不相關的亂碼?PDF 檔案中顯示的「A」通常並非是以 A 這個字元儲存在檔案中,而是以 Unicode 或是 CID 等特殊的表示方法紀錄在檔案中,如同前面提到,為了讓閱覽 PDF 檔案的使用者可以看到和製作者同樣的格式,PDF 軟體會將製作者所使用到的字型和其中每個字的圖樣所對應的編碼一併嵌入在 PDF 檔案中,如果這個字型編碼和圖樣的對照表被經過特殊的處理,就會發生使用 PDF 閱覽軟體可以看到正確的文字內容,但複製文字時卻得到亂碼。

PO Assistant 訂單助理如何幫助你節省 key 採購單的時間?

如果你每天已經得花上一半的時間將客戶採購單中的料號、數量、交期等資訊一筆一筆的輸入 ERP 系統中,又遇到客戶提供的 PDF 採購單內容無法複製,大大地拖慢 key 單速度,真的會很令人感到絕望。PO Assistant 訂單助理使用 OCR 等技術為你將 PDF 採購單轉換為 Excel 或 csv 等格式,大大地減少 key 單的時間,不僅如此,你還可以自訂轉換流程,將採購單欄位轉換為可以直接匯入 ERP 系統的格式,馬上聯絡我們了解更多!

陳俊諺 Lance Chen