簡體   English   中英

如何獲取通過管道傳遞到Python腳本的數據的源名稱?

[英]How can I get the source name of data piped to a Python script?

我正在使用Apache Tika從URL提取PDF內容,並將Tika的發現結果傳遞給Python腳本。 我可以很好地獲取內容,但我也想獲取我正在解析的URL。 例如,運行:

java -jar /usr/local/tika-1.7/tika-app/target/tika-app-1.7.jar -J -t https://somewebsite.com/a_pdf_document.pdf | ./my_script.py

通過

[{"Content-Length":"1121070","Content-Type":"application/pdf","Creation-Date":"2014-11-13T12:39:52Z","Keywords": ... ]

my_script.py 但是,我還希望能夠訪問通過管道傳輸的文件的位置,例如https://somewebsite.com/a_pdf_document.pdf

由於我正在傳遞數據,因此sys.argv無法正常工作。 我想念的東西可以做到嗎?

沒有管道數據沒有名稱。

您有兩種選擇。

  1. 您可以將文件名作為參數傳遞給python腳本。
  2. 您可以將文件名存儲在環境中。
  3. 您可以將文件名作為管道數據的一部分(帶分隔符)傳遞。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM