[英]How can I get the source name of data piped to a Python script?
我正在使用Apache Tika從URL提取PDF內容,並將Tika的發現結果傳遞給Python腳本。 我可以很好地獲取內容,但我也想獲取我正在解析的URL。 例如,運行:
java -jar /usr/local/tika-1.7/tika-app/target/tika-app-1.7.jar -J -t https://somewebsite.com/a_pdf_document.pdf | ./my_script.py
通過
[{"Content-Length":"1121070","Content-Type":"application/pdf","Creation-Date":"2014-11-13T12:39:52Z","Keywords": ... ]
到my_script.py
。 但是,我還希望能夠訪問通過管道傳輸的文件的位置,例如https://somewebsite.com/a_pdf_document.pdf
。
由於我正在傳遞數據,因此sys.argv
無法正常工作。 我想念的東西可以做到嗎?
沒有管道數據沒有名稱。
您有兩種選擇。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.