[英]Cutting a string based on the start keyword and end key word of the string python
我有一個 pdf,我通過 python 中的 Tika 包閱讀了它。 似乎 tika 只能閱讀整個 pdf 而我只需要閱讀第一頁。
我的代碼看起來像:
from tika import parser
raw = parser.from_file(pdfname)
rawtext = raw['content']
我想通過開始關鍵字和結束關鍵字拆分原始文本。 我怎么做?
您可以使用regex
來選擇您感興趣的文本,例如:
import re
raw_text = 'this is a sample of text'
start = 'is'
end = 'of'
start_index = re.search(r'\b' + start + r'\b', raw_text).start()
end_index = re.search(r'\b' + end + r'\b', raw_text).end()
section_of_text = raw_text[start_index:end_index]
print(section_of_text)
>>> "is a sample of"
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.