簡體   English   中英

根據字符串python的start關鍵字和end關鍵字切割一個字符串

[英]Cutting a string based on the start keyword and end key word of the string python

我有一個 pdf,我通過 python 中的 Tika 包閱讀了它。 似乎 tika 只能閱讀整個 pdf 而我只需要閱讀第一頁。

我的代碼看起來像:

from tika import parser
raw = parser.from_file(pdfname)
rawtext = raw['content']

我想通過開始關鍵字和結束關鍵字拆分原始文本。 我怎么做?

您可以使用regex來選擇您感興趣的文本,例如:

import re


raw_text = 'this is a sample of text'
start = 'is'
end = 'of'

start_index = re.search(r'\b' + start + r'\b', raw_text).start()
end_index = re.search(r'\b' + end + r'\b', raw_text).end()
section_of_text = raw_text[start_index:end_index]
print(section_of_text)

>>> "is a sample of"

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM