簡體   English   中英

Python 正則表達式在多個 Latex 表達式匹配之間破壞文本

[英]Python Regular Expression Clobbering Text Between Multiple Latex Expression Matches

我正在嘗試從 StackExchange 語料庫中清除會話文本,該語料庫包含可能包含 Latex 表達式的句子。 Latex 表達式由 $ 符號分隔:例如 $y = ax + b$

這是來自包含多個 Latex 表達式的數據的一行示例文本:

@Gruber - 這是另一個例子,當這樣應用時: $\\mathrm{Var} \\left(X^2\\right) = 4 X^2 \\mathrm{Var} (X)$ 沒有任何意義,在左邊是一個常數,右邊是一個隨機變量。 你的意思是 $4E(X)^2 Var(X)$ 祝福那些走少有人走的路的人。 您理論中的另一個例外是 $4E(X)^2 Var(X)$。 你在想什么? :)

到目前為止,這是我所擁有的:它似乎在每個 Latex 表達式匹配之間破壞了文本,並給出了一個不正確的巨大匹配。

([\$](.*)[\$]){1,3}?

我不明白你為什么把{1,3}放在最后,你試圖實現什么目標。 無論如何,您的錯誤是您使用了[\\$] ,它為您提供了一組兩個字符 - 一個反斜杠和一個美元。 我建議你使用

\$([^$]*)\$

並用空字符串替換它: demo here

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM