如何使用Unix從文件中刪除未使用的html代碼

Question

我們有一個HTML源，它將使用informatica工作流程進行處理。 在這兩者之間，我們有一個用於轉換文件的Unix腳本。

過去一周，我們在informatica中收到一條錯誤消息，指出格式無效，因為該文件具有未使用的html引用（0-8、14-31等）

例：

&#00; - &#08;   Unused
&#11; - &#12;   Unused
&#14; - &#31;   Unused
&#127; - &#159; Unused

來源。

我們需要在Unix中處理它，並在處理它之前從HTML文件中刪除上述字符。

我曾嘗試使用sed命令，例如

sed -e 's/\&\([^\amp;|^\apos;|^\quot;|^\lt;|^\gt;]\)/\&\1/g'

但這沒有達到目的。 另外，由於我們有太多未使用的引用，因此也無法對其進行硬編碼。

您能否讓我知道如何進行此操作？

Answer 1

這是通過將編碼的字符視為字符串的有效解決方案。 不清楚您的來源是否經過編碼，但可以這樣工作：

sed 's/'`for n in {00..08} {11..12} {14..31} {127..159}; do echo -n "&#"$n";\|"; done`'//g'