簡體   English   中英

如何使用Unix從文件中刪除未使用的html代碼

[英]how to remove unused html codes from the file using Unix

我們有一個HTML源,它將使用informatica工作流程進行處理。 在這兩者之間,我們有一個用於轉換文件的Unix腳本。

過去一周,我們在informatica中收到一條錯誤消息,指出格式無效,因為該文件具有未使用的html引用(0-8、14-31等)

例:

� -    Unused
 -    Unused
 -    Unused
 - Ÿ Unused

來源

我們需要在Unix中處理它,並在處理它之前從HTML文件中刪除上述字符。

我曾嘗試使用sed命令,例如

sed -e 's/\&\([^\amp;|^\apos;|^\quot;|^\lt;|^\gt;]\)/\&\1/g'

但這沒有達到目的。 另外,由於我們有太多未使用的引用,因此也無法對其進行硬編碼。

您能否讓我知道如何進行此操作?

這是通過將編碼的字符視為字符串的有效解決方案。 不清楚您的來源是否經過編碼,但可以這樣工作:

sed 's/'`for n in {00..08} {11..12} {14..31} {127..159}; do echo -n "&#"$n";\|"; done`'//g'

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM