Perl腳本將單詞從一個文件刪除到輸出文件

Question

我很確定這是真的。 但是我不了解Perl，只需要使用一次即可。 因此，感謝您的耐心配合。

我試圖從下面的HTML中的一行中刪除不需要的文本：

    <a target="_blank"          href="http://sharepoint/sites/cerner/quickreferenceguides/Documents/EXP001_Run_Printable_TCI_List.pdf" onmouseover="return overlib('This guide outlines the process for running a printable TCI List', CAPTION, 'TCI LIST');" onmouseout="return nd();">Run Printable TCI List (<i>Revised<i>)</a>

我只想剩下的就是Run Printable TCI List (Revised) ，它是</a>前面的文本。 我大約有500行，由於將來可能會更改它們，因此創建程序很有意義。 以下是到目前為止的我的Perl代碼：

open (SEARK, 'C:\\HTMLsorter\\sources.txt');
open (OUTSEARK, '>C:\\HTMLsorter\\outseark.txt');
while(<SEARK>) {
  chomp;

  if ($_=~/<a target/) {
    $_ =~ s/\<i>//g;
    $_ =~ s/\<\/i>//g;
    @itemsa = split(/>/);
    @itemsb = split(/</, $itemsa[1]);
    print OUTSEARK ("$itemsb[0]\n");
  }
}
close (SEARK);
close (OUTSEARK);

我確定您可以閱讀，但只是為了說明我正在打開一個名為sources.txt的文件，其中有500行需要排序。 輸出文件將是outseark.txt 。 到目前為止，它將輸出以下內容：

Run Printable TCI List (Revised)

顯然，這是由於針對箭頭中及其周圍的所有內容進行了拆分。 有什么想法可以將斜體放在方括號內嗎？ 與：

Run Printable TCI List (<i>Revised<i>)

感謝您的光臨。

Answer 1

#!/usr/bin/perl
use strict;
use warnings;

open IFH, '<myfile.txt';
open OFH, '>output.txt';

while (<IFH>) {
  if (/<a\s+target.*?>(.*?)<\/a>/i)
  {
    $_ = $1;
    s/<.*?>//g;
    print OFH "$_\n";
  }
}

close IFH;
close OFH;

Answer 2

您可以在一個襯里中執行此操作。

cat inputfile|perl -ne 'if (s#<a\s+target[^>]+>(.+?)</a>##is){print "$1\n";}'>outputfile

這是工作：

echo '<a target="_blank"          href="http://sharepoint/sites/cerner/quickreferenceguides/Documents/EXP001_Run_Printable_TCI_List.pdf" onmouseover="return overlib('This guide outlines the process for running a printable TCI List', CAPTION, 'TCI LIST');" onmouseout="return nd();">Run Printable TCI List (<i>Revised<i>)</a>
<a target="_blank"          href="http://sharepoint/sites/cerner/quickreferenceguides/Documents/EXP001_Run_Printable_TCI_List.pdf" onmouseover="return overlib('This guide outlines the process for running a printable TCI List', CAPTION, 'TCI LIST');" onmouseout="return nd();">Run Printable TCI List 1(<i>Revised<i>)</a>
<a target="_blank"          href="http://sharepoint/sites/cerner/quickreferenceguides/Documents/EXP001_Run_Printable_TCI_List.pdf" onmouseover="return overlib('This guide outlines the process for running a printable TCI List', CAPTION, 'TCI LIST');" onmouseout="return nd();">Run Printable TCI List 2(<i>Revised<i>)</a>
<a target="_blank"          href="http://sharepoint/sites/cerner/quickreferenceguides/Documents/EXP001_Run_Printable_TCI_List.pdf" onmouseover="return overlib('This guide outlines the process for running a printable TCI List', CAPTION, 'TCI LIST');" onmouseout="return nd();">Run Printable TCI List 3(<i>Revised<i>)</a>'|\
perl -ne 'if (s#<a\s+target[^>]+>(.+?)</a>##is){print "$1\n";}'

Run Printable TCI List (<i>Revised<i>)
Run Printable TCI List 1(<i>Revised<i>)
Run Printable TCI List 2(<i>Revised<i>)
Run Printable TCI List 3(<i>Revised<i>)

Answer 3

您應該使用適當的HTML解析器，例如HTML::TreeBuilder 。 該程序演示的代碼不再復雜

use strict;
use warnings;

use HTML::TreeBuilder;

my $tree = HTML::TreeBuilder->new_from_file(*DATA);

print $_->as_text, "\n" for $tree->look_down(_tag => 'a', target => qr/./);

__DATA__
    <a target="_blank"          href="http://sharepoint/sites/cerner/quickreferenceguides/Documents/EXP001_Run_Printable_TCI_List.pdf" onmouseover="return overlib('This guide outlines the process for running a printable TCI List', CAPTION, 'TCI LIST');" onmouseout="return nd();">Run Printable TCI List (<i>Revised<i>)</a>

輸出

Run Printable TCI List (Revised)

編輯

要對示例中的文件使用此技術，代碼如下所示

use strict;
use warnings;

use HTML::TreeBuilder;

my $tree = HTML::TreeBuilder->new_from_file('C:\HTMLsorter\sources.txt');

open my $out, '>', 'C:\HTMLsorter\outseark.txt' or die $!;

print $out $_->as_text, "\n" for $tree->look_down(_tag => 'a', target => qr/./);

編輯2

現在，我更好地了解了您的需求，我可以提供這種替代解決方案。 它使用HTML::DOM模塊來訪問HTML文檔的文檔對象模型 ，因為使用HTML::TreeBuilder獲得所需的結果相對困難。

我還注意到您的示例HTML包含Revised ，顯然應該將其Revised ，並且我已針對此示例測試對其進行了更正。 無論如何，Perl都試圖像瀏覽器一樣解析錯誤的HTML，即使出現錯誤，輸出還是可用的。

use strict;
use warnings;

use HTML::DOM;

my $dom = HTML::DOM->new;
$dom->parse_file('C:\HTMLsorter\sources.txt') or die $!;

open my $out, '>', 'C:\HTMLsorter\outseark.txt' or die $!;
print $out $_->innerHTML, "\n" for grep $_->attr('target'), $dom->getElementsByTagName('a');

輸出

（已更正標簽）

Run Printable TCI List (<i>Revised</i>)

（帶有原始標簽）

Run Printable TCI List (<i>Revised<i>)</i></i>

Perl腳本將單詞從一個文件刪除到輸出文件

問題描述

3 個解決方案

解決方案1
1 2012-04-11 13:45:57

解決方案2
0 2012-04-11 12:25:56

解決方案3
0 已采納 2012-04-11 16:25:32

Perl腳本將單詞從一個文件刪除到輸出文件

問題描述

3 個解決方案

解決方案1 1 2012-04-11 13:45:57

解決方案2 0 2012-04-11 12:25:56

解決方案3 0 已采納 2012-04-11 16:25:32

解決方案1
1 2012-04-11 13:45:57

解決方案2
0 2012-04-11 12:25:56

解決方案3
0 已采納 2012-04-11 16:25:32