繁体   English   中英

使用 grep 从<div>容器标签</div><div id="text_translate"><p>我有一个页面,其中包含不同作者的许多帖子。 我想要来自该帖子页面的用户 A 的帖子。</p><p> 如何设置 grep 以查看作者页面中每个帖子的 html 块,然后将帖子的内容打印到文件中? 帖子结构类似于</p><pre>&lt;;--Begin Msg Number #####--&gt; [useless junk i'm not interested in here] &lt;span class="author vcard"&gt;&lt;a class="url fn" href='url here'&gt;User A&lt;/a&gt;&amp;nbsp;&lt;/span&gt; [more junk] &lt;div class='post entry-content '&gt; &lt;!--cached-some date string--&gt; Here's the text I want to extract &lt;/div&gt; [more junk] &lt;hr /&gt;</pre><p> 我认为结构类似于</p><pre>grep /pattern/ output file</pre><p> 但我是否需要明确告诉它只在</p><pre>&lt;.-- begin msg... --&gt;</pre><p> 和</p><pre>&lt;hr /&gt;</pre><p> 绑定帖子的标签,还是 grep 足够智能以自动执行此操作? 我担心当 grep 找到用户 A 的模式时,它会将所有帖子内容打印到一个文件中,而不仅仅是那个特定的。</p></div>

[英]Using grep to extract html from <div> container tags

我有一个页面,其中包含不同作者的许多帖子。 我想要来自该帖子页面的用户 A 的帖子。

如何设置 grep 以查看作者页面中每个帖子的 html 块,然后将帖子的内容打印到文件中? 帖子结构类似于

<!--Begin Msg Number #####-->

[useless junk i'm not interested in here]

<span class="author vcard"><a class="url fn" href='url here'>User A</a>&nbsp;</span>

[more junk]

<div class='post entry-content '>
                    <!--cached-some date string--> Here's the text I want to extract    
                </div>

[more junk]


<hr />

我认为结构类似于

grep /pattern/ output file 

但我是否需要明确告诉它只在

<!-- begin msg ... --> 

<hr /> 

绑定帖子的标签,还是 grep 足够智能以自动执行此操作? 我担心当 grep 找到用户 A 的模式时,它会将所有帖子内容打印到一个文件中,而不仅仅是那个特定的。

如果所有帖子文本都在一行上,请尝试

grep /(author vcard|<!--cached-)/

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM