![](/img/trans.png)
[英]extract text from between html tags with specific id using sed or grep
[英]Using grep to extract html from <div> container tags
我有一个页面,其中包含不同作者的许多帖子。 我想要来自该帖子页面的用户 A 的帖子。
如何设置 grep 以查看作者页面中每个帖子的 html 块,然后将帖子的内容打印到文件中? 帖子结构类似于
<!--Begin Msg Number #####-->
[useless junk i'm not interested in here]
<span class="author vcard"><a class="url fn" href='url here'>User A</a> </span>
[more junk]
<div class='post entry-content '>
<!--cached-some date string--> Here's the text I want to extract
</div>
[more junk]
<hr />
我认为结构类似于
grep /pattern/ output file
但我是否需要明确告诉它只在
<!-- begin msg ... -->
和
<hr />
绑定帖子的标签,还是 grep 足够智能以自动执行此操作? 我担心当 grep 找到用户 A 的模式时,它会将所有帖子内容打印到一个文件中,而不仅仅是那个特定的。
如果所有帖子文本都在一行上,请尝试
grep /(author vcard|<!--cached-)/
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.