繁体   English   中英

抓取维基百科文章的内容

Grab contents of a Wikipedia article

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

我想使用实际的 API 获取维基百科文章的内容。 现在,我对action=renderaction=raw了如指掌,但我想要尽可能简单的纯文本版本。 没有格式,没有链接,最好没有模板,没有引用,也没有目录。 举个例子,这里是 SO 页面的摘录:

<p><b>Stack Overflow</b> is a <a href="http://en.wikipedia.org/wiki/Website" title="Website">website</a>, part of the <a href="http://en.wikipedia.org/wiki/Stack_Exchange_Network" title="Stack Exchange Network">Stack Exchange Network</a>,<sup id="cite_ref-blog_legal_1-0" class="reference"><a href="#cite_note-blog_legal-1"><span>[</span>2<span>]</span></a></sup><sup id="cite_ref-stackapps_legal_2-0" class="reference"><a href="#cite_note-stackapps_legal-2"><span>[</span>3<span>]</span></a></sup> featuring questions and answers on a wide range of topics in <a href="http://en.wikipedia.org/wiki/Computer_programming" title="Computer programming">computer programming</a>.<sup id="cite_ref-secrets_3-0" class="reference"><a href="#cite_note-secrets-3"><span>[</span>4<span>]</span></a></sup><sup id="cite_ref-slashdot_4-0" class="reference"><a href="#cite_note-slashdot-4"><span>[</span>5<span>]</span></a></sup><sup id="cite_ref-google-tech-talks_5-0" class="reference"><a href="#cite_note-google-tech-talks-5"><span>[</span>6<span>]</span></a></sup></p> 

这毕竟是所有模板和东西。 我想把那些完全删掉,然后找到真正的文章开始的地方。 然后我需要将其进一步削减为:

Stack Overflow 是一个网站,是 Stack Exchange 网络的一部分,提供有关计算机编程中广泛主题的问题和答案。

如何通过模板和 wiki 格式自行获取原始文章内容? 这将在 PHP 中实现。

1 个回复

维基百科mediawiki api 拥有您正在寻找的一切。 对于 SO 示例,这里是SO wiki api 页面

我不认为你可以直接通过 API 获得纯文本。 您需要从这些解析器集中选择您要查找的内容。

希望这可以帮助!

2 维基百科中的文章摘要

Wikipedia在使用其搜索功能时为大多数文章提供文章摘要(请参见下面的屏幕截图)。 看了各种文章,没找到原文中的文字; 既不在呈现的页面中,也不在“编辑”部分的元数据中。 现在,我有两个问题: 维基百科如何显示这些摘要? 这些预先准备好的文本是社区输入的,还是有任何底层的机器学习算法来 ...

3 如何获得正确的维基百科文章

我正在使用MediaWiki API来获取某些Wikipedia文章的第一段。 目前,我遇到的问题是在Wikipedia中有多个条目的术语。 例如,术语Java带来了关于Java岛的Wikipedia文章,而不是编程语言。 我应该使用一些参数来区分两者吗? ...

4 从维基百科文章中摘录?

我一直在维基百科API上下,但我无法弄清楚是否有一种很好的方式来获取文章的摘录(通常是第一段)。 获得该段落的HTML格式也会很好。 我目前看到的获得类似于片段的内容的唯一方法是执行全文搜索( 示例 ),但这不是我想要的(太短)。 有没有其他方法来获取维基百科文章的第一段而不是野蛮 ...

6 无法下载维基百科文章

我有一个基于C#控制台的应用程序(Windows 10,VS2015),我想从两篇维基百科文章中下载原始文本。 维基百科的网址包含变音符号,这使我有些麻烦。 以下是仅用于获取网络响应的代码: 第三个响应是出于测试目的,与第二个响应相同,只是我将“ü”替换为“ u”。 因此,第一个响 ...

2015-08-25 21:12:24 1 107   c#
8 从维基百科获取随机文章

嗨,我正在一个网站上,该网站从Wikipedia提取随机文章,并将其显示在我的网站上。 问题是我不知道如何检索那些文章。 文档也没有帮助。 有人可以建议我如何处理吗? 我们可以使用api吗? 我正在使用PHP + HTML。 ...

9 获取维基百科文章摘要

我有这个PHP函数来获取维基百科的摘要 输出是预期的图像,标题,第一段,但不是图像只是一个带有损坏的图像图标的矩形,带有段落的标题被粘在一起。 我究竟做错了什么? 是否需要设计样式如果是这样我将如何设计xml? ...

2014-12-02 13:55:42 1 53   php/ xml
10 如何抓取整个维基百科?

我试过WebSphinx应用程序。 我意识到如果我把wikipedia.org作为起始URL,它将不会进一步爬行。 那么,如何实际爬行整个维基百科? 任何人都可以给出一些指导方针吗? 我是否需要专门去查找这些网址并放置多个起始网址? 任何人都有关于使用WebSphinx A ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM