使用PHP將Wiktionary XML數據轉儲到MySQL數據庫中

Question

好的，我只是想解析Wikimedia提供的Wiktionary Data Dump 。

我的意圖是解析XML數據轉儲到MySQL數據庫中。 我沒有找到有關此XML結構的適當文檔。 另外，我無法打開該文件，因為它實際上非常大（〜1 GB）。

我曾想過使用一些PHP腳本來解析它，但是我對要進行的XML結構一無所知。 因此，如果有人已經使用PHP解析了MySQL（或對解析任何工具有想法），請分享詳細信息。 如果PHP中沒有任何內容，則其他方法也可以。

我只是關注了這篇文章（ http://www.igrec.ca/lexicography/installing-a-local-copy-of-wiktionary-mysql/ ），但是它沒有成功.. :(如果有人在此方面取得了成功過程中，請提供幫助。

Answer 1

可以使用在compress.bzip2://流上運行的XMLReader在PHP中解析這些文件。 您擁有的文件的結構是示例性的（查看前3000個元素）：

\-mediawiki (1)
  |-siteinfo (1)
  | |-sitename (1)
  | |-base (1)
  | |-generator (1)
  | |-case (1)
  | \-namespaces (1)
  |   \-namespace (40)
  \-page (196)
    |-title (196)
    |-ns (196)
    |-id (196)
    |-restrictions (2)
    |-revision (196)
    | |-id (196)
    | |-parentid (194)
    | |-timestamp (196)
    | |-contributor (196)
    | | |-username (182)
    | | |-id (182)
    | | \-ip (14)
    | |-comment (183)
    | |-text (195)
    | |-sha1 (195)
    | |-model (195)
    | |-format (195)
    | \-minor (99)
    \-redirect (5)

該文件本身稍大，因此需要花費很多時間來處理。 另外，也可以不對XML轉儲進行操作，而只是通過mysql命令行工具導入SQL轉儲。 該站點上也提供SQL轉儲，請參見英語Wiktionary的所有轉儲格式：

http://dumps.wikimedia.org/enwiktionary/latest/

總體文件較小，包含66 849 000個元素：

\-mediawiki (1)
  |-siteinfo (1)
  | |-sitename (1)
  | |-base (1)
  | |-generator (1)
  | |-case (1)
  | \-namespaces (1)
  |   \-namespace (40)
  \-page (3993913)
    |-title (3993913)
    |-ns (3993913)
    |-id (3993913)
    |-restrictions (552)
    |-revision (3993913)
    | |-id (3993913)
    | |-parentid (3572237)
    | |-timestamp (3993913)
    | |-contributor (3993913)
    | | |-username (3982087)
    | | |-id (3982087)
    | | \-ip (11824)
    | |-comment (3917241)
    | |-text (3993913)
    | |-sha1 (3993913)
    | |-model (3993913)
    | |-format (3993913)
    | \-minor (3384811)
    |-redirect (27340)
    \-DiscussionThreading (4698)
      |-ThreadSubject (4698)
      |-ThreadPage (4698)
      |-ThreadID (4698)
      |-ThreadAuthor (4698)
      |-ThreadEditStatus (4698)
      |-ThreadType (4698)
      |-ThreadSignature (4698)
      |-ThreadParent (3605)
      |-ThreadAncestor (3605)
      \-ThreadSummaryPage (11)

使用PHP將Wiktionary XML數據轉儲到MySQL數據庫中

問題描述

1 個解決方案

解決方案1
3 已采納 2014-08-10 19:46:42

使用PHP將Wiktionary XML數據轉儲到MySQL數據庫中

問題描述

1 個解決方案

解決方案1 3 已采納 2014-08-10 19:46:42

解決方案1
3 已采納 2014-08-10 19:46:42