簡體   English   中英

使用PHP將Wiktionary XML數據轉儲到MySQL數據庫中

[英]Parse Wiktionary XML data dump into MySQL database using PHP

好的,我只是想解析Wikimedia提供的Wiktionary Data Dump

我的意圖是解析XML數據轉儲到MySQL數據庫中。 我沒有找到有關此XML結構的適當文檔。 另外,我無法打開該文件,因為它實際上非常大(〜1 GB)。

我曾想過使用一些PHP腳本來解析它,但是我對要進行的XML結構一無所知。 因此,如果有人已經使用PHP解析了MySQL(或對解析任何工具有想法),請分享詳細信息。 如果PHP中沒有任何內容,則其他方法也可以。

我只是關注了這篇文章( http://www.igrec.ca/lexicography/installing-a-local-copy-of-wiktionary-mysql/ ),但是它沒有成功.. :(如果有人在此方面取得了成功過程中,請提供幫助。

可以使用在compress.bzip2://上運行的XMLReader在PHP中解析這些文件。 您擁有的文件的結構是示例性的(查看前3000個元素):

\-mediawiki (1)
  |-siteinfo (1)
  | |-sitename (1)
  | |-base (1)
  | |-generator (1)
  | |-case (1)
  | \-namespaces (1)
  |   \-namespace (40)
  \-page (196)
    |-title (196)
    |-ns (196)
    |-id (196)
    |-restrictions (2)
    |-revision (196)
    | |-id (196)
    | |-parentid (194)
    | |-timestamp (196)
    | |-contributor (196)
    | | |-username (182)
    | | |-id (182)
    | | \-ip (14)
    | |-comment (183)
    | |-text (195)
    | |-sha1 (195)
    | |-model (195)
    | |-format (195)
    | \-minor (99)
    \-redirect (5)

該文件本身稍大,因此需要花費很多時間來處理。 另外,也可以不對XML轉儲進行操作,而只是通過mysql命令行工具導入SQL轉儲。 該站點上也提供SQL轉儲,請參見英語Wiktionary的所有轉儲格式:


總體文件較小,包含66 849 000個元素:

\-mediawiki (1)
  |-siteinfo (1)
  | |-sitename (1)
  | |-base (1)
  | |-generator (1)
  | |-case (1)
  | \-namespaces (1)
  |   \-namespace (40)
  \-page (3993913)
    |-title (3993913)
    |-ns (3993913)
    |-id (3993913)
    |-restrictions (552)
    |-revision (3993913)
    | |-id (3993913)
    | |-parentid (3572237)
    | |-timestamp (3993913)
    | |-contributor (3993913)
    | | |-username (3982087)
    | | |-id (3982087)
    | | \-ip (11824)
    | |-comment (3917241)
    | |-text (3993913)
    | |-sha1 (3993913)
    | |-model (3993913)
    | |-format (3993913)
    | \-minor (3384811)
    |-redirect (27340)
    \-DiscussionThreading (4698)
      |-ThreadSubject (4698)
      |-ThreadPage (4698)
      |-ThreadID (4698)
      |-ThreadAuthor (4698)
      |-ThreadEditStatus (4698)
      |-ThreadType (4698)
      |-ThreadSignature (4698)
      |-ThreadParent (3605)
      |-ThreadAncestor (3605)
      \-ThreadSummaryPage (11)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM