簡體   English   中英

使用XSLT進行單詞和短語計數

[英]Word and phrase counting with XSLT

我們想建立一個公司產品文檔的字典,創建一個固定的術語,因此我們要計算特定單詞和短語的出現頻率。

可以通過幾種不同的方式解決此問題,但是我們想以某種方式解決的問題是編寫一種XSLT算法,該算法可以識別短語,因為特定的單詞經常一起出現(因此我們不必事先指定所有短語和所有版本的字詞都有不同的變化,修飾詞等)。

您如何看待,可以使用XSLT完成此任務,還是應該照顧其他解決方案?

如果有人對我們應該如何開始有任何有用的建議,我將非常高興聽到您的想法並進行討論!

您正在尋找搭配,它在算法上與Pointwise互信息鏈接。

在XSLT中,沒有用於自然語言處理(NLP)的框架,因此您必須發明一個框架。 不過,也有NLP框架編程語言,如Python的NLTK。 查看此示例以使用Python查找搭配

使用以流行的數據挖掘語言(例如Python或R)編寫的外部應用程序可能是最簡單的。(您甚至可以將其插入DITA OT處理中。)您還可以考慮使用現有解決方案的供應商。 我沒有對此進行任何深入的搜索,但是我已經看到Watson,Semaphore甚至XDocs之類的系統從語言分析中返回結果。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM