[英]Word and phrase counting with XSLT
我們想建立一個公司產品文檔的字典,創建一個固定的術語,因此我們要計算特定單詞和短語的出現頻率。
可以通過幾種不同的方式解決此問題,但是我們想以某種方式解決的問題是編寫一種XSLT算法,該算法可以識別短語,因為特定的單詞經常一起出現(因此我們不必事先指定所有短語和所有版本的字詞都有不同的變化,修飾詞等)。
您如何看待,可以使用XSLT完成此任務,還是應該照顧其他解決方案?
如果有人對我們應該如何開始有任何有用的建議,我將非常高興聽到您的想法並進行討論!
您正在尋找搭配,它在算法上與Pointwise互信息鏈接。
在XSLT中,沒有用於自然語言處理(NLP)的框架,因此您必須發明一個框架。 不過,也有NLP框架編程語言,如Python的NLTK。 查看此示例以使用Python查找搭配 。
使用以流行的數據挖掘語言(例如Python或R)編寫的外部應用程序可能是最簡單的。(您甚至可以將其插入DITA OT處理中。)您還可以考慮使用現有解決方案的供應商。 我沒有對此進行任何深入的搜索,但是我已經看到Watson,Semaphore甚至XDocs之類的系統從語言分析中返回結果。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.