簡體   English   中英

帶有python的Google App Engine數據存儲標簽雲

[英]Google app engine datastore tag cloud with python

我們的應用程序引擎數據存儲區中有一些非結構化的文本數據。 我想在數據存儲對象的子集上創建一個屬性的“一次性”標簽雲。 環顧四周后,我看不到任何框架,無需我自己編寫即可執行此操作。

我的想法是:

  • 編寫一個映射(如在map reduce中)函數來遍歷數據存儲區中特定類型的每個對象,
  • 將文本字符串拆分為單詞
  • 每個字增加一個計數器
  • 使用最終計數通過一些第三方軟件生成標簽雲(離線-歡迎此處提供任何建議)

因為我以前從未做過此事,所以我一直在徘徊,如果首先有一個框架可以幫助我( )我是否以正確的方式來解決這個問題。 即,請隨時指出計划中的漏洞。

Feed TagCloudPyTagCloud是兩種可能性。

  • 適用於Google App Engine的Feed TagCloud Generator小工具可能會滿足您的需求。 不幸的是,它沒有記錄。 幸運的是,它非常簡單,盡管我不確定它是否非常適合您的需求。

    它在提要上運行,並且看起來有些靈活,因此,如果您擁有站點的提要,那么盡管所有處理都可以在線進行,但集成起來可能不會有太多麻煩。

  • PyTagCloud也值得一看。 您將能夠離線進行處理,並且它會生成相當漂亮的雲。

    要使此工作正常進行,您需要做的就是導出數據存儲區。 因為PyTagCloud可以對文本文件進行操作,所以計數和拆分將為您完成。 按照App Engine文檔中有關上傳和下載數據的說明進行操作,將向您展示如何將數據存儲區導出到本地計算機。 您將要編寫一個“導出程序類”,並使PyTagCloud在輸出上進行操作。


如果您決定自己動手,除非您需要動態更新的雲,否則您可能希望跳過聯機處理並使用上面的“ 上傳和下載數據”的脫機方法。 遍歷整個數據存儲並進行在線計數是任務中最煩人,最昂貴的部分。 僅在您需要或需要動態標簽雲時才有意義。 如上所述,我建議編寫一個“導出程序類”,並在本地對其進行操作。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM