繁体   English   中英

带有python的Google App Engine数据存储标签云

[英]Google app engine datastore tag cloud with python

我们的应用程序引擎数据存储区中有一些非结构化的文本数据。 我想在数据存储对象的子集上创建一个属性的“一次性”标签云。 环顾四周后,我看不到任何框架,无需我自己编写即可执行此操作。

我的想法是:

  • 编写一个映射(如在map reduce中)函数来遍历数据存储区中特定类型的每个对象,
  • 将文本字符串拆分为单词
  • 每个字增加一个计数器
  • 使用最终计数通过一些第三方软件生成标签云(离线-欢迎此处提供任何建议)

因为我以前从未做过此事,所以我一直在徘徊,如果首先有一个框架可以帮助我( )我是否以正确的方式来解决这个问题。 即,请随时指出计划中的漏洞。

Feed TagCloudPyTagCloud是两种可能性。

  • 适用于Google App Engine的Feed TagCloud Generator小工具可能会满足您的需求。 不幸的是,它没有记录。 幸运的是,它非常简单,尽管我不确定它是否非常适合您的需求。

    它在提要上运行,并且看起来有些灵活,因此,如果您拥有站点的提要,那么尽管所有处理都可以在线进行,但集成起来可能不会有太多麻烦。

  • PyTagCloud也值得一看。 您将能够离线进行处理,并且它会生成相当漂亮的云。

    要使此工作正常进行,您需要做的就是导出数据存储区。 因为PyTagCloud可以对文本文件进行操作,所以计数和拆分将为您完成。 按照App Engine文档中有关上传和下载数据的说明进行操作,将向您展示如何将数据存储区导出到本地计算机。 您将要编写一个“导出程序类”,并使PyTagCloud在输出上进行操作。


如果您决定自己动手,除非您需要动态更新的云,否则您可能希望跳过联机处理并使用上面的“ 上传和下载数据”的脱机方法。 遍历整个数据存储并进行在线计数是任务中最烦人,最昂贵的部分。 仅在您需要或需要动态标签云时才有意义。 如上所述,我建议编写一个“导出程序类”,并在本地对其进行操作。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM