繁体   English   中英

这是GAE Search API中的错误吗?

[英]Is this a bug in the GAE Search API?

我正在基于GuitarParty.com上的歌曲数据库实施全文搜索。 数据由多种语言的歌词组成,这本身不是问题。

但是,当使用snippeted_fields返回搜索结果时,单词中的所有重音字符(例如ÚúÉéÍí)都将使用其通用的非重音版本UuEeIi返回。

这是我形成查询的方式:

    query = search.Query( 
        query_string=qs, 
        options=search.QueryOptions(
            sort_options=search.SortOptions(
                #match_scorer=search.MatchScorer(),
                match_scorer=search.RescoringMatchScorer(),
                expressions=[
                    search.SortExpression(expression='_score + importance * 0.03', default_value=0)
                    #search.SortExpression(expression='_score', default_value=0)
                ],
                limit=1000,
            ),
            cursor=cursor, 
            returned_fields=['title','atomtitle','item', 'image'],
            snippeted_fields=['title','atomtitle', 'body','item'],
        )
    )

我很确定这不是编码问题,因为如果我直接拉出我的文档字段(就像我对标题所做的那样),那么一切看起来都是正确的。 只是片段式的错误显示不正确。

为了更好地了解我指的是什么,您可以在这里试用我的测试引擎: http : //gp-search.appspot.com/并搜索冰岛语。 词组范例:VísurvatnsendaRósu

这将返回带有以下代码段的文档:

奥金·明·奥贡·min O foga fogru steina。 Mitt erþittog itt er mitt,例如,meina。 Langt ersiðansa例如hann sannlegafriðurvar hann。

正确拼写的代码段应为:

Augunmínog augunþín。 Óþfögrusteina。 Mitt erþitt和þitter mitt,例如,meina。 Langt ersíðansáéghann sannlegafriðurvar hann。

我最好从文档数据中生成自己的摘要,还是可以采取一些措施来提取单词中带有重音符号的摘要?

您输入的数据将进行标准化,因此您在搜索时不必担心重音符号或缺少重音符号。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM