cost 712 ms
Google 如何如此快速地(针对如此多的文档)执行搜索(针对任何给定的查询)并仍然设法自定义结果?

[英]How does Google perform search (for any given query) so quickly (over so many documents) and still manage to customize the results?

谷歌如何如此快速地执行搜索? 在花了一些时间思考搜索之后,我意识到它是多么复杂。 查询方面:如果用户输入的查询数量有限(例如1-2个字),可以预先计算所有网站的结果,然后查找。 如果查询长度为 1-2 个单词,这可能会很好地工作。 但是,实际查询中的单词数量可能很大,因此唯一查询的数量几乎是无 ...

Python字典吞噬了大量的ram

[英]Python Dictionary eating up huge amount of ram

我建立了一个python字典,它将单词存储为关键字以及它们出现在其中的文件列表。下面是代码片段。 但如果没有。 目录中的文件数量大约为500 MB,这将占用RAM和SWAP空间。 如何管理内存使用情况。 ...

Solr多语言搜索

[英]Solr multilingual search

我目前在一个项目中,我们已经在SOLR中为文本内容建立了索引。 每个内容都以一种特定的语言(我们有4种欧洲语言)书写,但是我们想增加一个功能,如果主搜索(用户输入的搜索文本)返回的结果不多,那么我们也会尝试寻找文档用其他语言。 因此,我们将需要翻译查询。 我们的基础是我们可以拥有项目领域中 ...

实用的信息检索反馈

[英]information retrieval feedback in practical

从Coursera的“文本检索和搜索引擎”课程中,我了解了诸如Rocchio之类的信息检索系统中的一些反馈算法。 但是我仍然不明白如何在实际中使用反馈。 为什么所有反馈算法都会更新查询向量,而不是直接更新文档等级? 文档点击后反馈是否存储在“发帖”列表中? 谢谢 ...

Python查询处理和布尔搜索

[英]Python Query Processing and Boolean Search

我有一个倒排索引(作为字典),我想采用布尔搜索查询作为输入来处理它并产生结果。 倒排索引是这样的: 现在,给定一个布尔搜索查询,我必须返回结果。 例子: 布尔搜索查询: test AND try结果应该是所有包含单词test和try的文档。 布尔搜索查询: tes ...

无法删除谷歌浏览器的默认搜索引擎

[英]can't remove google chrome's default search engine

当我安装驱动程序时,我安装了垃圾邮件,这改变了我的 chrome 设置,然后我删除了垃圾邮件应用程序并搜索了我的文件夹并清理了应用程序,但不幸的是,即使在重置 chrome 设置和重新设置后,我也无法删除默认搜索引擎- 安装。 请帮助我如何删除该默认搜索引擎 thrible dot 按钮不起作用 ...

如何让我的用户的博客在搜索引擎中可见?

[英]How to make my user's blogs visible in search engines?

在我的网站中,我的用户可以创建自己的博客。 当用户创建博客时,所有博客内容都保存在数据库中,当有人请求时,它会从db加载内容。 我的问题是这些博客可以搜索谷歌等搜索引擎吗? 如果不是我如何使它可搜索或我可以优化搜索引擎可发现性的方式是什么? ...

PHP MySQl 搜索引擎建议

[英]PHP MySQl search engine advice

我正在尝试制作一个智能的多语言 PHP 搜索引擎。 例如,我想搜索samsung smarthphone并且用户输入smasung smortphone 。 这是从 1 000 000 行数据库中提取它的最佳方法。 我的想法是选择这个 REGEXP(对于这个例子)匹配的行 这是选择所有包含至少 ...

搜索引擎的数据库设计?

[英]Database Design for Search Engine?

我创建了一个可以爬网的应用程序。 此处-http://crawler.javaignite.com/ 我得到了所有相对URL,并具有其meta关键字和包括标题的描述。 但是现在我想将这些数据存储在某些表中,而且我不了解搜索引擎如何存储数据和搜索,因此请帮助我为此创建基本模式。 ...

为什么需要前进DNS来验证搜寻器

[英]Why is the forward DNS needed to verify crawlers

从Google的支持网站- 验证Googlebot为来电者: 使用host命令在日志访问IP地址上运行反向DNS查找。 验证域名位于googlebot.com或google.com中,然后使用对检索到的域名的host命令对在步骤1中检索到的域名进行正向DNS查找。 验证它是 ...

如何在Google上进行网络抓取

[英]How to web crawl on Google

我的要求是通过在线搜索该关键字来报告给定的关键字。 我的计划是我的网络爬虫将 在Google或Bing或Yahoo上搜索关键字 打开由Google,Bing或Yahoo返回的网站页面/链接 使用这些页面制作报告。 因为我想遵守网络爬虫规则。 因此,当我看 ...

Woocommerce参数Google索引

[英]Woocommerce Parameters Google Indexing

我目前正在使用woocommerce,偶然地通过Google搜索控制台查看时,我发现已经索引了15,000多个页面。 立即引起关注,因为我知道我的实际页面应该不超过400。 在研究之后,我注意到绝对索引了所有可能的参数(变量,网格样式,运输方式等),从而导致400变成15,000个变量。 ...

使用不受监督的点击日志评估搜索引擎

[英]Evaluating a search engine with unsupervised click logs

我有用户在我的网站上搜索的日志,他们键入了哪些搜索,以及他们单击了哪些结果。 我想改善搜索算法。 但是首先,我需要一种衡量其质量的方法。 我知道我可以使用Amazon Turk等收集数据,并让人们制作一个测试套件。 但是,我想使用网站日志中已经可用的数据。 谁能指出我如何做到这 ...

Elasticsearch相关性-具有相似名称的文档

[英]Elasticsearch relevance- documents with similar names

我正在寻找一种方法来处理Elasticsearch与“瓶”和“瓶盖”等文档名称的相关性 当有人寻找“瓶” (搜索词)时,“瓶盖”的得分应低于“红瓶”的得分。 目前,我们的搜索引擎对“红色瓶”的评分与“ 500ml瓶盖”的相关性较低 ...

瑞典NLP产品搜索引擎,具有结构化数据

[英]Swedish NLP for product search engine with structured data

我目前正在从事一个项目,该项目中有一个包含1000种产品(洗衣机)的数据库,每个数据库都有21种产品属性(例如重量,尺寸,颜色,功耗等)。我的目标是使用NLP使用户能够通过自然语言查询来搜索产品数据库,例如: “找到一台可以装载至少8公斤衣物,高度不超过60厘米且正面为不锈钢的洗衣机” ...

使用搜索引擎的种子URL进行网络爬网

[英]Web Crawling with seed URLs from search engine

我需要知道是否值得在搜索引擎给出的结果之上构建一个搜寻器。 通过这种方式,对于给定的查询,从搜索引擎中获取N个URL,并将它们输入到搜寻器中,以找到与搜索相关的更多页面。 是否有任何科学论文/实验声称这样做有助于收集更多相关页面,而不是仅从搜索引擎获取URL? ...

向我的搜索引擎添加分页

[英]Add pagination to my search engine

如何向搜索引擎结果页面添加分页? 我已经建立了一个搜索引擎,但是每次搜索都有成千上万个结果,因此我想向其中添加页面。 搜索引擎的结果输出到表格中。 我最近开始学习php和sql ... 如何添加这些页面? 到目前为止,我已经尝试过但没有成功: 我做错了什么,我可 ...

如何搜索两列并按优先级对结果进行排序?

[英]How can I search into two columns and sort the result by priority?

我有一张这样的桌子: 它是包含我网站的用户的表。 现在我要搜索它们。 您的查询建议是什么? 这是我当前的查询: 如您所见,我的查询只是搜索而已。 没有任何ORDER BY子句,因此没有定义优先级。 您知道,我要做的就是实现类似于此搜索引擎的功能: 无论 ...

索引新数据,同时在Elasticsearch中以零停机时间替换旧数据

[英]Indexing new data while replacing old data in Elasticsearch with zero downtime

我正在Elasticsearch上工作,在这里我需要在替换旧数据的同时索引新数据。 这种替换每天都会发生。 我的要求是,在完成新数据索引编制之前,用户应该只能从旧数据中进行搜索。 并且在完成此索引编制后,Elasticsearch中应该有一个指针,该指针将在删除旧数据之后立即指向新的索 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM