[英]MYSQL DB Best method to store keywords and URL index
这些方法中的哪一种将是存储、检索、处理和搜索存储的 URL 的大型(数百万条记录)索引以及那里的关键字的最有效方法。
示例 1:(使用一张表)
TABLE_URLs-----------------------------------------------
ID DOMAIN KEYWORDS
1 mysite.com videos,photos,images
2 yoursite.com videos,games
3 hissite.com games,images
4 hersite.com photos,pictures
---------------------------------------------------------
示例 2:(从一个表到另一个表的一对一关系)
TABLE_URLs-----------------------------------------------
ID DOMAIN KEYWORDS
1 mysite.com
2 yoursite.com
3 hissite.com
4 hersite.com
---------------------------------------------------------
TABLE_URL_KEYWORDS---------------------------------------------
ID DOMAIN_ID KEYWORDS
1 1 videos,photos,images
2 2 videos,games
3 3 games,images
4 4 photos,pictures
---------------------------------------------------------
示例 3:(从一个表到另一个表的一对一关系(使用引用表))
TABLE_URLs-----------------------------------------------
ID DOMAIN
1 mysite.com
2 yoursite.com
3 hissite.com
4 hersite.com
---------------------------------------------------------
TABLE_URL_TO_KEYWORDS------------------------------------
ID DOMAIN_ID KEYWORDS_ID
1 1 1
2 2 2
3 3 3
4 4 4
---------------------------------------------------------
TABLE_KEYWORDS-------------------------------------------
ID KEYWORDS
1 videos,photos,images
2 videos,games
3 games,images
4 photos,pictures
---------------------------------------------------------
示例 4:(从 url 到关键字 ID 的多对多关系(使用参考表))
TABLE_URLs-----------------------------------------------
ID DOMAIN
1 mysite.com
2 yoursite.com
3 hissite.com
4 hersite.com
---------------------------------------------------------
TABLE_URL_TO_KEYWORDS------------------------------------
ID DOMAIN_ID KEYWORDS_ID
1 1 1
2 1 2
3 1 3
4 2 1
5 2 4
6 3 4
7 3 3
8 4 2
9 4 5
---------------------------------------------------------
TABLE_KEYWORDS-------------------------------------------
ID KEYWORDS
1 videos
2 photos
3 images
4 games
5 pictures
---------------------------------------------------------
我的理解是示例 1 将占用最大的存储空间,但是通过这些数据搜索会很快(重复关键字保存多次,但是关键字位于相关域旁边)
w而示例 4 将节省大量存储空间,但搜索会花费更长的时间。 (不必存储重复的关键字,但是为每个域引用多个关键字会花费更长的时间)
在设计可以处理大量数据的数据库时,谁能给我任何见解或想法? 有远见,您可能希望显示 URL 及其相关关键字或搜索一个或多个关键字并显示最相关的 URL
url 和关键字之间确实存在多对多关系。 在关系数据库中表示这一点的规范方法是使用桥接表,它对应于您问题中的示例 4。
使用适当的数据结构,您会发现查询将更容易编写,并且尽可能高效。
我不知道是什么驱使您认为在第一个结构中进行搜索会更快。 这要求您在搜索每个关键字时进行模式匹配,这非常慢。 另一方面,使用联结表可以搜索完全匹配,这可以利用索引。
最后,维护这样的结构也容易得多; 添加或删除关键字可以通过insert
和delete
语句来完成,而其他结构则需要您在分隔列表中进行字符串操作,这又是乏味、容易出错且效率低下的。
以上都不是。
只需有一个包含 2 个字符串列的表:
CREATE TABLE domain_keywords (
domain VARCHAR(..) NOT NULL,
keyword VARCHAR(..) NOT NULL,
PRIMARY KEY(domain, keyword),
INDEX(keyword, domain)
) ENGINE=InnoDB
笔记:
id
是非常浪费的。 “豪斯数据库”? 我预测这个表会比你的Domains
表小。 也就是说,这张表不是你对“巨大”的主要关注。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.