![](/img/trans.png)
[英]How to fetch all the literal values from an index field in AWS CloudSearch
[英]How to clear all data from AWS CloudSearch?
我有一個我仍在開發的AWS CloudSearch實例。
有時,例如當我對字段的格式進行一些修改時,我發現自己想要消除所有數據並重新生成它。
有沒有辦法使用控制台清除所有數據,或者我必須通過程序方式來解決它?
如果我必須使用編程方法(即生成和POST一堆“刪除”SDF文件)有什么好方法可以查詢CloudSearch實例中的所有文檔嗎?
我想我可以刪除並重新創建實例,但這需要一段時間,並丟失所有索引/等級表達式/文本選項/等
使用命令行中的aws和jq (在mac上使用bash測試):
export CS_DOMAIN=https://yoursearchdomain.yourregion.cloudsearch.amazonaws.com
# Get ids of all existing documents, reformat as
# [{ type: "delete", id: "ID" }, ...] using jq
aws cloudsearchdomain search \
--endpoint-url=$CS_DOMAIN \
--size=10000 \
--query-parser=structured \
--search-query="matchall" \
| jq '[.hits.hit[] | {type: "delete", id: .id}]' \
> delete-all.json
# Delete the documents
aws cloudsearchdomain upload-documents \
--endpoint-url=$CS_DOMAIN \
--content-type='application/json' \
--documents=delete-all.json
有關jq的更多信息,請參閱使用jq重塑JSON
2017年2月22日更新
添加了--size
以一次獲得最大文檔數(10,000)。 您可能需要多次重復此腳本。 此外,如果您希望對要刪除的文檔有選擇性,那么--search-query
可以采取更具體的方法。
我能夠找到的最佳答案有點埋沒在AWS文檔中。 以機智:
Amazon CloudSearch目前不提供刪除域中所有文檔的機制。 但是,您可以克隆域配置以重新開始使用空域。 有關更多信息,請參閱克隆現有域的索引選項 。
來源: http : //docs.aws.amazon.com/cloudsearch/latest/developerguide/Troubleshooting.html#ts.cleardomain
在我這邊,我使用了這樣的本地nodejs腳本:
var AWS = require('aws-sdk');
AWS.config.update({
accessKeyId: '<your AccessKey>',
secretAccessKey: '<Your secretAccessKey>',
region: '<your region>',
endpoint: '<your CloudSearch endpoint'
});
var params = {
query:"(or <your facet.FIELD:'<one facet value>' facet.FIELD:'<one facet value>')",
queryParser:'structured'
};
var cloudsearchdomain = new AWS.CloudSearchDomain(params);
cloudsearchdomain.search(params, function(err, data) {
var fs = require('fs');
var result = [];
if (err) {
console.log("Failed");
console.log(err);
} else {
resultMessage = data;
for(var i=0;i<data.hits.hit.length;i++){
result.push({"type":"delete","id":data.hits.hit[i].id});
}
fs.writeFile("delete.json", JSON.stringify(result), function(err) {
if(err) {return console.log(err);}
console.log("The file was saved!");
});
}
});
您必須至少知道onfaces的所有值,才能請求所有ID。 在我的代碼中,我只放了2(在(或....)部分),但你可以有更多。
完成后,您將使用以下命令將一個delete.json文件與AWS-CLI一起使用:
aws cloudsearchdomain upload-documents --documents delete.json --content-type application/json --endpoint-url <your CloudSearch endpoint>
......那對我有用!
Nekloth
我一直在使用python適配器boto來清空cloudsearch。 不漂亮,但它完成了工作。 困難的部分是平衡你獲取的數量在cloudsearch 5mb限制內。
count = CloudSearchAdaptor.Instance().get_total_documents()
while count > 0:
results = CloudSearchAdaptor.Instance().search("lolzcat|-lolzcat", 'simple', 1000)
for doc in results.docs:
CloudSearchAdaptor.Instance().delete(doc['id'])
CloudSearchAdaptor.Instance().commit()
#add delay here if cloudsearch takes to long to propigate delete change
count = CloudSearchAdaptor.Instance().get_total_documents()
Cloudsearch適配器類看起來如下所示:
from boto.cloudsearch2.layer2 import Layer2
from singleton import Singleton
@Singleton
class CloudSearchAdaptor:
def __init__(self):
layer2 = Layer2(
aws_access_key_id='AWS_ACCESS_KEY_ID',
aws_secret_access_key='AWS_SECRET_ACCESS_KEY',
region='AWS_REGION'
)
self.domain = layer2.lookup('AWS_DOMAIN'))
self.doc_service = self.domain.get_document_service()
self.search_service = self.domain.get_search_service()
@staticmethod
def delete(id):
instance = CloudSearchAdaptor.Instance()
try:
response = instance.doc_service.delete(id)
except Exception as e:
print 'Error deleting to CloudSearch'
@staticmethod
def search(query, parser='structured', size=1000):
instance = CloudSearchAdaptor.Instance()
try:
results = instance.search_service.search(q=query, parser=parser, size=size)
return results
except Exception as e:
print 'Error searching CloudSearch'
@staticmethod
def get_total_documents():
instance = CloudSearchAdaptor.Instance()
try:
results = instance.search_service.search(q='matchall', parser='structured', size=0)
return results.hits
except Exception as e:
print 'Error getting total documents from CloudSearch'
@staticmethod
def commit():
try:
response = CloudSearchAdaptor.Instance().doc_service.commit()
CloudSearchAdaptor.Instance().doc_service.clear_sdf()
except Exception as e:
print 'Error committing to CloudSearch'
您可以手動將文檔批量上載到AWS CloudSearch,儀表板>上載文檔。 如果您可以枚舉要刪除的所有索引ID,則可以創建腳本以生成文檔批處理或手動生成它。
文檔批處理格式應該是這樣的
sample.json
[
{
"type": "delete",
"id": "1"
},
{
"type": "delete",
"id": "2"
}
]
如何枚舉所有索引 - 運行測試搜索
在PHP上,我設法創建了一個使用AWS PHP SDK清理所有記錄的腳本:
clean.php - http://pastebin.com/Lkyk1D1i config.php - http://pastebin.com/kFkZhxCc
您需要在config.php上配置您的密鑰,在clean.php上配置您的端點,下載AWS PHP SDK,您就可以開始了!
請注意,它最多只能清理10000個文檔。 亞馬遜已經有了限制。
我已經設法為它創建了一個PowerShell腳本。 在這里查看我的網站: http : //www.mpustelak.com/2017/01/aws-cloudsearch-clear-domain-using-powershell/
腳本:
$searchUrl = '[SEARCH_URL]'
$documentUrl = '[DOCUMENT_URL]'
$parser = 'Lucene'
$querySize = 500
function Get-DomainHits()
{
(Search-CSDDocuments -ServiceUrl $searchUrl -Query "*:*" -QueryParser $parser -Size $querySize).Hits;
}
function Get-TotalDocuments()
{
(Get-DomainHits).Found
}
function Delete-Documents()
{
(Get-DomainHits).Hit | ForEach-Object -begin { $batch = '[' } -process { $batch += '{"type":"delete","id":' + $_.id + '},'} -end { $batch = $batch.Remove($batch.Length - 1, 1); $batch += ']' }
Try
{
Invoke-WebRequest -Uri $documentUrl -Method POST -Body $batch -ContentType 'application/json'
}
Catch
{
$_.Exception
$_.Exception.Message
}
}
$total = Get-TotalDocuments
while($total -ne 0)
{
Delete-Documents
$total = Get-TotalDocuments
Write-Host 'Documents left:'$total
# Sleep for 1 second to give CS time to delete documents
sleep 1
}
下面的Java版本清除雲搜索域中的所有數據:
private static final AmazonCloudSearchDomain cloudSearch = Region
.getRegion(Regions.fromName(CommonConfiguration.REGION_NAME))
.createClient(AmazonCloudSearchDomainClient.class, null, null)
.withEndpoint(CommonConfiguration.SEARCH_DOMAIN_DOCUMENT_ENDPOINT);
public static void main(String[] args) {
// retrieve all documents from cloud search
SearchRequest searchRequest = new SearchRequest().withQuery("matchall").withQueryParser(QueryParser.Structured);
Hits hits = cloudSearch.search(searchRequest).getHits();
if (hits.getFound() != 0) {
StringBuffer sb = new StringBuffer();
sb.append("[");
int i = 1;
// construct JSON to delete all
for (Hit hit : hits.getHit()) {
sb.append("{\"type\": \"delete\", \"id\": \"").append(hit.getId()).append("\"}");
if (i < hits.getHit().size()) {
sb.append(",");
}
i++;
}
sb.append("]");
// send to cloud search
InputStream documents = IOUtils.toInputStream(sb.toString());
UploadDocumentsRequest uploadDocumentsRequest = new UploadDocumentsRequest()
.withContentType("application/json").withDocuments(documents).withContentLength((long) sb.length());
cloudSearch.uploadDocuments(uploadDocumentsRequest);
}
}
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.