我應該使用哪種神經網絡從用於RDF規則的句子中提取關鍵信息？

Question

我正在研究論文，任務之一是從以下類型的句子中提取公司名稱和位置：

“ Google與日本公司共享資源。”

在這里，我希望輸出為“ Google Japan”。 句子結構也可能像“日本公司可以訪問Google的資源”那樣變化。 我嘗試了基於注意力的NN，但錯誤率約為0.4。 誰能給我一些關於應該使用哪種模型的提示？

然后我像這樣打印出驗證過程： 驗證打印

我得到損耗和精度的圖表：損耗 和精度

它顯示val_acc為0.99。 這是否意味着我的模型非常擅長預測？ 但是，當我使用自己的驗證功能顯示錯誤率時為什么會得到0.4的錯誤率呢？ 我是ML的新手。 val_acc實際是什么意思？

這是我的模型：

encoder_input = Input(shape=(INPUT_LENGTH,))
decoder_input = Input(shape=(OUTPUT_LENGTH,))

encoder = Embedding(input_dict_size, 64, input_length=INPUT_LENGTH, mask_zero=True)(encoder_input)
encoder = LSTM(64, return_sequences=True, unroll=True)(encoder)
encoder_last = encoder[:, -1, :]

decoder = Embedding(output_dict_size, 64, input_length=OUTPUT_LENGTH, mask_zero=True)(decoder_input)
decoder = LSTM(64, return_sequences=True, unroll=True)(decoder, initial_state=[encoder_last, encoder_last])

attention = dot([decoder, encoder], axes=[2, 2])
attention = Activation('softmax')(attention)

context = dot([attention, encoder], axes=[2, 1])
decoder_combined_context = concatenate([context, decoder])

output = TimeDistributed(Dense(64, activation="tanh"))(decoder_combined_context)  # equation (5) of the paper
output = TimeDistributed(Dense(output_dict_size, activation="softmax"))(output)

model = Model(inputs=[encoder_input, decoder_input], outputs=[output])
model.compile(optimizer='adam', loss="binary_crossentropy", metrics=['accuracy'])

es = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=200, min_delta=0.0005)

Answer 1

首先，我要說的是如果您是ML的新手，我建議您在轉向神經網絡之前，學習更多的“傳統”算法。 此外，您的任務是如此特定於公司名稱和位置，以至於使用潛在語義分析（或類似的統計方法）來生成嵌入內容，並使用SVM確定哪些詞是相關的，這比神經網絡具有更少的實驗和更少的結果會更好。訓練時間。

現在說了這么多，這就是我可以收集的。 如果我理解正確，那么您將獲得一個單獨的第二個驗證集，該驗證集上的錯誤率為40％。 屏幕截圖中的所有數字都非常好，這使我得出兩個可能的結論：您的第二個驗證集與第一個驗證集有很大不同，並且您正遭受過度擬合的困擾，或者代碼中存在一個錯誤，導致Keras相信您的模型做得很好，而實際上卻並非如此。 （請記住，我對Keras不太熟悉，所以我不知道后一種選擇的可能性）

現在，對於模型本身，您的任務顯然是提取性的 ，這意味着您的模型不需要解釋任何內容或提出源文本中沒有的內容。 您的模型應該考慮到這一點，並且絕對不要犯錯誤，例如將印度與新西蘭混淆或將騰訊與Google混淆。 您可能可以基於最近在提取摘要中的工作來建立模型，這是一個相當活躍的領域（除了關鍵字和關鍵詞提取之外）。 這是一篇使用神經注意力模型的最新文章，您可以使用Google學術搜索輕松找到更多內容。

我應該使用哪種神經網絡從用於RDF規則的句子中提取關鍵信息？

問題描述

1 個解決方案

解決方案1
1 2019-05-07 12:26:28

我應該使用哪種神經網絡從用於RDF規則的句子中提取關鍵信息？

問題描述

1 個解決方案

解決方案1 1 2019-05-07 12:26:28

解決方案1
1 2019-05-07 12:26:28