簡體   English   中英

我應該使用哪種神經網絡從用於RDF規則的句子中提取關鍵信息?

[英]What kind of neural network should I use for extract key information from a sentence for RDF rules?

我正在研究論文,任務之一是從以下類型的句子中提取公司名稱和位置:

“ Google與日本公司共享資源。”

在這里,我希望輸出為“ Google Japan”。 句子結構也可能像“日本公司可以訪問Google的資源”那樣變化。 我嘗試了基於注意力的NN,但錯誤率約為0.4。 誰能給我一些關於應該使用哪種模型的提示?

然后我像這樣打印出驗證過程: 驗證打印

我得到損耗和精度的圖表:損耗 和精度

它顯示val_acc為0.99。 這是否意味着我的模型非常擅長預測? 但是,當我使用自己的驗證功能顯示錯誤率時為什么會得到0.4的錯誤率呢? 我是ML的新手。 val_acc實際是什么意思?

這是我的模型:

encoder_input = Input(shape=(INPUT_LENGTH,))
decoder_input = Input(shape=(OUTPUT_LENGTH,))

encoder = Embedding(input_dict_size, 64, input_length=INPUT_LENGTH, mask_zero=True)(encoder_input)
encoder = LSTM(64, return_sequences=True, unroll=True)(encoder)
encoder_last = encoder[:, -1, :]

decoder = Embedding(output_dict_size, 64, input_length=OUTPUT_LENGTH, mask_zero=True)(decoder_input)
decoder = LSTM(64, return_sequences=True, unroll=True)(decoder, initial_state=[encoder_last, encoder_last])

attention = dot([decoder, encoder], axes=[2, 2])
attention = Activation('softmax')(attention)

context = dot([attention, encoder], axes=[2, 1])
decoder_combined_context = concatenate([context, decoder])

output = TimeDistributed(Dense(64, activation="tanh"))(decoder_combined_context)  # equation (5) of the paper
output = TimeDistributed(Dense(output_dict_size, activation="softmax"))(output)

model = Model(inputs=[encoder_input, decoder_input], outputs=[output])
model.compile(optimizer='adam', loss="binary_crossentropy", metrics=['accuracy'])

es = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=200, min_delta=0.0005)

首先,我要說的是如果您是ML的新手,我建議您在轉向神經網絡之前,學習更多的“傳統”算法。 此外,您的任務是如此特定於公司名稱和位置,以至於使用潛在語義分析(或類似的統計方法)來生成嵌入內容,並使用SVM確定哪些詞是相關的,這比神經網絡具有更少的實驗和更少的結果會更好。訓練時間。

現在說了這么多,這就是我可以收集的。 如果我理解正確,那么您將獲得一個單獨的第二個驗證集,該驗證集上的錯誤率為40%。 屏幕截圖中的所有數字都非常好,這使我得出兩個可能的結論:您的第二個驗證集與第一個驗證集有很大不同,並且您正遭受過度擬合的困擾,或者代碼中存在一個錯誤,導致Keras相信您的模型做得很好,而實際上卻並非如此。 (請記住,我對Keras不太熟悉,所以我不知道后一種選擇的可能性)

現在,對於模型本身,您的任務顯然是提取性的 ,這意味着您的模型不需要解釋任何內容或提出源文本中沒有的內容。 您的模型應該考慮到這一點,並且絕對不要犯錯誤,例如將印度與新西蘭混淆或將騰訊與Google混淆。 您可能可以基於最近在提取摘要中的工作來建立模型,這是一個相當活躍的領域(除了關鍵字和關鍵詞提取之外)。 是一篇使用神經注意力模型的最新文章,您可以使用Google學術搜索輕松找到更多內容。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM