預期的字符串或類似字節的對象NLTK Mysql

Question

您能幫我解決這個錯誤嗎？

def get_db():
    mydb = mysql.connector.connect(
    host="localhost",
    user="root",
    password="",
    database="cosmos"
    )
    mycursor = mydb.cursor()
    sql_select="SELECT article FROM crawling_sm"
    mycursor.execute(sql_select)
    data=mycursor.fetchall()
    for z in range(len(data)):
        text_sents=sent_tokenize(data[z])

def process_text(text_article):
    text_sents=text_article
    text_sents_clean = [remove_string_special_characters(s) for s in text_sents] #if s.istitle() == False]
    doc_info = get_doc(text_sents_clean)
    #freqDict_list = create_freq_dict(text_sents_clean)
    #TF_scores = computeTF(doc_info, freqDict_list)
    print(text_sents)

    get_db()

錯誤消息是我從數據庫中選擇的文章無法拆分為某些文本，我嘗試使用send_tokenize，但是存在一些錯誤消息，期望該字符串或類似字節的對象

錯誤消息：

_slices_from_text中的文件“ C：\\ Users \\ HP Laptop \\ Anaconda3 \\ lib \\ site-packages \\ nltk \\ tokenize \\ punkt.py”，行1295，用於匹配self._lang_vars.period_context_re（）。finditer（text）：

TypeError：預期的字符串或類似字節的對象

Answer 1

問題是

data = mycursor.fetchall()

返回元組列表，即使查詢返回的是單列。

因此，與其返回類似

['a', 'b', 'c', 'd', 'e', 'f']

它返回

[('a',), ('b',), ('c',), ('d',), ('e',), ('f',)]

解決方案是將每個元組的第一個元素傳遞給sent_tokenize函數。

for row in data:
    text_sents = sent_tokenize(row[0])

預期的字符串或類似字節的對象NLTK Mysql

問題描述

1 個解決方案

解決方案1
1 2019-03-20 07:17:45

預期的字符串或類似字節的對象NLTK Mysql

問題描述

1 個解決方案

解決方案1 1 2019-03-20 07:17:45

解決方案1
1 2019-03-20 07:17:45