[英]Spark DF pivot error: Method pivot([class java.lang.String, class java.lang.String]) does not exist
[英]The data type of java.lang.String object [] does not correspond to value meta [Date]
將Pentaho與Python插件配合使用時,我有一個傳入的CSV,其中包含兩個字段Month
和Year
,我需要根據這些字段創建Date
。 Month
包含完整的月名稱,例如“一月”,“二月”等。
為此,我創建了pandas
腳本(“創建日期”),然后添加Day
字段並將其設置為1,然后從Month
獲取月份號,然后創建date_tw
字段並從Year
, Month
和Day
創建日期時間。
create date
輸出所有字段,並將新的date_tw
字段作為Date
類型。
python腳本的字段輸出之一:
Data Output
創建一個表,並且date_tw
為Date
類型。
到目前為止,我們已經:從python重新創建了date_tw
,它被饋送到Data Output
,后者已經使用date_tw
作為Date
類型創建了表。 兩者都是Date
類型。
但是我得到這個錯誤:
date_tw日期:數據類型錯誤:java.lang.String對象[06/01/2017]的數據類型與值meta [Date]不對應
看來我應該在CSV文件輸入步驟中關閉“惰性轉換” 。 這也完成了。
Pentaho中的Pandas腳本:
import pandas as pd
import calendar as cal
df['Day'] = 1
mapping = {v : k for k, v in enumerate(cal.month_name)}
df['Month'] = df['Month'].map(mapping)
df['date_tw'] = ''
df['date_tw'] = pd.to_datetime(df[['Year', 'Month', 'Day']], format='%Y/%m/%d')
df['date_tw'] = df['date_tw'].dt.strftime('%m/%d/%Y')
result_df = df
PostgreSQL表字段:
數據類型匹配並且延遲轉換已關閉。 我想念什么?
Pentaho元數據包含日期類型的每個對象的日期格式。 並且Python script
的date_tw
的格式為dd / mm / yyyy。
您可以通過右鍵單擊Python script
並選擇Output fields...
來檢查任何字段的類型和格式。 檢查它是否是dd / mm / yyyy nd而不是您的語言環境。
如果不是,並且Python script
不允許您指定日期格式,請在最后一行(只有一行)上使用strftime進行操作。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.