[英]Strip non-printable characters using Hadoop Map-Reduce
我正在嘗試處理具有不可打印特征的HDFS文件。 我希望使用MapReduce去除這些字符。
我已經嘗試過使用Pig PigLoader和MR TextInputFormat(IN MR程序),它的結果是將記錄從遇到不可打印字符的位置拆分為多個。 下面是示例數據:
===數據==(2條記錄)=
4614:2011-12-20-08.45.08.169176^2011-12-20-18.15.08.100008^597^0^57^ZUKA^Grase^^^Grase,Dr^^^N^N^N^Dr^KG^ONLY INFORMATION ENTERED^UNKNOWN^0 ^ ^^^611190362
�^0^^^^^^0^Grase,Dr^^^, ,^^^^^^597^^^<fnm>DR</fnm><lnm>GRASE</lnm>^^^^^^^^SINGLE^0^0
6063:2010-07-04-04.00.00.100001^2010-07-04-04.01.00.180144^017^0^095^WEETE ^Wien^^^Wien,Colock^^^N^N^N^Colock^KG^ONLY INFORMATION ENTERED^UNKNOWN^0 ^ ^295111915^^������9905^0^^^^^^0^Wien,Colock^40001 KIN RD^300 CAMORE ST^500 BLACK AVE^Woesfield, HA, 43723.^John Ball^^^25719110^617^������9905^^<fnm>COLOCK</fnm><lnm>WIEN</lnm>^^^^^^^^SINGLE^0^0
[在少編輯器中,具有特殊字符的列的第一條記錄如下:
611190362^M<EF><BF><BD>
]
在vi或以下版本中,第一條記錄排成一行,但是在MR或Pig中讀取時,由於這些字符的存在,該記錄被拆分了。
我想避免在從HDFS讀取數據時將記錄分成新行,並希望處理這些記錄以擺脫這些特殊字符。
這是我嘗試使用基本UDF的內容(下面的代碼段)。 雖然,該程序將字符> 0x80剝離,但是對拆分的記錄執行剝離。
任何幫助/指針將不勝感激!
/*
*
* Pig Code:
* register '/basepath/udf/DIF.jar'
rel1 = LOAD '/user/home/test' USING USING TextLoader();
rel2 = FOREACH rel1 GENERATE StripNonPrintable(s) as recordline;
dump rel2;
*
*/
//Imports
public class StripNonPrintable extends EvalFunc<String>
{
public String exec(Tuple input) throws IOException {
if (input == null || input.size() == 0)
return null;
try{
String s = new String();
s = (String)input.get(0);
//s = "2001-12-20-08.45.08.169176^2001-12-20-08.45.08.131408^597^0^57^ZUCKA^Grase^^^Grase,Dr^^^N^N^N^Dr^KG^ONLY INFORMATION ENTERED^UNKNOWN^0 ^ ^^^6785790362�^0^^^^^^0^Grase,Dr^^^, ,^^^^^^597^^^<fnm>DR</fnm><lnm>GRASE</lnm>^^^^^^^^SINGLE^0^0";
int length = s.length();
char[] oldChars = new char[length];
s.getChars(0, length, oldChars, 0);
int newLen = 0;
for (int j = 0; j < length; j++) {
char ch = oldChars[j];
if (ch < 0x80 ) {
oldChars[newLen] = ch;
newLen++;
}
}
s = new String(oldChars, 0, newLen);
//System.out.println("New String = \n " + s);
return s;
}catch(Exception e){
return null ;
}
}
}
軟件包java.lang.Character
。 有一個功能getType
:
返回一個值,該值指示角色的一般類別
導入java.lang.Character
並替換:
if (ch < 0x80 )
使用以下代碼:
int c = Character.getType(ch);
if(c != Character.CONTROL ||
c != Character.CONNECTOR_PUNCTUATION ||
c != Character.CURRENCY_SYMBOL ||
c != Character.DASH_PUNCTUATION ||
c != Character.DECIMAL_DIGIT_NUMBER ||
c != Character.ENCLOSING_MARK ||
c != Character.END_PUNCTUATION ||
c != Character.FINAL_QUOTE_PUNCTUATION ||
c != Character.INITIAL_QUOTE_PUNCTUATION ||
c != Character.LETTER_NUMBER ||
c != Character.LOWERCASE_LETTER ||
c != Character.MATH_SYMBOL ||
c != Character.MODIFIER_LETTER ||
c != Character.MODIFIER_SYMBOL ||
c != Character.OTHER_LETTER ||
c != Character.OTHER_NUMBER || //remove it if you want to get rid of ½
c != Character.OTHER_PUNCTUATION ||
c != Character.OTHER_SYMBOL ||
c != Character.START_PUNCTUATION ||
c != Character.TITLECASE_LETTER ||
c != Character.UPPERCASE_LETTER)
使用這些的組合,以刪除不需要的字符。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.