[英]Create a cell array in matlab
我有一個推文文件,我已經使用dataread
讀入matlab,我已將每行存儲到30x1單元格中。 我想知道是否有一個拿出每個#標簽並將它們存儲在自己的單元格中然后找到標簽的平均長度? 任何幫助將不勝感激。
我認為,你有正確的想法,你的正則regexp
調用。 我將澄清一些事情。 如果你想要推文中每個主題標簽中的文字,你會想要使用正則表達式搜索英鎊符號(#)並包括之后的每個字符,直到你到達單詞的結尾,例如
text = '#this #is a #test';
regexpi(lines,'\<#[a-z0-9_]*\>','match');
ans =
'#this' '#is' '#test'
其中regexpi
是一個不區分大小寫的正則表達式,正則表達式搜索“#”后跟任意數量的字母,數字或下划線(我相信,它們是有效的#標簽字符)。 'match'標志使regexp
函數返回實際匹配。
如果您不想在最終文本中使用實際的主題標簽,則可以使用正則表達式后台僅返回文本。 例如:
regexpi(lines,'\<(?<=#)[a-z0-9_]*\>','match')
ans =
'this' 'is' 'test'
我認為,從技術上講,標簽必須以字母開頭,因此這個正則表達式會返回可能無效的主題標簽。 盡管如此,要解決這個問題並不困難。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.