簡體   English   中英

Tweepy:現在可以通過Twitter搜索API獲得舊的推文了嗎?

[英]Tweepy: get old tweets now possible with Twitter search api?

根據http://www.theverge.com/2014/11/18/7242477/twitter-search-now-lets-you-find-any-tweet-ever-sent的 Twitter搜索,現在可以查找曾經發送過的任何推文。

但是,當我嘗試使用tweepy獲取2014年至2015年的推文時,它僅是最近的:

    query = 'Nivea'
    max_tweets = 1000
    searched_tweets = [json.loads(status.json) for status in tweepy.Cursor(api.search,
                                                                           q=query,
                                                                           count=100,
                                                                           #since_id="24012619984051000",
                                                                           since="2014-02-01",
                                                                           until="2015-02-01",
                                                                           result_type="mixed",
                                                                           lang="en"
                                                                           ).items(max_tweets)]

我嘗試了since =“ 2014-02-01”和since_id,但沒關系。

不幸的是,您無法從Twitter訪問過去的數據。 所使用的庫不是問題:Tweepy,Twitter4J,無論如何,僅僅是Twitter不會提供早於或少於2周的任何數據。

要獲取歷史數據,您需要直接通過Twitter或GNIP之類的第三方經銷商訪問firehose。

我使用自己的一段代碼,該代碼使用HttpURLConnection和Twitter搜索URL。 然后,我使用正則表達式提取出最后20條匹配的推文...幸運的是,當我刪除這些推文時,我可以簡單地再次搜索,直到找不到任何推文為止。 我包含了代碼,盡管它是用Java編寫的,但同樣適用於任何語言。 首先,我使用一個類來實際搜索推文並記錄其詳細信息:

public class ReadSearch{
    private String startURL = "https://twitter.com/search?f=realtime&q=from%3A";
    private String middleURL = "%20%40";
    private String endURL = "&src=typd";

    public ArrayList<Tweet> getTweets(String user, String troll) {
        ArrayList<Tweet> tweets = new ArrayList<Tweet>();
        String expr = "small.class=\"time\".*?href=\"/"
                + "([^/]+)"
                + ".*?status/"
                + "([^\"]+)"
                + ".*?title=\""
                + "([^\"]+)";
        Pattern patt = Pattern.compile(expr, Pattern.DOTALL | Pattern.UNIX_LINES);
        try {
            Matcher m = patt.matcher(getData(startURL+user+middleURL+troll+endURL));
            while (m.find()) {
                if(user.equals(m.group(1).trim())){
                    Tweet tw = new Tweet();
                    tw.setUser(m.group(1).trim());
                    tw.setTweetid(Long.parseLong(m.group(2).trim()));
                    tw.setDate(m.group(3).trim());
                    tweets.add(tw);
                }
            }
        } catch (Exception e) {
            e.printStackTrace();
            System.out.println("Exception " + e);
        }
        return tweets;
    }

    private StringBuilder getData(String dataurl) throws MalformedURLException, IOException{
        URL url = new URL(dataurl);
        HttpURLConnection httpcon = (HttpURLConnection) url.openConnection();
        httpcon.addRequestProperty("User-Agent", "Mozilla/4.76");
        StringBuilder sb = new StringBuilder(16384);
        BufferedReader br = new BufferedReader(new InputStreamReader(httpcon.getInputStream(), "ISO-8859-1"));
        String line;
        while ((line = br.readLine()) != null){
            sb.append(line);
            sb.append('\n');
        }
        httpcon.disconnect();
        br.close();
        return sb;
    }

    public static void main(String [] args){
        //testing
        ReadSearch rs = new ReadSearch();
        ArrayList<Tweet> tweets = rs.getTweets("Tony_Kennah", "PickLuckier");
        for(Tweet t : tweets){
            System.out.println("TWEET: " + t.toString());
        }
    }
}

然后,我們需要Tweet類本身,以便我們可以將Tweets分組並與它們一起執行操作,它只是一個像這樣的bean:

public class Tweet{ 
    private String user;
    private long tweetid;
    private String date;

    public String getUser(){
        return user;
    }
    public void setUser(String user){
        this.user = user;
    }
    public long getTweetid(){
        return tweetid;
    }
    public void setTweetid(long tweetid){
        this.tweetid = tweetid;
    }
    public String getDate(){
        return date;
    }
    public void setDate(String date){
        this.date = date;
    }
    public String toString(){
        return this.tweetid + " " + this.user + " " + this.date;
    }
}

...而這僅僅是標准的Java。 要使用上面的代碼,我使用Twitter4J API並執行以下操作:

public class DeleteTweets
{
    public static void main(String args[]) throws Exception
    {
        Twitter twitter = TwitterFactory.getSingleton();
        ArrayList<Tweet> tweets = new ArrayList<Tweet>();
        String [] people = { "PickLuckier" };
        for(String s : people){
            do{
                ReadSearch rs = new ReadSearch();
                tweets = rs.getTweets(twitter.getScreenName(), s);
                for(Tweet tw : tweets){
                    twitter.destroyStatus(tw.getTweetid());
                }
            } while(tweets.size()!=0);
        }
    }
}

而已。 我不使用評論,但我希望很容易看到正在發生的事情,這對您有所幫助。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM