用Java解析文本文件（大数据集）

Question

我有一个文本文件，每一行看起来都像这样：（电影评论数据库）

product/productId: B00004CK40   review/userId: A39IIHQF18YGZA   review/profileName: C. A. M. Salas  review/helpfulness: 0/0 review/score: 4.0   review/time: 1175817600 review/summary: Reliable comedy review/text: Nice script, well acted comedy, and a young Nicolette Sheridan. Cusak is in top form.

我想解析此文件以便检索：

产品/产品编号
评论/用户名
评论/个人资料名称
评论/帮助
评论/评分
评论/时间
评测总结
评论/文字

稍后将使用MovieReview和Movie类封装此信息。

public class MovieReview {

    private Movie movie;
    private String userId;
    private String profileName;
    private String helpfulness;
    private Date timestamp;
    private String summary;
    private String review;
...

谁能提供正确有效的方法来解析此文件（大型数据集）？

谢谢。

Answer 1

如果数据集很大，则要避免将整个列表立即加载到内存中。 我可能会为每行使用一个处理程序来解决这个问题

public interface MovieReviewHandler {
    void handle(MovieReview revies);
}

然后您可以解析如下：

public class MovieReviewParser {
    public void parse(BufferedReader reader, MovieReviewHandler handler) {
        Pattern regex = Pattern.compile("product/productId:(.*)review/userId:(.*)review/profileName:(.*)"); // add other fields

        String line;
        while ((line = reader.readLine()) != null) {
            Matcher matcher = regex.matcher(line);
            if (!matcher.matches()) throw new RuntimeException();
            MovieReview review = new MovieReview();
            review.productId = matcher.group(1);
            review.userId = matcher.group(2);
            review.profileName = matcher.group(3);
            // etc

            handler.handle(review);
        }
    }
}

用Java解析文本文件（大数据集）

问题描述

1 个解决方案

解决方案1
3 已采纳 2016-03-10 13:18:04

用Java解析文本文件（大数据集）

问题描述

1 个解决方案

解决方案1 3 已采纳 2016-03-10 13:18:04

解决方案1
3 已采纳 2016-03-10 13:18:04