繁体   English   中英

在Windows上将Apache Nutch与MySQL集成

[英]Integrating Apache Nutch with MySQL on Windows

我正在尝试将Apache Nutch 2.1与Windows 8平台上的Mysql服务器集成。 我正在关注教程http://nlp.solutions.asia/?p=180 我对apache-nutch-2.1进行了以下更改。

  1. 我下载了apache-nutch-2.1-src.zip并解压缩。
  2. 常春藤/ivy.xml中未评论的内容

      <dependency org="mysql" name="mysql-connector-java" rev="5.1.18" conf="*->default"/> 
  3. 注释了sql的sql属性,并为mysql conf / gora.properties添加了gora属性。

     gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch? createDatabaseIfNotExist=true gora.sqlstore.jdbc.user=root gora.sqlstore.jdbc.password=root 
  4. 向conf / nutch-site.xml添加属性
  5. 从命令提示符处执行ant runtime命令。 它创建了/ runtime目录。
  6. 在/ runtime / local / urls目录中添加了带有www.apache.nutch.org值的seeds.txt文件。
  7. 在/ runtime / local / conf目录中的domain-urlfilter.txt和regex-urlfilter.txt文件中添加了+ ^ http://([a-z0-9] *。)* nutch.org /。

当我运行用于通过cygwin终端开始爬网的命令时。发生以下异常,

   Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Abhijeet\mapred\staging\Abhijeet530509219\.staging to 0700
    at org.apache.hadoop.fs.FileUtil.checkReturnValue(FileUtil.java:689)
    at org.apache.hadoop.fs.FileUtil.setPermission(FileUtil.java:662)
    at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:509)
    at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:344)
    at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:189)
    at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:116)
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:856)
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:396)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850)
    at org.apache.hadoop.mapreduce.Job.submit(Job.java:500)
    at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:530)
    at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:50)
    at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:219)
    at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68)
    at org.apache.nutch.crawl.Crawler.run(Crawler.java:136)
    at org.apache.nutch.crawl.Crawler.run(Crawler.java:250)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.crawl.Crawler.main(Crawler.java:257)

我已经在互联网上搜索到Hadoop无法与Windows一起使用,这很好,因为我没有使用Hadoop来存储数据。 我正在使用Mysql。

有人可以建议我做错了什么吗?

我在Windows和Linux上都使用了Nutch2。 只需在Windows上运行它,您需要安装以下Haddop 1.0.3补丁: https : //github.com/congainc/patch-hadoop_7682-1.0.x-win

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM