关于【nutch】的问题- 第1页

Ian

Asked: 2010-02-22 12:53:52 +0800 CST

我可以在一个 2 gig 服务器上运行像 Lucene 这样的站点搜索，该服务器也是一个 Web 和 mysql 服务器

我网站的页面超出了 Google 自定义搜索的页面限制，因此在我们的网站搜索中找不到很多结果。

我一直在阅读有关 Lucene、Nutch、Solr 等的信息，我想知道我是否有在单个服务器上运行它们的要求，该服务器还运行站点（在 nginx 上）和我们的 mysql 服务器。我们有 2 gigs 的 RAM。

对于迁移到新站点搜索的任何建议，我将不胜感激。

Prakash Panjwani

Asked: 2009-12-29 06:18:06 +0800 CST

我如何在 linux 内核上运行 nutch？

我想在linux内核上运行nutch，我已经以root用户身份登录，我已经设置了所有的环境变量和nutch文件设置。我创建了一个 url.txt 文件，其中包含要抓取的 url，当我尝试使用以下命令运行 nutch 时，

bin/nutch crawl urls -dir pra

它产生以下异常。

crawl started in: pra
rootUrlDir = urls
threads = 10
depth = 5
Injector: starting
Injector: crawlDb: pra/crawldb
Injector: urlDir: urls
Injector: Converting injected urls to crawl db entries.
Exception in thread "main" java.io.IOException: Failed to get the current user's information.
        at org.apache.hadoop.mapred.JobClient.getUGI(JobClient.java:717)
        at org.apache.hadoop.mapred.JobClient.configureCommandLineOptions(JobClient.java:592)
        at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:788)
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1142)
        at org.apache.nutch.crawl.Injector.inject(Injector.java:160)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:113)
Caused by: javax.security.auth.login.LoginException: Login failed: Cannot run program "whoami": java.io.IOException: error=12, Cannot allocate memory
        at org.apache.hadoop.security.UnixUserGroupInformation.login(UnixUserGroupInformation.java:250)
        at org.apache.hadoop.security.UnixUserGroupInformation.login(UnixUserGroupInformation.java:275)
        at org.apache.hadoop.mapred.JobClient.getUGI(JobClient.java:715)
        ... 5 more

服务器有足够的空间来运行任何 java 应用程序。我已经附上了静态数据..

            total       used       free  
Mem:        524320     194632     329688 
-/+ buffers/cache:     194632     329688
Swap:      2475680          0    2475680
Total:     3000000     194632    2805368

nutch的内存空间够吗？请有人帮助我，我是 linux 内核和 nutch 的新手。提前致谢。

我可以在一个 2 gig 服务器上运行像 Lucene 这样的站点搜索，该服务器也是一个 Web 和 mysql 服务器

我如何在 linux 内核上运行 nutch？

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

问题[nutch](server)

我可以在一个 2 gig 服务器上运行像 Lucene 这样的站点搜索，该服务器也是一个 Web 和 mysql 服务器

我如何在 linux 内核上运行 nutch？

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？