English 中文(简体)
谷歌中的重复内容。Drupal的SEO
原标题:Duplicated content in Google. SEO for Drupal

我有一个Drupal网站正在运行。该网站没有针对SEO进行适当的优化,并且由于/categy、/taxification等原因,在谷歌中生成了大量重复的内容

结构为:

/var/www/appname/ This contains a custom built application /var/www/appname/drup This contains my drupal installation

我在谷歌搜索网站appname.com上查看了该网站的结果,发现由于/content、/taxology、/node等原因,有很多重复的内容。

/var/www/appname中的ROBOTS.txt..中已经有以下内容,但我很惊讶这些页面仍在索引中。请告知。

User-agent: *
Crawl-delay: 10

Allow: /
Allow: /drup/

# Directories
Disallow: /drup/includes/
Disallow: /drup/misc/
Disallow: /drup/modules/
Disallow: /drup/profiles/
Disallow: /drup/scripts/
Disallow: /drup/themes/
# Files
Disallow: /drup/CHANGELOG.txt
Disallow: /drup/cron.php
Disallow: /drup/INSTALL.mysql.txt
Disallow: /drup/INSTALL.pgsql.txt
Disallow: /drup/install.php
Disallow: /drup/INSTALL.txt
Disallow: /drup/LICENSE.txt
Disallow: /drup/MAINTAINERS.txt
Disallow: /drup/update.php
Disallow: /drup/UPGRADE.txt
Disallow: /drup/xmlrpc.php
# Paths (clean URLs)
Disallow: /drup/admin/
Disallow: /drup/comment/reply/
Disallow: /drup/contact/
Disallow: /drup/logout/
Disallow: /drup/node/add/
Disallow: /drup/search/
Disallow: /drup/user/register/
Disallow: /drup/user/password/
Disallow: /drup/user/login/
# Paths (no clean URLs)
Disallow: /drup/?q=admin/
Disallow: /drup/?q=comment/reply/
Disallow: /drup/?q=contact/
Disallow: /drup/?q=logout/
Disallow: /drup/?q=node/add/
Disallow: /drup/?q=search/
Disallow: /drup/?q=user/password/
Disallow: /drup/?q=user/register/
Disallow: /drup/?q=user/log 
最佳回答

你只需要一个XML网站地图,告诉谷歌所有的网页在哪里,而不是让谷歌自己爬。

事实上,当Stackoverflow处于测试阶段时,他们试图让爬虫发挥它的魔力。然而,在高度动态的网站上,几乎不可能以这种方式获得足够的结果。

因此,使用XML站点地图,您可以告诉谷歌每个页面在哪里,它的优先级是什么,以及它的更改频率。

问题回答

There are several modules that take care of SEO and duplicated content. I would first advice to install and go over http://drupal.org/project/seo_checklist For duplicated content you may check http://drupal.org/project/globalredirect

不管怎样,/taxiology和/content只是列表,您可能希望用某种自定义内容覆盖它们的路径,并让爬网程序知道它们在看什么,而不是禁止它们。

您可以禁止显示重复内容的目录。正如您所解释的那样,/content、/taxology和/节点显示了重复的内容。

在robots.txt文件的Directories部分添加以下代码,以限制搜索引擎对这些目录的访问。

Disallow: /drup/content/ Disallow: /drup/taxonomy/ Disallow: /drup/node/

您是否有能力使用谷歌网站管理员工具验证网站的所有权:

http://www.google.com/webmasters/tools

如果是这样的话,我建议你这样做,然后在该网站的“诊断”类别下尝试“作为Googlebot获取”。如果robots.txt按预期工作,您的“获取状态”将显示“被robots.txt拒绝”。

索引页面可以挂起一段时间,并在您更改robots.txt后显示在谷歌搜索结果中。但“获取为Googlebot”可以实时指示当Googlebot进入时发生了什么。。。

如果你不想索引的URL被检索出来没有问题,那么你需要关注robots.txt的问题…它在哪里,语法,列出的路径等等。我总是建议人们在浏览器(在他们网站的根目录)中手动检索它,以防出现明显的错误。





相关问题
(sharp) # sign in query string and SEO

I have a site Index.html and there is a categories menu generated from database. Menu consists of HTML anchors, but href attribute is always something like "Index.html#cat=xyz" because content of each ...

ListBox Value containing links

hi I am currently working on improving the SEO on a website containing dropdown list menu. currently when you select options and then submit a javascript is redirecting you to the next page I heard ...

Website Sitemaps and <priority>, is it working?

My "Privacy Policy" page is seen more important by Google than other really more important pages on my website. I m currently creating a script to generate a sitemap, should I bother with the ...

Will an incomplete google sitemap hurt my search ranking?

If I submit a sitemap.xml which does not contain all of the pages of my site, will this affect my search ranking? For example: If my sitemap only contained pages that had been created in the last ...

Anchored AJAX and SEO workaround?

You all know how to build AJAX sites with those 300ms trigger for checking anchors (hash links) in URL and then loading proper page with AJAX. But, these anchor links are nothing to search engines =( ...

热门标签