简短的问题:
有没有任何C#代码来解析robots.txt,然后对URL进行评估,以查看它们是否会被排除。
长问题:
我已经为一个尚未发布到Google的新网站创建了一个网站地图。该网站地图有两种模式,一种是用户模式(类似于传统的网站地图),另一种是管理员模式。
管理员模式将显示站点上所有可能的 URL,包括自定义条目 URL 或针对特定外部合作伙伴的 URL - 比如任何在 Oprah 上看到我们网站的人都可以看到 example.com/oprah
。我想在某个地方跟踪发布的链接,而不是在 Excel 电子表格中。
我必须假设有人可能会在他们的博客或其他地方发布/oprah
链接。我们实际上不希望将这个迷你奥普拉网站编入索引,因为这将导致非奥普拉观众能够找到特别的奥普拉优惠。
所以在制作站点地图的同时,我也将类似于/oprah
的URL添加到我们的robots.txt
文件中被排除列表中。
然后(这是实际的问题)我想,能否在网站地图上显示文件是否已经被索引和对机器人可见,这将非常简单 - 只需解析robots.txt文件,然后对链接进行评估。
然而,这是一个额外的功能,我当然没有时间去写它(即使它可能并不那么复杂),所以我想知道是否有人已经编写了任何解析robots.txt的代码?