蜜蜂采集器的使用教程 - 实现博客搬家
博客,即网络日志,是一种通过互联网发布个人或团体的观点、经验、知识等内容的方式。当前,除了传统的文字和图片形式的博客外,还出现了一些新颖和有趣的博客形式,如视频博客(Vlog)、音频博客(Podcast)、动画博客(Animation Blog)等。
博客搬家,就是将博客从一个平台或者域名迁移到另一个平台或者域名的过程。博客搬家的原因有很多,比如平台的性能、稳定性、功能、设计、商业化等方面的不满意,或者个人的喜好、需求、目标等方面的变化。
十多年前,博客市场格局基本定型,一些公司陆续退出博客领域。其中,微软的空间服务关闭,各博客运营商为争夺其用户,陆续推出了“一键搬家”功能,市场上也出现了不少“博客搬家”工具。
近年来,博客逐渐没落,更多的人倾向于自己搭建博客站点,这使得博客搬家变得更加必要和重要。
由于不便以其他博客平台作为演示站点,所以,这里以自己搭建的两个博客站点互相迁移为例。现在,我们开始从ZBlog站点迁移到WordPress站点,演示如何使用蜜蜂采集器实现博客搬家,并介绍网址采集时如何使用翻页采集功能。
先搭建一个ZBlog站点,并填充一部分测试数据,此处略去搭建过程。ZBlog站点为采集源站点。再搭建一个WordPress站点,此处略去搭建过程。WordPress站点为迁移的目标站点。为方便测试,这里不考虑栏目分类问题。实际采集时,应该考虑将源站和目标站的栏目分类一一对应。
采集规则
新建采集规则。“列表页”添加普通网址,网址为ZBlog站点首页。这里不考虑栏目分类问题。
网址采集。网址标签,区域起始为<div id="divMain">,区域结束为<div class="pagebar">,解析方式为自动解析。翻页采集设置中,GET方法获取翻页,翻页控件的区域起始为<div class="pagebar">,翻页控件的区域结束为/div>,翻页网址的解析方式为自动解析。设置完成后,测试网址采集。
网址采集测试
展开全文
内容采集。在标签列表中,点击“导入”,选择WordPress发布模块,然后导入标签列表,这些标签就是发布模块需要用到的标签。将标签别名、附件的生成方式设置为格式化生成 - 固定字符串,且内容为空。
标题:提取方法为字符串截取。起始字符串为<h2 class="post-title">,结束字符串为<span class="post-date">;发布时间:提取方法为字符串截取。起始字符串为<span class="post-date">,结束字符串为</span>;内容:提取方法为字符串截取。起始字符串为div class="post-body">,结束字符串为</div>;标签:提取方法为字符串截取。起始字符串为<p class="post-tags">,结束字符串为</p>。添加标签数据二次处理项“HTML标签过滤”,剔除转义空格、首尾空白字符、回车换行以及其他所有HTML标签。加标签数据二次处理项“字符串替换”,将字符串“标签:”替换为空。
内容采集测试
内容发布
如果还没有WordPress站点发布模块,可以先去应用市场下载导入。打开主菜单“帮助”——“应用市场”。类型选择“站点发布模块”。找到应用“WordPress通用站点发布模块”,点击“下载”。
添加WordPress站点的用户Cookie到Cookie管理器中。然后在“发布到站点”管理器中,添加一个发布配置。
发布到站点
内容发布。添加一个发布通道,并选择刚刚的发布配置。测试内容发布。
内容发布测试
任务运行。运行采集任务,效果如下图。
任务运行
至此,就实现了博客搬家。但实际情况下,我们可能还得使得栏目分类一一对应,如果栏目较多,可以使用自动分类功能;我们也可能需要迁移图片等,这就得使用文件下载和文件上传功能。