Kettle(PDI)转换中输入RSS 输入详解

概述

RSS input(RSS 输入)此步骤从RSS或Atom提要导入数据。支持RSS版本0.91、0.92、1.0、2.0以及Atom版本0.3和1.0。

选项

RSS 输入

RSS input(RSS 输入)步骤有以下选项:

Step name(步骤名称):在画布上指定RSS input(RSS 输入)步骤的唯一名称。您可以自定义名称或将其保留为默认名称。

  • 一般选项卡包含如下选项:

URL is defined in a field(URL定义在字段里):如果选择此项,则必须指定从哪个字段检索URL。

URL field(URL字段名):如果选中了前面的选项,则在这里指定URL字段。

URL list(URL列表):要从中提取文章数据的RSS/Atom url列表。

  • 内容选项卡包含如下选项:

内容选项卡包含限制输入和更改输出的选项。

Read articles from(读取指定日期之后的文章):指定yyyy-MM-dd HH:mm:ss格式的日期。只有在此日期之后发表的文章将被读取。

Max number of articles(读取的最大文章数量):指定要检索的指定数量的文章,从最旧的开始。

Include URL in output?(在输出中包括URL):如果勾选此项,则指定要传递URL的字段名。

Include rownum in output?(在输出中包括文行数):允许您指定一个字段名称,以便在此步骤的输出中包含行号(整数)。

  • 字段选项卡包含如下选项

Name(名称):字段的名称。

Column(列):引用该字段的RSS提要列。

Type(类型):字段的数据类型;字符串、日期或数字。

Format(格式):格式掩码(数字类型)。

Length(长度):长度选项取决于字段类型。数字:一个数字中有效数字的总数;字符串:字符串的总长度;Date:决定有多少日期字符串被打印或记录。

Precision(精度):精度选项取决于字段类型,但只支持数字;它返回浮点数。

Currency(货币符号):用来表示货币的符号。

Decimal(小数点符号):一个小数点;这要么是个点,要么是个逗号。

Group(分组符号):一种以四位数或更大的数字来分隔千的单位的方法。这要么是个点,要么是个逗号。

Trim type(去除空格类型):在处理前截断字段(左,右,两者)。对于没有静态长度的字段非常有用。

Repeat(重复):如果设置为Y,将在下一个字段为空时重复此值。

错误处理须知

对于包括此步骤的转换,将启动个错误处理,包括完整的异常消息、发生错误的字段编号,并将以下代码中的一个或多个以错误行发送到错误流:

UnknownError:一个意想不到的错误。检查“Error description”字段以获得更多细节。

XMLError:这通常意味着指定的文件不是XML。

FileNotFound:HTTP 404错误。

UnknownHost:表示该域名无法解析,可能由网络中断引起。

TransferError:任何非404 HTTP服务器错误代码(401、403、500、502等)都可能导致这种情况。

BadURL:表示URL无法被识别。它可能缺少协议或使用了未识别的协议。

BadRSSFormat:通常意味着该文件是有效的XML,但不是受支持的RSS或Atom doc类型。

注意:要查看已处理错误的完整堆栈跟踪,请打开详细日志。

示例

双击输入中的RSS 输入,添加一个RSS 输入。

RSS 输入

然后双击添加的步骤进行编辑。

然后URL列表添加一个URL地址:http://rss.news.sohu.com/rss/pfocus.xml。

添加URL地址

然后切换至字段选项卡,点击获取字段。


获取字段

最后点击预览,预览表里的数据列表数据。

预览数据

举报
评论 0