Kettle(PDI)转换中输入RSS 输入详解
概述
RSS input(RSS 输入)此步骤从RSS或Atom提要导入数据。支持RSS版本0.91、0.92、1.0、2.0以及Atom版本0.3和1.0。
选项
RSS input(RSS 输入)步骤有以下选项:
Step name(步骤名称):在画布上指定RSS input(RSS 输入)步骤的唯一名称。您可以自定义名称或将其保留为默认名称。
- 一般选项卡包含如下选项:
URL is defined in a field(URL定义在字段里):如果选择此项,则必须指定从哪个字段检索URL。
URL field(URL字段名):如果选中了前面的选项,则在这里指定URL字段。
URL list(URL列表):要从中提取文章数据的RSS/Atom url列表。
- 内容选项卡包含如下选项:
内容选项卡包含限制输入和更改输出的选项。
Read articles from(读取指定日期之后的文章):指定yyyy-MM-dd HH:mm:ss格式的日期。只有在此日期之后发表的文章将被读取。
Max number of articles(读取的最大文章数量):指定要检索的指定数量的文章,从最旧的开始。
Include URL in output?(在输出中包括URL):如果勾选此项,则指定要传递URL的字段名。
Include rownum in output?(在输出中包括文行数):允许您指定一个字段名称,以便在此步骤的输出中包含行号(整数)。
- 字段选项卡包含如下选项
Name(名称):字段的名称。
Column(列):引用该字段的RSS提要列。
Type(类型):字段的数据类型;字符串、日期或数字。
Format(格式):格式掩码(数字类型)。
Length(长度):长度选项取决于字段类型。数字:一个数字中有效数字的总数;字符串:字符串的总长度;Date:决定有多少日期字符串被打印或记录。
Precision(精度):精度选项取决于字段类型,但只支持数字;它返回浮点数。
Currency(货币符号):用来表示货币的符号。
Decimal(小数点符号):一个小数点;这要么是个点,要么是个逗号。
Group(分组符号):一种以四位数或更大的数字来分隔千的单位的方法。这要么是个点,要么是个逗号。
Trim type(去除空格类型):在处理前截断字段(左,右,两者)。对于没有静态长度的字段非常有用。
Repeat(重复):如果设置为Y,将在下一个字段为空时重复此值。
错误处理须知
对于包括此步骤的转换,将启动个错误处理,包括完整的异常消息、发生错误的字段编号,并将以下代码中的一个或多个以错误行发送到错误流:
UnknownError:一个意想不到的错误。检查“Error description”字段以获得更多细节。
XMLError:这通常意味着指定的文件不是XML。
FileNotFound:HTTP 404错误。
UnknownHost:表示该域名无法解析,可能由网络中断引起。
TransferError:任何非404 HTTP服务器错误代码(401、403、500、502等)都可能导致这种情况。
BadURL:表示URL无法被识别。它可能缺少协议或使用了未识别的协议。
BadRSSFormat:通常意味着该文件是有效的XML,但不是受支持的RSS或Atom doc类型。
注意:要查看已处理错误的完整堆栈跟踪,请打开详细日志。
示例
双击输入中的RSS 输入,添加一个RSS 输入。
然后双击添加的步骤进行编辑。
然后URL列表添加一个URL地址:http://rss.news.sohu.com/rss/pfocus.xml。
然后切换至字段选项卡,点击获取字段。
最后点击预览,预览表里的数据列表数据。
请先 后发表评论~