跳到主要内容

🆕 KNIME 4.2 更新

· 阅读需 3 分钟

4.2 版本的亮点

有的朋友最近两天打开 KNIME 时,也许发现了如下的更新提示:

4.2 升级提示 4.2 升级提示

KNIME 在 7月 13日发布了 KNIME Analytics Platform 4.2 和 KNIME Server 4.11.0 版本,里面有一些更新蛮有意思,随便聊两句。(另,因为 4.2 更新了 Java 和 Eclipse,所以这个版本需要下载重新安装)

因为 KNIME Analytics Platform 是一款开源产品,从近些年的更新来看,KNIME 是想大力发展社区文化,除了历史悠久的 forum 外,最近版本的更新在 KNIME Hub 上做了很多的支持。在最新的 KNIME Hub 中,用户可以建立多个空间,这其实和 KNIME Analytics Platform 的 workspace 是同样的思路,对应于不同的项目,单独的 workspace 和 Hub space 是更有助于项目整洁的。另外,在 Hub 的个人介绍中,内容也更加清晰,除了上传的空间以外,如果你开发了扩展,那么也会在这里显示出来。

一些新的、或增强的功能节点:

  • Salesforce 的 SOQL 支持
  • SharePoint 的文件支持
  • AWS 的 DynamoDB 支持
  • SAP 的支持
  • 新的文件处理框架,这个在 Labs 扩展中,还未达到稳定状态
  • 深度学习框架 TensorFlow 2 的支持
  • Python 节点的加速,这主要得益于 KNIME 自己维护的 Python 进程池策略;anaconda 或 miniconda 不需要进行配置了
  • 更快、功能相对简单的 Simple File Reader
  • Joiner 节点(还在 Labs 中),速度更快,而且可以分别输出匹配和不匹配的行
  • Table Difference Finder,这个应该只是 "从数据科学的可复现性到 KNIME 中如何进行测试" 中介绍的 Testing Framework 的一个相似的子节点
  • 动态端口,这个版本 4 有些节点就有了,这一版是对 Column Appender 和 Merge Variables 进行了支持
  • Tableau 和 PowerBI 支持加强
  • R 支持更灵活了,能进行节点级别的环境配置
  • 第三方 Redfield 开发了 Neo4J 扩展

KNIME Server 更新里面包括 Executor 的增强,这样在 AWS(BYOL & PAYG) 上缩放变的更加容易和灵活,KNIME Server 还在尝试混合部署,本地部署一套,然后在需要时直接在云上扩展。这都是正确的方向。

除此之外,KNIME Server 里面最炸的就是综合部署(Integrated Deployment)了,有点可惜这部分功能只在 KNIME Server 中使用。(当然,这也是应该的,不然 KNIME 员工怎么生存)。这个功能在 KNIME Spring Summit 2020 里讲过,而且是第一个讲座。讲座的名字叫 The Future of Data Science: Integrated Deployment by Michael Berthold,有兴趣可以找来一看。虽然不一定能用得到 KNIME Server,但这里面的思路还是可以借鉴的,未来肯定会有对应 Analytics Platform 的乞丐版解决方案(甚至自己实现一个也不会太难)。

Integrated Deployment Integrated Deployment

总之,值得升级。