Q新闻丨Oracle确认Java9跳票

Oracle确认Java9将推迟发布

Java9叒跳票了!

在最近的交流中,Oracle公司JavaPlatformGroup的首席架构师MarkReinhold提出Java9的正式版本发布将延迟6个月,以此来给ProjectJigsaw的完成争取更多的时间。经过审议后,这次延迟被采纳,将Java9的正式版本发布定于年3月。

MarkReinhold之前谈到过功能和时间安排之间的冲突,这表明他更加倾向于一个相对固定的时间点安排,即使这样做是以延迟某些功能到之后的版本来发布为代价的。然而,当考虑中的功能是新版本的核心功能的时候,他也支持这种情况可以另外处理。在Java9这个例子中,核心功能是ProjectJigsaw,因此,既然ProjectJigsaw在初定的时间安排之下无法完成,而且考虑到最近几个月ProjectJigsaw合理的进展,社区采纳了这次延迟发布。

这次做的这个决定与Java8采取的类似的决定相一致。当ProjectLambda,这个当前Java8版本的核心功能很显然不能于初定的时间安排下完成的时候,延迟也被提出并被接受。相比较起来,ProjectJigsaw从Java8推迟到了Java9。类似地,我们可以推测如果要给ProjectValhalla的完成预留更多时间,那么Java0的发布也会延迟。

2雅虎开源语义数据Web爬虫:Anthelion

整个Web世界正在发生剧烈的转变,包含语义注解的Web页面让数据的提取和重用变得越来越容易,而为了提供更好的用户体验搜索引擎和社交媒体网站对这种数据的使用也越来越多。要获取这些数据离不开网络爬虫的支持,为此,Yahoo创建了Anthelion项目,一个旨在爬取语义数据的Nutch插件,最近,该项目已在GitHub上开源。

Anthelion是为了更好地爬取嵌在HTML页面中的结构化数据而设计的,它采用了一种全新的方法来爬取含有丰富数据的页面上的内容:将线上学习和Bandit探索方法有效地结合起来,根据页面上下文以及从之前页面提取到的元数据反馈预测Web页面的数据丰富程度。这种方法明显优于主题爬取(FocusedCrawling)目前所采用的其他技术,极大地提升了爬取效率。

整个数据爬取的流程如下:

正如上面的流程图所展示的,为了执行主题爬取,该插件实现了三个扩展:

AnthelionScoringFilter(实现了ScoringFilter接口):在线分类器,它对每一个外链打分,同时将新发现的外链分为相关的和不相关的两类。

WdcParser(实现了Parser接口):解析Web页面内容并提取语义数据。该扩展基于any23类库实现,能够从HTML中提取Microdata、Microformats和RDFa注解。

TripleExtractor(实现了IndexingFilter接口):将新域存储到索引中供之后的查询使用。

对于想亲身感受Anthelion的用户而言,直接从GitHub上下载整个项目包或许是一个不错的选择,因为它包含了完整的Nutch.6代码和相关插件,不需要任何修改和设置就能运行。如果只想下载插件,那么需要从文件的根目录下下载nutch-anth.zip并进行相关的设置。

在构建好项目之后,导航到\target文件夹,执行CCFakeCrawler类的main函数就能启动爬虫,例如:

java-Xmx5G-cpant.jar







































南昌治疗白癜风医院
白癜风有什么偏方治疗吗



转载请注明:http://www.guyukameng.com/html/html1/3269.html