所在的位置： Web开发 >> PHP >> 教计算机理解网页基于Web页面结构的信

教计算机理解网页基于Web页面结构的信

好久没更新，号主太懒了...

今天号主决定说说信息抽取，信息抽取是知识图谱构建中最为关键的一环了，它决定了数据质量的好坏，也影响了后续的知识融合、推理等步骤的准确性。常见的信息抽取的方法按照数据源来分可以分成三类：基于维基百科的方法，基于半结构化文本的方法，和基于自由文本的方法。

维基百科中提供了Infobox这种结构，包含了实体的属性和属性值的键值对，是非常好的知识来源，并且维基百科使用的markdown语法，十分便于解析（这甩了百度百科几条街）。因此，当你需要快速构建一个高可用的知识图谱时，无论是仅包含TaxonomicKnowledge的，还是包含FactKnowledge的，直接以百科数据为基础是最靠谱的。很多知名的知识库如DBpedia，Yago等也是在维基百科的基础上进行二次处理得到的。这里推荐一个知乎问题（

如何根治白癜风
 补骨脂的功效与作用

转载请注明：http://www.guyukameng.com/php/php/7879.html

上一篇文章：最具创翼天翼生活品牌形象设计大赛作品赏析

下一篇文章：工作一年了，PHP程序员，你有没有这些困