教计算机理解网页基于Web页面结构的信

好久没更新,号主太懒了...

今天号主决定说说信息抽取,信息抽取是知识图谱构建中最为关键的一环了,它决定了数据质量的好坏,也影响了后续的知识融合、推理等步骤的准确性。常见的信息抽取的方法按照数据源来分可以分成三类:基于维基百科的方法,基于半结构化文本的方法,和基于自由文本的方法。

维基百科中提供了Infobox这种结构,包含了实体的属性和属性值的键值对,是非常好的知识来源,并且维基百科使用的markdown语法,十分便于解析(这甩了百度百科几条街)。因此,当你需要快速构建一个高可用的知识图谱时,无论是仅包含TaxonomicKnowledge的,还是包含FactKnowledge的,直接以百科数据为基础是最靠谱的。很多知名的知识库如DBpedia,Yago等也是在维基百科的基础上进行二次处理得到的。这里推荐一个知乎问题(







































如何根治白癜风
补骨脂的功效与作用



转载请注明:http://www.guyukameng.com/php/php/7879.html