一种统一的Web新闻对象自动抽取方法

Citation:

刘伟, 严华梁. 一种统一的Web新闻对象自动抽取方法. 计算机工程. 2012;NULL(11):167-169.

摘要:

提出一种统一的Web新闻对象自动抽取方法.通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取.实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板.
收录:PKU