<?xml version="1.0" encoding="UTF-8"?><xml><records><record><source-app name="Biblio" version="7.x">Drupal-Biblio</source-app><ref-type>13</ref-type><contributors><authors><author><style face="normal" font="default" size="100%">刘伟</style></author><author><style face="normal" font="default" size="100%">严华梁</style></author><author><style face="normal" font="default" size="100%">肖建国</style></author><author><style face="normal" font="default" size="100%">曾建勋</style></author></authors></contributors><titles><title><style face="normal" font="default" size="100%">一种Web评论自动抽取方法</style></title><secondary-title><style face="normal" font="default" size="100%">软件学报</style></secondary-title></titles><keywords><keyword><style  face="normal" font="default" size="100%">Web用户评论;结构化数据记录;Web数据抽取</style></keyword></keywords><dates><year><style  face="normal" font="default" size="100%">2010</style></year></dates><volume><style face="normal" font="default" size="100%">NULL</style></volume><pages><style face="normal" font="default" size="100%">3220-3236</style></pages><isbn><style face="normal" font="default" size="100%">1000-9825</style></isbn><language><style face="normal" font="default" size="100%">eng</style></language><abstract><style face="normal" font="default" size="100%">Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致性严重影响了评论记录在DOM树和视觉上的相似性;其次,评论内容在DOM树中是一棵复杂的子树,而且彼此之间在DOM树中的结构相差巨大.为了解决这两个问题,提出了一种完整的解决方案,使用多种技术来实现对用户评论内容的抽取.抽取过程分为两个步骤,基于深度加权的树相似性算法评论记录首先从网页中抽取出来,然后通过比较DOM树中节点的一致性,将纯粹的用户评论内容从评论记录中抽取出来.在多个新闻网站和论坛网站上的实验结果表明,该方法可以达到较高的准确度和效率.</style></abstract><issue><style face="normal" font="default" size="100%">12</style></issue></record></records></xml>