期刊文章详细信息
文献类型:期刊文章
机构地区:[1]武汉大学计算机学院,武汉430072 [2]新汶矿业集团职工大学,山东莱芜271100
基 金:湖北省自然科学基金资助项目(2005ABA238);国家自然科学基金资助项目(60273072)。
年 份:2007
卷 号:43
期 号:2
起止页码:190-192
语 种:中文
收录情况:AJ、BDHX、BDHX2004、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊
摘 要:互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文利用HTML表格属性,在表格中插入冗余单元,使HTML表格规范化;对没有标志表头的HTML表格,采用格式化的信息的量化值识别网上表格的表头。在此基础上,提出了通过获取表格属性与值对应的语义层次,自动转换HTML表格数据为XML文挡的新方法。
关 键 词:HTML表格 信息提取 WEB XML
分 类 号:TP311.135]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...