语义搜索背后的ETL和智能构建


最近一次关于一个需要ETL(提取/转换/加载)经验的职位的询问促使我调查了这个领域的就业市场。令人惊讶的是,有许多技术职位在寻求这方面的专业知识,外加SQL数据库和XML的经验,主要是在医疗保健、金融或数据仓库方面。我还注意到元数据和分类学开发的合同职位有所增加。

我对……的研究Semantic Software Technologies这让我走上了一条记者和博客作者寻求我对沃森-危险故事的想法的道路。关于这个故事已经写了很多,但我想尝试一下它的意义。在ETL领域和用沃森的聪明才智建立知识库之间是有联系的。创新的灵感可以从沃森的技术中获得,但有一个警告:它涉及到严重的脑力和计算汗水的支出。

除了使用自然语言处理(NLP)进行搜索来回答人类问题的内置智能之外,像沃森这样的答案平台还需要大量的数据。此外,必须在概念上和上下文相关的数据库中组合数据,才能得到好的答案。当文档和其他形式的电子内容被馈送到知识库进行语义检索时,精心制作的元数据(描述内容的数据)和出色的词汇表控制增加了巨大的价值。这两个内容增强器,元数据和受控词汇表,可以将优秀的搜索转化为优秀的搜索。

当前的企业搜索具有讽刺意味的是,信息如此丰富,以至于它压倒了可查找性,而不是帮助查找。内容和知识经理不可能贡献所需的人力资源来为所看到的一切生成高质量的元数据。但是,有许多技术和技术可以通过明确地利用堆积如山的信息来补充他们的工作。

优秀的内容和知识经理知道在哪里可以找到高质量的内容,但可能不知道,对于所有常见的内容格式,都有工具可以提取嵌入(但隐藏)的关键元数据。其中一些工具还可以对内容进行文本挖掘和分析,以获得额外的智能描述性数据。当内容集合非常大但太小而无法证明(在一百万个文档下)最复杂的语义搜索引擎是合理的时,ETL工具可以通过自动化大量挖掘、提取良好分类所需的实体和概念来减轻元数据管理器的压力。

ETL工具阵列较大且种类繁多。微软的平台工具(SSIS)和IBM(DataStage)可用于提取、转换和加载现有元数据。其他独立产品,如来自PervasiveSEAL可以跨各种平台或功能区域贡献价值,这些平台或功能区域的内容可以大大增强,以实现更好的标记和索引。对ETL专家的需求通常用负责选择、安装和实施这些产品的工程职能来表示。不过,我必须强调的是,主题和内容专家需要与工程师一起工作。后者的作用是帮助调整和验证提取和转换结果,确保术语与功能相符。

实体提取是支持业务分析的文本挖掘的主要成果之一,但是工具可以做更多的事情来为语义应用程序发挥智能作用。作为文本数据仓库的过滤器和统计分析器的工具将有助于揭示用于构建用于自动分类的专用受控词汇表的术语。目前在我的雷达上帮助企业理解和利用其内容环境的几个供应商包括EntropySoft Content ETL,Information Extraction Systems,Intelligenx,ISYS Document Filters,RAMP,和XBS,这里有给每个人的东西。

新兴应用的多样性是一个领先的指标,表明ETL的各个方面都会有很多创新。虽然RAMP在视频方面取得了进展,但另一家与当地有联系的公司是Inforbix。去年,我与联合创始人奥列格·希洛维茨基(Oleg Shilovitsky)在他们推出之前就我的语义技术研究进行了交谈。正如他随后断言的那样,保存、挖掘和利用与设计和制造操作相关的数据至关重要。这一领域具有巨大的增长潜力,Inforbix现在已经准备好进军这一市场。

寻求利用ETL和文本挖掘的读者将从2011 Text Analytics Summit,5月18日至19日在波士顿举行。此外,展品还将展示可供考虑的产品,使成堆的数据成为宝贵的知识资产。我将采访在那次会议上发言和展出的专家,以便将来发表一篇文章。我希望读者能出席并找我谈谈你们的元数据管理和文本挖掘挑战。这将为未来的帖子提供灵感。

最后,我不是唯一一个这样想的人。你会在这些文章中找到其他想法和行动的推动力。

博埃里,这是鲍勃。我mproving Findability Behind the Firewall,28张幻灯片。2010年企业搜索峰会,纽约,2010年5月。
法雷尔,这是维基。The Need for Active Metadata Integration: The Hard Boiled Truth。DM Direct通讯,2005/09/09,3页
麦克里里,丹。Entity Extraction and the Semantic Web,语义宇宙,2009年01月01日
怀特,大卫。BI or bust?KMWorld,2009年10月28日,3页。


阅读更多信息:http://gilbane.com/search_blog/2011/03/etl_and_building_intelligence_behind_semantic_search.html#ixzz1Ggf4QLpU