南宫28(中国.NG)官方网站

186566256363

智能搜索技术解决方案docx_NG·28(中国)南宫网站_南宫28(中国.NG)官方网站

智能搜索技术解决方案docx_NG·28(中国)南宫网站

时间:2024-04-26 17:25:42 作者:小编 阅读:

  智能搜寻工程技术解决方案 智能搜寻工程技术解决方案 智能搜寻工程技术解决方案 名目 TOC \o “1-2“ \h \z \u \l “_TOC_250012“ 系统概述 2 \l “_TOC_250011“ 工程目标 3 \l “_TOC_250010“ 输入需求 3 \l “_TOC_250009“ 输出结果 3 \l “_TOC_250008“ 目标 4 \l “_TOC_250007“ 运行环境 4 \l “_TOC_250006“ 测试环境 5 \l “_TOC_250005“ 牢靠性分析 5 \l “_TOC_250004“ 总体设计 6 \l “_TOC_250003“ 智能纠错 6 \l “_TOC_250002“ 同义词扩展 7 \l “_TOC_250001“ 接口设计 9 \l “_TOC_250000“ 外部接口 9 内部接口 11 数据构造 11 同义词词林数据构造 11 智能纠错 12 系统概述 本工程完成为搜寻引擎中的两个模块,功能分别为“同义词扩展”与“智能纠错”,并与卓望现有搜寻引擎产品深度集成,为卓望搜寻引擎供给更加友好的用户接口,提高搜寻质量和用户满足度。性能上要求增加了相关“同义词扩展” 和“智能纠错”模块之后,答复用户一个查询的时间小于100ms,具体功能描述如下: 智能纠错:搜寻引擎自动地订正用户搜寻输入,推想用户真正想搜寻的输 入。搜寻的结果既包含用户的原始输入搜寻结果,也包含订正后的搜寻结果,并在搜寻结果中提示用户是否是想搜寻订正后的词。例如用户输入“宏楼梦”,系统提示是否用户期望搜寻的关键词是“红楼梦”,并返回“宏楼梦”和“红楼梦”的搜寻结果。所开发的产品必需与卓望数码已开发的搜寻引擎深度集成。 同义词推举:搜寻引擎自动加上搜寻关键词的同义词一起搜寻,如搜“红楼梦”,自动加上其另外的书名“石头记”进展搜寻。所开发的产品必需与卓望数码已开发的搜寻引擎深度集成。 工程目标 本工程的主要任务就是用户输入的可能是错误的查询词,我们需要推举用户可能打算输入的词,以及给定一个词,我们推举其同义词。 输入需求 卓望公司供给查询日志,用于日志分析,统计词频,从而做高效的查询纠错和同义词扩展。 输出结果 图 1 给出了了本工程需要完成的功能。其工作流程如下: 首先用户输入一个查询词 给出查询词订正后的词 给出其同义词扩展 搜寻引擎 搜寻引擎 智能纠错 同义词扩展 Hadoop平台 查询日志 图 1 主要功能 目标 在 500MB 的数据上,为了支持模糊检索,索引大小为 350MB 左右;单台机器〔Intel 2.4G CPU,2RAM 内存〕答复一个查询的时间在 100ms 以内。在 20GB 的数据上,通过在两台机器〔每台机器 8 核,Intel 2.4G CPU〕进展多核并行处理, 答复一个查询的时间在 100ms 以内。 运行环境 日志分析需要 8 各节点的 Hadoop 效劳器,每台机器配置如下: Intel x86 兼容处理器,双核,主频 2.0GHz 以上 内存 4GB 以上 硬盘 200GB 以上,7200 转 节点之间承受千兆以太网连接。运行环境的软件要求为: 建议使用 Ubuntu 10.04 LTS 32-bit 或者 64-bit Server Edition Java 6 的开发和运行环境 测试环境 测试环境 测试环境 效劳器两台,配置如下: CPU:IIntel? Xeon?CPU E5520 @ 2.4GHz 8 核内存:8G 硬盘配置:intel x25m g2 160G SSD 硬盘 4 块客户端主机 10 台,一般 PC Server 配置; 全部主机在同一网段内,千兆以太网交换机。 测试数据 案例描述 测试步骤 查询响应速度 测试指标要求 在 500MB 的数据上,为了支持模糊检索,索引大小为 350MB 左右; 单台机器〔Intel 2.4G CPU ,2RAM 内存〕 答复一个查 询的时间在100ms 以内。在 20GB 的数据上, 通过在两台机器〔每台机器 8 核, Intel 2.4G CPU〕进展多核并行处理,答复一个查询的时间在 100ms 以内。 牢靠性分析 整个系统都应承受高可用性架构,无单点故障。系统整体牢靠性到达99.999%。在局部节点发生故障后,能够依据日志恢复故障节点丧失的数据,保证数据不丧失、不错乱,保证数据全都性和正确性。 总体设计 智能纠错: 为了衡量两个不同输入词的相像性,我们需要衡量词与词之间的相像性。例如衡量“宏楼梦”和“红楼梦”的相像性。传统的方法可以用编辑距离来衡量词之间的相像性,即从一个词转换为另外一个词所需要的最少原子操作次数〔包括删除一个字,插入一个字,替换一个字〕。例如“宏楼梦”和“红楼梦”的编辑距离是 1。然而这种方法存在着两个问题:〔1〕由于汉字通常较短,这种相像性函数并不适合于汉字;〔2〕这种方法只考虑了汉字,而没考虑拼音。例如尽管“宏楼梦”和“宏梦”的编辑距离也是 1, 但是明显“红楼梦”和“宏楼梦”更相像。因此我们不仅要考虑字形之间的相像性程度,还要考虑读音、声调等因素来衡量汉字之间的相像性,进而对查询结果进展打分排序。例如“红楼梦”和“宏楼梦”的拼音一样,因此他们的相像性更大。因此我们通过衡量两个词的读音相像程度,汉字相像程度,声调相像程度,字型相像程度等多重因素来考虑汉字之间的相像性。此外,我们还要考虑少数民资的发音,例如卷舌音等来进一步提高我们相像性函数的准确性。 给定一个查询词和多个历史查询〔通过用户的查询日志获得〕,我们就可以依据这个相像性函数找到和查询词相像的全部相近词作为该查询词的纠错。一种简洁的方法就是计算查询词和每个历史查询的相像度,然后返回给用户一个最相近的查询词。然而历史查询可能格外多,例如上亿,因此这种算法的效率很低。为了解决这种问题,我们提出高效的索引和算法来解决这一问题。假设我们只推举拼音编辑距离不大于?的全部查询,我们通过以下步骤来完成: 首先对于一组历史查询,我们把他们转换为拼音。 对于每个转换后的拼音,假设其长度为 l,我们把其分为?+1 段,前?段长度为?l/(?+1) ?,最终一段为 l-?* ?l/(?+1) ?。并且为每一段字串建一个倒排列表,记录包含该子段的全部查询〔ID〕。 给定一个查询 q,我们依据下面的方法产生 q 的全部子序列,假设 q 的长度为q: 对于 q 的任意长度为 i 的字串,q ? i ?q-?,依据上面的方法生成q 的字串; 在 q 末端添加 j 个字母,1?j?q-?, 依据上面的方法生成 q 的字串; 对于 q 的每个字串,查找倒排列表,倒排列表中的每个历史查询就是 q 的一个候选集; 验证候选集,得到全部结果; 对结果进展打分排序,返回最终 top-k 个结果。 该方法不用遍历全部的历史查询,通过字串共享和字串倒排列表就可以进展有效地过滤,从而提高查询效率。图 2 给出了智能纠错的框架图。 用户输入 用户 输入 结果 智能纠错 结果排序 Events DHTML Modifications JavaScript DOM 效劳器端 缓存 索引 更 Internet 客户端 缓存 监听 恳求 客户端 - 扫瞄器 索引模块 数据 图 2 智能纠错 同义词扩展 为了支持同义词扩展,我们需要建立同义词表来支持同义词查询,提出快速的算法来实现高效的同义词推举。 同义词字典:英文单词有 WordNet 来衡量英文单词的相近程度,中文也 有同义词词林来衡量词组的相像性。WordNet 和同义词词林反映了常用词的相像程度,可以用于同义词扩展,例如 Apple 和苹果。但是这些方法存在两个问题:i) 对中文来说,没有免费的大规模高质量的同义词词林,因此我们要争论如何生成同义词词林;ii〕当前的同义词词林不能很好的统计的同义词,例如小强 = 蟑螂,xjdm = 兄弟姐妹。为了解决这一问题,我们需要争论的算法来动态生成同义词词林。 我们依据下面的步骤生成同义词词林: 大规模数据统计:用 Hadoop 分布式计算平台,统计用户的查询日志,计算词与词之间的奉献程度。我们利用 map-reduce 来进展词组的统计。 产生相关度比较高的词对,并利用搜寻引擎验证两个词是否是同义词,即分析搜寻引擎的返回结果,看两个词之间消灭的位置关系和频率关系。 系统自动返回最可能的同义词,然后人工进展审核。 同义词相像性分析:分析同义词之间的相像度,并给出分数,主要通过统计进展分析得到。 同义词推举算法:首先给定一个统一词典,每一行代表一组同义词,当用户输入一行中任意一个词的时候,我们都可以返回其他相关的词。当用户输入一个查询词时,最简洁的方法是,我们在同义词词林中找到该词,并推举同行中其他词。然而这种算法效率较慢,不能做到实时的同义词扩展。为了解决这一问题我们建立一个基于 Hash 的方法: 首先对于每个词,我们记录该词对应行的起始位置,例如“中国”, 100 当用户输入中国时,我们就可以找到文件 100 对应的位置是和中国相关的词组,我们可以读取这一行获得中国的同义词 但是上面方法可能索引较大,因此我们对词语进展 hash,把全部单词 hash 到一个指定的空间,这样就可以把握索引的大小。 对返回的扩展词进展打分排序,给出一个分数从大到小的一个顺 序。 图 3 给出了同义词扩展的构造图。 在线同义 在线同义 词扩展 索引 同义词词林 索引 更 Hadoop分析 查询日志 图 3 同义词扩展流程图 接口

  原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者ng28(中国)网站ng28(中国)网站

申明:如本站文章或转稿涉及版权等问题,请您及时联系本站,我们会尽快处理!

上一篇:毫末智行与高通宣布采用Snapdragon Ride平台打造智能驾驶解决方案_NG·28(中国)南宫网站

下一篇:人工智能与全屋定制家具相结合的发展趋势-宝森美_NG·28(中国)南宫网站

返回
客服电话:020-8856894免费预约师傅上门量尺!点击咨询