|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《开发者自己的 搜索引擎Lucene+Heritrix》! Y& b$ U1 _! J0 {- J. K
java电子书推荐理由:内容新颖、实用,提供了价值上百万元的大型数码产品搜索引擎开发案例,本书是一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。, _: Y% O/ W7 S4 a( E5 y* k, J0 n
* L# N A# k# _& ~$ w% O
作者:邱哲,符滔滔,王学松 编著! o: v& _( j) j) q: [5 |3 K
出版社:人民邮电出版社8 Q5 T1 J, c7 y w
出版时间:2010-01
5 p4 u4 j3 U' K4 p( g5 [& Z/ ^* \) P8 \& Z% g. Z* v- O) A
, t' r) j: |( }, L* b! T; I& r
% Y ]. R* J; f5 p, [- k
java电子书目录:
- M4 P% j0 X8 g2 r% [; n) \6 Z T g
第1章 搜索引擎与信息检索
* k2 w# X7 [, y+ A" }' l 1.1 搜索引擎的历史
2 K5 p* g$ s+ W: i6 q# e 1.1.1 萌芽:Archie、Gopher j/ f; P) G- V0 Q, Z8 R; O9 O y
1.1.2 起步:Robot(网络机器人)的出现与Spider(网络爬虫) ( Y- E0 ^5 Y, M3 V
1.1.3 发展:Excite、Galaxy、Yahoo等
B u( a- W( V4 g2 B0 M ?8 K/ h 1.1.4 繁荣:Infoseek、AltaVista、Google和Baidu
4 n- E1 r: y1 h/ r. e8 M3 | 1.2 信息检索系统的基本知识
5 i; o0 d, @, K3 {3 ]6 I 1.2.1 信息检索系统 ) E3 V0 z, p9 ?$ n0 ?2 P1 ~: H
1.2.2 信息检索的过程
% a. h- W9 h9 d, F8 @" r4 ] 1.2.3 传统查找的优点和不足
% c7 H. ^" n3 O- S [' o 1.2.4 使用索引提高检索速度
/ U- S( a1 }3 } 1.2.5 倒排索引 3 v* Z& q/ R* j7 m/ `1 j
1.2.6 评价信息检索系统的标准 ( D" M$ i7 E& E8 q$ B
1.3 Lucene的简介
* c8 H0 [" |1 |/ {2 f/ w1 F. K 1.4 小结
, e+ ^! D6 g4 j/ w& e, N: w8 J- m第2章 Lucene入门实例
0 A' ]- s V9 A% T. ~ 2.1 实例介绍
8 x7 n3 `# {" k0 `4 K# y 2.1.1 实例说明
8 v+ W4 @. `& v, n/ D 2.1.2 开发过程 5 L1 A- U: i) Z1 y
2.2 准备工作
. A$ X3 G5 I& F- `9 y# Z, ~ 2.2.1 将文档的全角标点转成半角标点
/ f3 }+ S8 D1 U0 K+ W& b 2.2.2 将大文档切分成多个小文档 " m0 ~3 D, f. F1 _, M) A
2.2.3 预处理源文件的统一接口
+ ?( m- @3 q! u4 K4 y# f 2.3 创建Eclipse工程
4 d4 O+ h! {3 m0 }- n& w3 \ 2.3.1 准备工作
1 l! p7 U1 z, Z: R$ B& c' T* t 2.3.2 创建工程并引入Lucene的JAR包
[5 Y$ d6 y5 \4 [" ~6 Z. O, }7 p 2.3.3 运行文档预处理类
; o# J5 p8 _2 I* Y5 v 2.3.4 创建处理文档的索引类:IndexProcessor - b) ?* l5 ~3 t M; c' t0 q
2.3.5 创建检索索引的搜索类
; X4 h* U: z9 o6 ^( n. U0 U 2.4 运行效果 5 d/ i; ]& k. f2 R" M
2.5 小结
/ Y4 X: |8 q! K& M( x0 ~第3章 索引的建立 $ d4 G* @. b* {: ]: k& D+ j
3.1 Document逻辑文件
/ z3 p+ n k$ t 3.1.1 Lucene的Document
& k. {$ I% q& p& ^ 3.1.2 为Document添加多种Field
! A+ i0 w9 W! w5 g0 @1 C. z 3.1.3 Document的内部实现
! q7 T& N7 r; J/ n 3.2 Field的内部实现
& Q1 ^) l% ?. ]* E' f 3.2.1 Field包含的类
- x' s+ F, t R D1 V 3.2.2 Field类的构造方法
' V" h8 ?. t8 Z) _ v# L 3.3 Lucene的索引工具IndexWriter ' w+ m& l7 f/ `1 j' H' {
3.3.1 IndexWriter的初始化 ' p9 G4 L$ N" X" e4 w2 [# v
3.3.2 向索引添加文档 ) E; g1 Z7 c' F: Z
3.3.3 限制每个Field中的词条的数量 + k. c& l7 O) t. U9 o' j
3.4 Lucene索引过程详解 7 X. Q2 m! ?* R- R
3.4.1 Lucene索引建立过程概览
* x0 k% D; Y& A1 L' D3 p# v 3.4.2 使用addDocument方法向索引添加文档
7 E0 z' D% H K0 _$ h9 j* ]9 d% t 3.4.3 DocumentWriter的addDocument方法 5 O. F4 r9 [, [& H1 h( w0 k4 |
3.4.4 文档的倒排
+ T: q! L9 \2 X0 S$ K$ x 3.4.5 对postingTable进行排序 4 p7 T; h' v( c2 t8 [9 A, E
3.4.6 将Posting信息写入索引 # N8 A- D( F! _* } V0 t
3.5 索引文件格式
; N7 _; w3 F) x/ L 3.5.1 索引的segment
& k" y/ G5 J6 } 3.5.2 .fnm格式
! }8 M5 J! I5 G$ P: @ 3.5.3 .fdx与.fdt格式 # q6 O( w) C5 y- }0 j3 u( @) c6 i
3.5.4 .tii与.tis格式
5 e" o* a3 J, I1 T 3.5.5 deletable格式
' a9 V7 d$ s% O0 x7 M7 ` 3.5.6 复合索引格式.cfs $ z5 h9 a/ H! \! I
3.6 索引过程的调优 F& Q! X0 _$ J6 t
3.6.1 合并因子mergeFactor $ e! o# Y# X) E8 O: Y
3.6.2 maxMergeDocs
! \% r% p9 e& g 3.6.3 minMergeDocs
/ z/ l- C% L- W1 y4 f* }0 g 3.7 索引的合并与索引的优化
7 d5 O4 b: a2 w/ P; X. E7 @ 3.7.1 FSDirectory与RAMDirectory
+ g/ g# s0 `! z1 q 3.7.2 使用IndexWriter来合并索引 8 \1 a) Q. m w, J; D: @" @
3.7.3 索引的优化
" N X3 s$ d/ G4 @% ] 3.8 从索引中删除文档 , f- l5 b+ i W" G
3.8.1 索引的读取工具Index-Reader
- D) N2 a; ? V: u 3.8.2 使用文档ID号来删除特定文档 & k2 Q; Y$ X6 ^* j. r/ \8 j
3.8.3 使用Field信息来删除批量文档
7 M' P( V3 d4 V4 `; ]( e& J 3.9 Lucene的同步问题 8 m& e0 p5 J) Z
3.9.1 为什么要进行同步以及Lucene的同步法则 G; R. V8 t# l! f0 M
3.9.2 commit.lock与write.lock 1 q; z" g: k& Y' {
3.10 Lucene 2.0的新类:IndexModifier类
3 ^0 |2 s( j ~3 }, y 3.11 小结 " t+ V4 p2 z) t; ?0 E1 Q
第4章 Lucene搜索
. s/ O- A. j) W" e第5章 排序、过滤和分页) o1 Q7 Y1 E7 y ?5 a' _8 G
第6章 Lucene的分析器 ' B: C4 E1 P |! u4 f* W
第7章 Word、Excel和PDF的处理0 X+ u% f; f$ f( P }
第8章 Compass:封装了Lucene的框架' c/ q V( q# n4 s' k0 j+ v
第9章 Lucene分布式 * } t! \" W- d% @! W6 u( V
第10章 无比强大的网络爬虫Heritrix; s7 U! m' \3 ~4 O+ ?; q
第11章 搜索引擎综合实例:准备篇 1 q: a p9 j! s! D+ G& N# b
第12章 搜索引擎综合实例:下载篇
& I7 o' U- a6 y第13章 使用正则表达式与HTML Parser分析网页5 v* t6 n4 @2 h+ i" M
第14章 网页内容存储与索引 " a8 z5 H! j# V3 {$ L4 I: o
第15章 搜索引擎综合实例:交互篇3 u' g; [3 W: e7 J" v0 E
第16章 搜索引擎综合实例:Web篇
% ]+ K- k4 K0 n1 k* v附录 Lucene 2.4更新内容
* j- _$ d1 U+ G/ _1 Z9 {7 M. L, |. L& _( \
百度网盘下载地址链接(百度云)下载地址:java自学网(javazx.com)开发者自己的 搜索引擎Lucene+Heritrix PDF 高清 电子书 百度云.rar【密码回帖可见】& V) Q( V# w' r: n3 `: b: R
+ r [6 l @. r6 ?
3 a& T) g. o( ~) w- s* q9 [% h; t9 \: s, S) R. b' h( |
6 D4 R. l# c5 s2 l$ S5 V* Z* ^7 }9 P2 C' d0 ^' P
+ v9 B+ J U2 ?4 \$ H
% j' e: H% b7 {4 |1 t8 q' D6 C
|
|