|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《开发者自己的 搜索引擎Lucene+Heritrix》
2 G- V; ^! s9 n5 ?java电子书推荐理由:内容新颖、实用,提供了价值上百万元的大型数码产品搜索引擎开发案例,本书是一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。+ W8 k$ `# m; D
& ^) a+ k2 j6 p$ z$ i
作者:邱哲,符滔滔,王学松 编著
0 U, i' e+ m: j2 B, L% J出版社:人民邮电出版社 r" Q' W. ~8 W8 _/ k& w% \
出版时间:2010-01" k) h4 P7 Z( h4 ?4 N" Z
5 ~/ K9 l2 G# y+ Q u- v
c$ z- b5 |. Q, m+ v0 {1 V
; p) X1 J& B# A# u, l$ Jjava电子书目录:/ V2 D2 ~* y4 G d E, o/ K
9 y `: L# ]: x+ e
第1章 搜索引擎与信息检索 8 h( ]/ a+ {5 _" T" W9 }1 _4 V
1.1 搜索引擎的历史
$ W0 W, y$ O' E& F8 k 1.1.1 萌芽:Archie、Gopher : v" d! d) m( v
1.1.2 起步:Robot(网络机器人)的出现与Spider(网络爬虫)
! @3 q& X) M( c# `: [/ S8 F; w; n 1.1.3 发展:Excite、Galaxy、Yahoo等 3 U! T7 h8 ~ Q# q; W1 w
1.1.4 繁荣:Infoseek、AltaVista、Google和Baidu
+ K9 R, G0 X+ q1 l7 [ 1.2 信息检索系统的基本知识
/ x! K& G+ J' l! B8 a% y1 a6 c 1.2.1 信息检索系统 9 @1 r8 F; G2 J& v: o! E; f
1.2.2 信息检索的过程
U, W7 n( Z5 `! ~& L 1.2.3 传统查找的优点和不足
0 _5 l3 p! C6 L; \; k" P1 _ 1.2.4 使用索引提高检索速度
7 j9 O# p: C3 z1 ^2 Y 1.2.5 倒排索引 / G2 D5 e* p) k4 x" c
1.2.6 评价信息检索系统的标准 ( L# L1 `2 q) _" }6 G
1.3 Lucene的简介
9 o4 [5 {& J% N, O/ x! B 1.4 小结 ' x8 ~. a/ B7 F) Y8 B
第2章 Lucene入门实例
/ [3 }' o+ L; Z7 k( d( t+ A 2.1 实例介绍 8 m0 a3 H& Q3 g
2.1.1 实例说明 ! o- A8 F C7 K3 A+ a0 d
2.1.2 开发过程
$ a% t, U, Q5 D" [- _ 2.2 准备工作 % U! {& j7 h% b4 _
2.2.1 将文档的全角标点转成半角标点 : ^5 a3 k( {: B2 m
2.2.2 将大文档切分成多个小文档
" O/ T5 k2 L, ?1 P) Y6 G6 B5 N0 j' ` 2.2.3 预处理源文件的统一接口 + [0 l1 P5 y: R. @
2.3 创建Eclipse工程
/ D6 t1 P/ \+ f4 M% f F p D 2.3.1 准备工作 5 a; t5 [2 f2 E0 Y* Z# T7 G: b% c
2.3.2 创建工程并引入Lucene的JAR包
# O' O9 G) G, Z4 O" | 2.3.3 运行文档预处理类
) j$ q, [3 z, u& L5 Y2 y5 Y 2.3.4 创建处理文档的索引类:IndexProcessor
% Y+ o0 x' A) P7 S, w 2.3.5 创建检索索引的搜索类 - _5 h- ^2 b8 V2 Z" f7 Q
2.4 运行效果 . ^3 Q% f7 S! l( e6 r: B
2.5 小结 ) E ?/ \3 U5 n! U7 n' w
第3章 索引的建立
j! R! P2 p- m) K 3.1 Document逻辑文件 + h% i9 {0 R; f+ R8 h- y6 `
3.1.1 Lucene的Document $ d! n- q( H; d; B% W
3.1.2 为Document添加多种Field
1 k" Y6 u" k# E8 _/ B 3.1.3 Document的内部实现 ) z5 f; ^" v7 }8 b. z2 D. n' d
3.2 Field的内部实现
) X* e& K3 ]% P# u 3.2.1 Field包含的类 H$ A) t% K4 F8 Q- h" \7 `4 y
3.2.2 Field类的构造方法
5 i, [" L% a4 w7 m 3.3 Lucene的索引工具IndexWriter
) b* W0 y, {1 c9 I 3.3.1 IndexWriter的初始化 $ m- t+ L1 C* N$ `' ?- \4 Q+ ]3 Z
3.3.2 向索引添加文档
# G/ h6 c! V3 F' r/ |( x2 B0 h ] 3.3.3 限制每个Field中的词条的数量 : u R/ _$ N/ [
3.4 Lucene索引过程详解
& _! s" f' q( L9 s 3.4.1 Lucene索引建立过程概览 $ s% H: E! U0 v& E# Q$ }3 I" x# L* S
3.4.2 使用addDocument方法向索引添加文档 % G, U K3 S- Z- w. J0 o4 W
3.4.3 DocumentWriter的addDocument方法 5 k( q5 l. _: n' ?8 V" ^8 w
3.4.4 文档的倒排
! q3 m/ i- x- A. W9 n 3.4.5 对postingTable进行排序
2 K2 g; }) y% f+ p& K8 A$ r 3.4.6 将Posting信息写入索引 2 J6 Z" L# M( q0 p( t
3.5 索引文件格式 $ F, @8 `: C% z
3.5.1 索引的segment
. o. T' g( H" e) Q- d 3.5.2 .fnm格式 9 {! p- I0 L" y4 G* c% {
3.5.3 .fdx与.fdt格式 ! p4 w4 @5 L4 r, n0 j
3.5.4 .tii与.tis格式 8 P6 x' K, D! R0 T& K; Q
3.5.5 deletable格式 ! |/ I# X2 h7 T! b! `
3.5.6 复合索引格式.cfs
) N, l& k) p5 f$ v3 ] 3.6 索引过程的调优 : B. g0 b8 h6 U" J
3.6.1 合并因子mergeFactor
! x% h) J6 X; u% U# Z 3.6.2 maxMergeDocs
! h3 ~8 L! o4 K 3.6.3 minMergeDocs % E2 t) V; n2 i0 ^
3.7 索引的合并与索引的优化
' h7 j/ r* s7 m$ _/ X9 s 3.7.1 FSDirectory与RAMDirectory
; g6 a, H/ R0 h4 y8 e 3.7.2 使用IndexWriter来合并索引 / k% @- k9 i4 j! Q# ?7 e
3.7.3 索引的优化
( a- D+ J/ M! n# |! H! z/ s 3.8 从索引中删除文档
' p y7 e u2 Z9 x6 U 3.8.1 索引的读取工具Index-Reader
1 a& Q8 w: T2 E. A9 ]: } 3.8.2 使用文档ID号来删除特定文档
8 t2 ]; \% d p% L 3.8.3 使用Field信息来删除批量文档
7 k5 C6 A% Y9 C7 a. A% G1 [ 3.9 Lucene的同步问题 / P4 [4 j4 ^/ x5 x5 R9 o
3.9.1 为什么要进行同步以及Lucene的同步法则
* M. M, j% U6 J: d' x% x 3.9.2 commit.lock与write.lock
9 j3 b' ]7 z* W5 m) i 3.10 Lucene 2.0的新类:IndexModifier类
1 g$ @$ s, k2 g) T |7 Y; l5 a 3.11 小结 " [8 U1 S0 n' u- O
第4章 Lucene搜索( J6 \# @' ~: @9 d
第5章 排序、过滤和分页( i* }6 g$ A3 _, u! d+ t( a
第6章 Lucene的分析器 - Y& g0 \: l6 l
第7章 Word、Excel和PDF的处理
5 j; _' c/ a+ [% w& a第8章 Compass:封装了Lucene的框架0 y, {9 G( g& y$ B" F
第9章 Lucene分布式
& q, E5 J2 L1 K& Q( |4 Q% a! x- ?+ M第10章 无比强大的网络爬虫Heritrix8 r/ @8 n; c' S" |0 F
第11章 搜索引擎综合实例:准备篇 7 R! y- C$ |! l7 {1 g0 ]$ t
第12章 搜索引擎综合实例:下载篇
9 R! j/ r2 e# r5 v' N r! a第13章 使用正则表达式与HTML Parser分析网页
( p5 L& C. R: r" x, c第14章 网页内容存储与索引 1 M3 t5 B+ x) m) [
第15章 搜索引擎综合实例:交互篇
; f& X4 {! n S6 c4 ~' o第16章 搜索引擎综合实例:Web篇) F1 N8 _& q: P2 A- w, y3 a' k! ^
附录 Lucene 2.4更新内容
4 T( c1 a0 K# f# N1 W8 H1 a* d/ F+ r' E" ?
百度网盘下载地址链接(百度云)下载地址:java自学网(javazx.com)开发者自己的 搜索引擎Lucene+Heritrix PDF 高清 电子书 百度云.rar【密码回帖可见】
- ?( X7 `0 v: I! s, m5 A+ u E4 w8 R# ]( x& H
* W; u: v" y/ M
4 [2 u; \3 p" A M4 O
* L4 N& B9 w* W6 A& P
( h1 z* D4 N$ j8 Q
- p1 c8 y5 b. R) ^5 p6 y' X% j; `, X7 E" V4 ]
* i4 N. h/ N" d& `0 Q1 [: m5 U( B Q& P+ L |
|