|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《开发者自己的 搜索引擎Lucene+Heritrix》8 P" ?3 @8 m) U! v
java电子书推荐理由:内容新颖、实用,提供了价值上百万元的大型数码产品搜索引擎开发案例,本书是一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。& P( ~& T% g4 G9 s g! S, ~
' y/ P) Q+ R3 F8 H0 A5 X0 N6 `
作者:邱哲,符滔滔,王学松 编著9 p6 N0 Y9 g& X6 c! l1 }
出版社:人民邮电出版社
! y) ]* y8 J% q6 O( D: N" a* o出版时间:2010-01
9 z% ~) W' u1 ]( z% d7 K$ R
" D: b, G( @ L. P1 B" T
! ]! S' s8 L$ C. u( _0 u) o
1 K* [5 A2 U5 o: |% g) K, C5 ~
java电子书目录:: G! U9 b) E$ z+ J
9 s" T- `+ \ ]' m$ w: G第1章 搜索引擎与信息检索
x$ s+ Y# d! F; K$ `- x 1.1 搜索引擎的历史 - Y8 q9 x* @% k- Q! Y& q [
1.1.1 萌芽:Archie、Gopher
+ R1 ^7 |* ^9 p- D3 e6 a: C& O+ M# x( { 1.1.2 起步:Robot(网络机器人)的出现与Spider(网络爬虫) 4 f; y$ C/ x D* F- [' O* n' y
1.1.3 发展:Excite、Galaxy、Yahoo等 : E1 A' _$ m2 Z, O
1.1.4 繁荣:Infoseek、AltaVista、Google和Baidu * O( B- e- D. d8 Z) {4 I& o
1.2 信息检索系统的基本知识
/ x# W$ _; M8 e Y 1.2.1 信息检索系统 $ E" {7 T( I z3 V; Z6 N, t
1.2.2 信息检索的过程
( [; \& u: R7 Z$ L4 ?5 O% C 1.2.3 传统查找的优点和不足
7 U* u* c6 k* G) F3 F 1.2.4 使用索引提高检索速度
, i! [/ G4 o$ Y, ^& y8 [% |. w& {6 V: M 1.2.5 倒排索引
( v' \9 z7 j2 z; \/ ` u% J) t0 d 1.2.6 评价信息检索系统的标准 ( c* z8 A9 q7 I$ }8 I
1.3 Lucene的简介
$ f5 {! n. W& _( F5 a- p 1.4 小结
1 ~4 b, S9 D) m$ H8 _9 m第2章 Lucene入门实例 - F7 N0 ^5 |% S
2.1 实例介绍
: l. Z9 u0 Y+ I, l: H 2.1.1 实例说明 & w0 w. v' w/ {
2.1.2 开发过程 : V! n0 [0 _3 \: o! i0 I0 \ G
2.2 准备工作 " q$ @: H8 u: X& U$ {9 Y2 u) T5 o
2.2.1 将文档的全角标点转成半角标点
+ j) }% {& X( ]" ^' T# z3 O! Q2 ] 2.2.2 将大文档切分成多个小文档
3 F5 R( A4 Y" S+ s3 \7 c" H 2.2.3 预处理源文件的统一接口 7 o' H, u! _* S6 F, Q! b
2.3 创建Eclipse工程
8 N* @% F8 D- X: e- P1 i 2.3.1 准备工作 : p$ a/ D/ L( t
2.3.2 创建工程并引入Lucene的JAR包
7 \' v. J6 }& N; i9 x! e( C5 N 2.3.3 运行文档预处理类
6 Z4 n; k2 {4 ~) [4 H+ H! n. y+ e 2.3.4 创建处理文档的索引类:IndexProcessor
, j- ^ \' A6 M; I* w, F" E% R: { 2.3.5 创建检索索引的搜索类
, ^- Y g7 \! ]& R% x6 l) D; l 2.4 运行效果 . `# j6 L" r/ t7 G- \' `* ?+ B K
2.5 小结 ! L" y% J" a% S8 J1 p% R
第3章 索引的建立
0 p" @1 N) s! F. d7 V 3.1 Document逻辑文件 8 R# h( r; t B, O9 B- S! Z$ b- Z
3.1.1 Lucene的Document
6 ^' x. O. x4 k7 k3 L 3.1.2 为Document添加多种Field
: h. j( e. _1 O# u 3.1.3 Document的内部实现
: g$ |: w" P8 w5 J 3.2 Field的内部实现
7 ^" ^9 J: S ~7 V" E- T5 W 3.2.1 Field包含的类
( V: D8 \6 y m5 y5 I. R5 Q 3.2.2 Field类的构造方法 ! h4 ~4 t5 F9 d! v2 c, I: ~
3.3 Lucene的索引工具IndexWriter ; d4 i; n, @# v! n
3.3.1 IndexWriter的初始化
& O6 B" ~" _% I9 b3 n. H2 j$ U) | 3.3.2 向索引添加文档 # n. ]7 V6 F6 D L) o8 o$ p: ^
3.3.3 限制每个Field中的词条的数量 5 r* K3 x* R( X) }0 E/ b
3.4 Lucene索引过程详解
( b' f7 Y/ A# Y0 Y9 A 3.4.1 Lucene索引建立过程概览
) L0 i! Y6 w* V( w0 X3 P- k 3.4.2 使用addDocument方法向索引添加文档 : a! Z. { F2 @6 N, g1 v
3.4.3 DocumentWriter的addDocument方法
' G4 O" |( ^! I8 {* w8 Z6 E& d 3.4.4 文档的倒排 0 }6 [* q3 a. [! W
3.4.5 对postingTable进行排序 + c6 b8 D; j# g6 Q8 B( I" A2 C
3.4.6 将Posting信息写入索引
8 ~2 x6 h/ v4 x% c 3.5 索引文件格式
: C5 V( O- U& @9 M- E 3.5.1 索引的segment 2 P4 H# F; A% K/ j- V0 z
3.5.2 .fnm格式
, V8 }0 E# m! v+ B5 @5 z) i. g( { 3.5.3 .fdx与.fdt格式 ( {! ^9 a) i5 u- g+ B
3.5.4 .tii与.tis格式 4 |% X# P/ _( g& P
3.5.5 deletable格式 . {+ K, _7 W( F- c
3.5.6 复合索引格式.cfs
5 J4 ^* R0 W/ S2 R3 }* M' B* F 3.6 索引过程的调优 6 e, E$ `3 W2 D! ^2 @
3.6.1 合并因子mergeFactor 6 u$ Y4 k* U3 W3 }' N
3.6.2 maxMergeDocs 2 R L3 r7 N4 k1 Y2 q& Z& v
3.6.3 minMergeDocs ' u! f8 j$ ]$ j! o+ s
3.7 索引的合并与索引的优化 ' _( W Q0 G; k
3.7.1 FSDirectory与RAMDirectory
) p7 ^5 b# s* t# B& U 3.7.2 使用IndexWriter来合并索引 $ i/ {7 T* v4 O6 ]6 K/ M
3.7.3 索引的优化 % i; q* O' y& w8 j" ^
3.8 从索引中删除文档 - l! H8 s1 P H9 A
3.8.1 索引的读取工具Index-Reader
7 ~9 U6 D- V! ?% x9 b# k 3.8.2 使用文档ID号来删除特定文档
/ g4 m! H/ W5 Z 3.8.3 使用Field信息来删除批量文档 * u0 ]% t% N: J$ O `( j
3.9 Lucene的同步问题
0 `3 V* `, F$ T6 v) ~% |7 I 3.9.1 为什么要进行同步以及Lucene的同步法则 2 ?/ a4 m1 {8 A% m- c
3.9.2 commit.lock与write.lock
( G! O. f4 J8 F4 ^ 3.10 Lucene 2.0的新类:IndexModifier类 * V3 Y6 c7 i' g5 ~9 i9 a; K
3.11 小结 : Q9 b! F6 e/ u1 W0 t- F
第4章 Lucene搜索 L, i3 {$ a+ |+ E8 s( C& d& C6 s+ H4 r
第5章 排序、过滤和分页
& M9 o& S3 ~1 B0 g) H. [( A" F第6章 Lucene的分析器
( w. g. ~) Y5 h$ X第7章 Word、Excel和PDF的处理' H5 D8 J l1 j$ O0 y, f2 P
第8章 Compass:封装了Lucene的框架7 H3 M) y0 s, n# H0 b
第9章 Lucene分布式
/ L' k8 c$ y d) P2 {: |第10章 无比强大的网络爬虫Heritrix
4 t4 j% x( R! [% J第11章 搜索引擎综合实例:准备篇
- F4 {- x& c6 i/ l1 t. g' m, F, N第12章 搜索引擎综合实例:下载篇
( N+ N6 \5 E0 u, R, [第13章 使用正则表达式与HTML Parser分析网页' Y7 ?5 s8 I% R% F
第14章 网页内容存储与索引 ' X- W) M3 f& ?. Y1 P; n& ^2 A! u
第15章 搜索引擎综合实例:交互篇
+ e! J5 F( T# m8 s4 W第16章 搜索引擎综合实例:Web篇
, B6 |8 Y' v$ B! N7 c" u0 q. T# y附录 Lucene 2.4更新内容
, y6 T& r8 L# F3 Z2 r6 ^" M: t
8 o) g5 c7 ?4 Z8 D* K. a百度网盘下载地址链接(百度云)下载地址:java自学网(javazx.com)开发者自己的 搜索引擎Lucene+Heritrix PDF 高清 电子书 百度云.rar【密码回帖可见】! f* b$ Z. r# g6 I# r
. H( G+ |, y) m q1 B0 B* V: b2 c" Q8 R
+ J" C# D4 T8 G! j; o; D- ]
3 t( }; t( }/ m% @5 \9 Y% N
7 r' H) U' r$ `" [* b/ G
- L8 ^3 z7 }3 S+ z' v* C) h
, \& G1 X: w! j" P, D
! @' K! _+ t/ D+ Q! ~) Z) b- m
" q# `0 H7 Q1 y! ]% N |
|