|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《开发者自己的 搜索引擎Lucene+Heritrix》( J" S; U, E* \5 T+ y" f
java电子书推荐理由:内容新颖、实用,提供了价值上百万元的大型数码产品搜索引擎开发案例,本书是一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。; b: ^! V! `) f% w1 d& p( c Q5 T
5 v. X- F: ^ O& a& f5 c, `' X8 E
作者:邱哲,符滔滔,王学松 编著
e, _2 X" e- \出版社:人民邮电出版社
3 N* L. _3 P+ a# C" _出版时间:2010-01
I1 J3 k9 s( d1 }( ?
- R! D7 M9 g* v% ]2 b/ V
6 _; l! G' h5 p+ ]- w6 Z
6 I. R$ r1 V- |- }! e6 V) y0 O
java电子书目录:$ J: |9 w! O1 M# E, ^' X
( d) b- R) l- \* X3 R& G
第1章 搜索引擎与信息检索
9 M7 W- f2 Q" T7 s% P k& D 1.1 搜索引擎的历史
0 y3 @$ Y t! i. t1 F' ? 1.1.1 萌芽:Archie、Gopher , @+ T9 W4 Q6 v! X
1.1.2 起步:Robot(网络机器人)的出现与Spider(网络爬虫)
U* _' R1 N G3 C& l 1.1.3 发展:Excite、Galaxy、Yahoo等 ) P- F4 [) |+ B$ f5 q% f2 {0 Y
1.1.4 繁荣:Infoseek、AltaVista、Google和Baidu
) W8 N0 R% o" G+ [; {1 q2 E2 Y0 t 1.2 信息检索系统的基本知识
" m) Q# `7 x7 A( D: t1 O) M 1.2.1 信息检索系统
$ R" L% l$ |( h2 k% [# x' w& D 1.2.2 信息检索的过程 - `' i6 f. j# _/ k6 l0 z
1.2.3 传统查找的优点和不足 # U4 l. e0 L. a7 ?2 m. N7 J! q# M4 N
1.2.4 使用索引提高检索速度 * V8 Q1 S" b# g6 {5 O! W
1.2.5 倒排索引 7 _& h& T3 O2 ^* Q! K" R
1.2.6 评价信息检索系统的标准 ; g# e9 u. w- h8 }5 o
1.3 Lucene的简介 7 R; k/ G4 @4 V* V
1.4 小结 s4 j& q/ V4 e6 v8 q8 q
第2章 Lucene入门实例 & ]; G5 c! q4 o& L+ O0 U
2.1 实例介绍
/ O$ o5 V3 d* X; F5 k* ] 2.1.1 实例说明 7 u6 ~: U# ]! J+ i* ^1 ~% g% g% S
2.1.2 开发过程 1 I7 U- n1 D. D2 P" ]
2.2 准备工作 4 C1 ~! x6 d! |. o( [8 @
2.2.1 将文档的全角标点转成半角标点
- O, B8 M2 J. X- t( a 2.2.2 将大文档切分成多个小文档
G; V+ ?$ [8 U ?1 V. b x 2.2.3 预处理源文件的统一接口
8 P& B+ G2 {. a# g% W 2.3 创建Eclipse工程 6 u; p7 e: w6 Q/ f& c
2.3.1 准备工作 6 g0 A0 J3 c" k1 p7 s( F Y7 q
2.3.2 创建工程并引入Lucene的JAR包
$ u6 ^; }& C. r6 y, Y, H 2.3.3 运行文档预处理类 ! k: ~2 }! s$ c/ h7 w4 M8 d
2.3.4 创建处理文档的索引类:IndexProcessor
2 y! |; h/ R6 X% C2 L1 | 2.3.5 创建检索索引的搜索类
1 r5 Z b3 m N, } w) W7 t1 l 2.4 运行效果
5 F' k. A- o' t( X" f. I G/ n 2.5 小结 ) J4 i% R1 K7 n9 o( r* t0 H
第3章 索引的建立 9 i/ }4 _7 }5 r6 G
3.1 Document逻辑文件 % \% y5 \ H) }
3.1.1 Lucene的Document 7 e( Q! k1 | X- C
3.1.2 为Document添加多种Field
9 Y' ^$ Y$ n$ W' W) v, v 3.1.3 Document的内部实现 5 ~- E \, V* ]& G+ v
3.2 Field的内部实现 & E" I/ W J/ W0 A! Y4 x
3.2.1 Field包含的类
! q7 R# i) R- {+ w6 z; L 3.2.2 Field类的构造方法 $ {6 o7 P# X7 s& C' ?: T" |8 ^0 Q" R
3.3 Lucene的索引工具IndexWriter 3 P: v6 _" N a# V+ p
3.3.1 IndexWriter的初始化
q9 q* g" A' H7 H: b" A; s2 ^ 3.3.2 向索引添加文档 ; J1 |4 C- U# D# x6 d6 }, |5 M
3.3.3 限制每个Field中的词条的数量 ) r. ^' f" o1 n& E W& \* K
3.4 Lucene索引过程详解 * d) g7 Y" r" d% C
3.4.1 Lucene索引建立过程概览 1 _1 u8 \( L* \ s
3.4.2 使用addDocument方法向索引添加文档
0 K4 n/ }" w) L 3.4.3 DocumentWriter的addDocument方法
, m0 ]9 M0 z) W0 ` \/ D2 i 3.4.4 文档的倒排
5 P/ K6 h7 N, @8 \! o2 h; L 3.4.5 对postingTable进行排序
; L6 V+ [1 ]# v+ r K, H 3.4.6 将Posting信息写入索引 3 Q3 _ h1 d/ L- l7 H% c9 w$ s3 C
3.5 索引文件格式 - I0 A$ w3 p4 l& n9 A
3.5.1 索引的segment b9 h$ Y; W6 a' R5 ]
3.5.2 .fnm格式
5 t+ w& `% x4 |* { 3.5.3 .fdx与.fdt格式 * o @% `2 w1 H* }
3.5.4 .tii与.tis格式 Z$ [5 {/ {! ]4 k. U; Z% s+ Z& N5 a m
3.5.5 deletable格式 / E8 M3 N0 G# C
3.5.6 复合索引格式.cfs $ ?4 @* v9 Z5 _+ v5 X. j
3.6 索引过程的调优 7 W6 W+ `% r. |! E
3.6.1 合并因子mergeFactor 1 V2 ~' N4 t1 m \4 `, N: p5 Y
3.6.2 maxMergeDocs + T9 ^% l: ~$ D: Q
3.6.3 minMergeDocs 6 G6 Y3 Q, e" j! g+ o
3.7 索引的合并与索引的优化
: U" v. R+ Y. b- y' X8 i 3.7.1 FSDirectory与RAMDirectory 2 ?7 T4 h' M0 T( h! _
3.7.2 使用IndexWriter来合并索引
6 G6 A% x4 i5 \- v- r1 J. Q5 b 3.7.3 索引的优化
. s: k% b& Q" u) c6 O5 L; A, y2 M 3.8 从索引中删除文档 ' m8 s5 {; j/ S# w3 W% K2 [) ~+ I
3.8.1 索引的读取工具Index-Reader
! D* n- k! M( O 3.8.2 使用文档ID号来删除特定文档 0 ]; j$ U4 }9 m7 x6 E
3.8.3 使用Field信息来删除批量文档
% F0 ?4 ]3 y1 _0 q) Z u/ [" Q 3.9 Lucene的同步问题
3 c/ M; s. I& c# n! Q 3.9.1 为什么要进行同步以及Lucene的同步法则 ; m3 l! j1 v, | f: K
3.9.2 commit.lock与write.lock
" R& w4 v% {2 u3 C/ P 3.10 Lucene 2.0的新类:IndexModifier类 6 m3 @: M# H! W/ v- q$ }1 Z
3.11 小结
. b- b6 z/ g/ A7 g第4章 Lucene搜索
. t0 i" t! ?/ l' P% ~7 _ D第5章 排序、过滤和分页
) P9 m( E% ]5 T# w/ _& U第6章 Lucene的分析器
3 S0 e0 n, O+ p$ c: t% x第7章 Word、Excel和PDF的处理
" ~# a' U5 j- L" Y8 T! f第8章 Compass:封装了Lucene的框架
; Z L9 J% U1 ~: m# @" N第9章 Lucene分布式 8 y- r1 d! G* O1 n
第10章 无比强大的网络爬虫Heritrix- C0 ?( o: ~& T4 ^' Q, F# F; ?6 I
第11章 搜索引擎综合实例:准备篇 ' p, M- a/ `! @1 \9 a# O6 v9 Z8 D
第12章 搜索引擎综合实例:下载篇2 S4 t! S" ?+ e) {: N0 x# x4 q
第13章 使用正则表达式与HTML Parser分析网页
! P$ n2 S9 U; w- U6 l2 \/ `+ ?! N第14章 网页内容存储与索引
! {0 A9 q$ Z- n# y- ?, e第15章 搜索引擎综合实例:交互篇; U9 _, P- X, }- H
第16章 搜索引擎综合实例:Web篇) c5 P$ G* J: S8 k) B
附录 Lucene 2.4更新内容
) V# ?! Y G; f6 {( _3 f8 m$ c& N1 R* G/ l8 l1 b& i
百度网盘下载地址链接(百度云)下载地址:java自学网(javazx.com)开发者自己的 搜索引擎Lucene+Heritrix PDF 高清 电子书 百度云.rar【密码回帖可见】
- y- d. A3 B' y3 J5 l, G7 w: p0 A ?0 C* ]+ D% l m( s
' N( f* c5 w# O, `6 S+ i1 F" l; r
' Q2 A# q! c3 V3 ]
# p: r! g4 Y( V+ P
5 l }/ |* @% E, _2 c
+ L1 ?% @ ~0 i6 Y5 X4 G1 w
y6 d) ]! ?1 t4 ~) T# C" U& Y& r$ k1 ~' l) `. Z$ C
|
|