|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《开发者自己的 搜索引擎Lucene+Heritrix》: [+ f' t/ e( j: l6 z/ ]5 P2 L
java电子书推荐理由:内容新颖、实用,提供了价值上百万元的大型数码产品搜索引擎开发案例,本书是一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。
4 m( U9 Y0 d* u, S9 o* B( x8 l# M' n
作者:邱哲,符滔滔,王学松 编著4 q: U0 M6 x# Y( L; o% G6 A
出版社:人民邮电出版社
# |6 f9 e% ~& K' p/ A出版时间:2010-01
* r* W8 W. ]0 o1 g7 P# `
; @) S) I, U! j! J ]
+ e1 D8 i A$ G+ e
& q0 f5 h" c/ S j% m) hjava电子书目录:
4 f5 a% ], B1 p% j. I) R: G* ]
3 T \1 Y& K1 v2 g6 B* G6 L! Y8 a第1章 搜索引擎与信息检索
; V/ | g, s/ g1 j! G- r! D 1.1 搜索引擎的历史
0 Z- \8 b9 }- P' h. m( g; E- M 1.1.1 萌芽:Archie、Gopher / o. S8 o5 f; z' M
1.1.2 起步:Robot(网络机器人)的出现与Spider(网络爬虫) / p0 k! b R: W- f3 \/ s
1.1.3 发展:Excite、Galaxy、Yahoo等 4 E- ]9 Z d0 ]& q: B+ {! z8 G
1.1.4 繁荣:Infoseek、AltaVista、Google和Baidu
, L7 C( E: `0 R y4 w 1.2 信息检索系统的基本知识 3 C7 x2 n6 B, U' b {. C7 ]
1.2.1 信息检索系统 - Y& i3 W6 {8 m' s; J: G# W0 i2 S
1.2.2 信息检索的过程
: }9 U, C: G5 S% O0 I4 r: N7 D 1.2.3 传统查找的优点和不足 4 E& J z- B0 d+ v- l5 @
1.2.4 使用索引提高检索速度
, C6 R. k& X( H# R' K* ^. q3 L 1.2.5 倒排索引
( g1 z4 I9 v# U/ [8 |: H 1.2.6 评价信息检索系统的标准
9 u# e5 x% ^5 { 1.3 Lucene的简介 / G4 _+ X$ J# F" z" x: d
1.4 小结
7 l$ \4 T f k+ `& u) L' j第2章 Lucene入门实例
" b; v7 Y; s x+ T* V/ E 2.1 实例介绍 ; r' c; J, V$ M7 w. m# Q6 N+ |. y
2.1.1 实例说明
) \0 R, a& E& ^1 \ 2.1.2 开发过程
- A% L4 L+ r9 \0 Z4 ^1 j 2.2 准备工作
& L4 O1 O6 S9 d2 P. e; g 2.2.1 将文档的全角标点转成半角标点 3 S3 D( _6 w' @3 q. h4 p
2.2.2 将大文档切分成多个小文档 0 K9 l9 [- Q1 H* d: p& }
2.2.3 预处理源文件的统一接口
! o: p3 k z5 `, O y3 { 2.3 创建Eclipse工程 2 _ }0 U& ^! h! ]
2.3.1 准备工作
! U: T+ q% a9 s 2.3.2 创建工程并引入Lucene的JAR包 ( w- r4 E! {5 c( l9 F) Y
2.3.3 运行文档预处理类 : ]1 B; S1 M5 _( x
2.3.4 创建处理文档的索引类:IndexProcessor
- M0 W3 n- |! X/ i) Y. r3 h0 { 2.3.5 创建检索索引的搜索类
1 V, y& k1 I( y 2.4 运行效果 3 T0 l7 S& n, Y% K* B% N3 l$ l7 O
2.5 小结 0 [+ {# ^2 l4 s' Y
第3章 索引的建立
# b6 i, F+ B: f' B" v 3.1 Document逻辑文件 & Q4 n. O) q- h" u& k
3.1.1 Lucene的Document
/ ^2 y! N4 ]: m8 f 3.1.2 为Document添加多种Field
) _, [, [' i0 B$ H8 u* L 3.1.3 Document的内部实现 7 B! u# e+ y% J
3.2 Field的内部实现 " c. W2 Y8 O: N" c7 H; c
3.2.1 Field包含的类 ! {- j( A1 d* C8 b" i3 O
3.2.2 Field类的构造方法 , M! X* b( ~, v! e5 B: M: p
3.3 Lucene的索引工具IndexWriter 9 [! { o0 X$ ~0 z
3.3.1 IndexWriter的初始化
4 u+ ?( [; L8 C, o0 l( d6 j 3.3.2 向索引添加文档 ]( K, U/ ~, T9 W, Q; ?, A
3.3.3 限制每个Field中的词条的数量
0 C4 e0 {5 J1 M/ q/ n* z6 O 3.4 Lucene索引过程详解
( e4 k1 [ R4 N6 d2 G( N 3.4.1 Lucene索引建立过程概览
$ K7 _% s7 T( v! ]7 U 3.4.2 使用addDocument方法向索引添加文档 0 }/ M( w/ H( Y# P! |7 D
3.4.3 DocumentWriter的addDocument方法 0 t3 N1 {% e: `& m, ~
3.4.4 文档的倒排
2 `. {- f" f% k( ? 3.4.5 对postingTable进行排序
! o# a6 P1 Q$ P, a 3.4.6 将Posting信息写入索引
J) F6 v" d! R7 [ 3.5 索引文件格式
7 g% l0 T3 C; i* r4 E2 Z" X# K 3.5.1 索引的segment ; z, L0 n. T3 [7 S
3.5.2 .fnm格式 4 s/ v# z$ c! Q4 a6 m1 k
3.5.3 .fdx与.fdt格式
# V% e0 O: f: c9 @, k* R 3.5.4 .tii与.tis格式
8 m& O) j3 m' K% ?# T$ n 3.5.5 deletable格式 , W0 R& l' j& M& K. ]* @- f. ~
3.5.6 复合索引格式.cfs
2 H7 M" W0 O! H. z 3.6 索引过程的调优
: k4 {+ `9 X) X" b; O- Q 3.6.1 合并因子mergeFactor , X6 [5 i* }* t! f- T
3.6.2 maxMergeDocs ( ~3 T9 x$ X/ H2 U* Y) q
3.6.3 minMergeDocs
- ?8 F: \" z! b2 W' z5 y$ X 3.7 索引的合并与索引的优化
8 x9 X, M1 Z* G5 R. s& B 3.7.1 FSDirectory与RAMDirectory
2 R2 N5 I3 C2 T! W( r 3.7.2 使用IndexWriter来合并索引
/ l, d1 i X. J% g/ M/ W, u 3.7.3 索引的优化
3 s0 {2 ^" O/ w) |4 M 3.8 从索引中删除文档
, @' R9 M$ F6 I9 r8 I 3.8.1 索引的读取工具Index-Reader # r1 f2 T( o, |5 [2 a7 \6 e. I6 q
3.8.2 使用文档ID号来删除特定文档 ! ]& v; Z+ I# u7 Y0 e! @. o
3.8.3 使用Field信息来删除批量文档
# X) C/ S H0 F1 F: U- v8 | 3.9 Lucene的同步问题 4 Q, a( Q. h1 C; D/ X
3.9.1 为什么要进行同步以及Lucene的同步法则 . e8 S9 m, Z' u! n+ W5 k
3.9.2 commit.lock与write.lock / d+ J+ I: r/ q' Y6 X0 C
3.10 Lucene 2.0的新类:IndexModifier类 $ @2 ^- G) s0 y C1 w0 h
3.11 小结
4 ~6 t: O* x* Z& ?$ W3 J' i第4章 Lucene搜索
: m( S0 d8 Y; m第5章 排序、过滤和分页2 ~5 Z* }5 n; q
第6章 Lucene的分析器
0 l# h& Y* u, k: c2 r4 b$ T第7章 Word、Excel和PDF的处理$ [9 d6 a @8 S# ~; t+ D2 C) ^
第8章 Compass:封装了Lucene的框架
* i' T" v& x# s5 \) x- G第9章 Lucene分布式
: i: f: ]! u$ U/ p. `; b! s9 i$ T第10章 无比强大的网络爬虫Heritrix
9 Q, \0 C% z% J& P) ^) H% e$ i第11章 搜索引擎综合实例:准备篇
* |8 K5 a1 w0 z% _第12章 搜索引擎综合实例:下载篇
, [/ A9 m. C6 A9 b# v' j9 s第13章 使用正则表达式与HTML Parser分析网页- i3 | Z, _) t }' t
第14章 网页内容存储与索引
8 a. v8 }/ _; X; U- ]第15章 搜索引擎综合实例:交互篇% ^. H/ v2 h9 t! B7 \2 z: v2 y
第16章 搜索引擎综合实例:Web篇
. ~5 M1 ?4 x% ^; O) ^: l Y& }附录 Lucene 2.4更新内容
U# d5 A- x. c S
% h7 e7 o% `% y# ~# q百度网盘下载地址链接(百度云)下载地址:java自学网(javazx.com)开发者自己的 搜索引擎Lucene+Heritrix PDF 高清 电子书 百度云.rar【密码回帖可见】* J A S) Q4 y) C! p
$ [: y4 f A# z
% x$ r. c7 Y7 Q% J
& d- ?) h4 ]" E, v
( @1 C, x, [+ j1 Y4 e$ D2 ]& A6 O' i5 }" p' i* f) S: w9 w
6 N- [# [% E9 J( N+ x' |+ x, k) h' ~
5 U7 g3 g8 Q W
7 e+ w; \! C1 J" q, g- p |
|