掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3077|回复: 47

[经验心得] 搭建本地全文搜索数据库,快速提高理解能力。

[复制链接]
  • TA的每日心情

    半小时前
  • 签到天数: 75 天

    [LV.6]常住居民II

    发表于 2019-2-26 16:50:19 | 显示全部楼层 |阅读模式
    本帖最后由 孤影 于 2019-2-26 07:56 编辑
    8 E# G( K; g- F
    % |7 w. v1 P+ e数据收集
    • http://www.duxiu.com  图片版资源,有相关的下载技巧,某宝有售
    • https://www.amazon.cn kindle电子书,出版级资源,可和谐
    • 搜索术 通过各类搜索引擎,各显神通9 \2 J4 B9 y) p9 ?# U3 Z

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x

    评分

    2

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    慵懒
    2019-5-10 10:39
  • 签到天数: 53 天

    [LV.5]常住居民I

    发表于 2019-3-18 07:35:34 | 显示全部楼层
    其实本人也在论坛中游荡多年,从论坛中获得了很多宝贵资源,真的非常的感谢。+ P( [0 {0 C( R0 i( G
    " T, a9 b7 N& P, J感谢那些无私奉献的人。9 z" m- M1 @; o- |
    每次看到做出的精美的mdx,心里也会有一丝感动,感动的不光是词典本身,而是制作者精益求精的态度及执着的精神。0 o3 \5 E5 @% w4 B3 V5 e2 I7 e. Z# a3 m
    放眼望去,几年之中,论坛的制作高手相继的离开大家的视线,当然也有新人涌现,但是能够像O大这样坚守和无私奉献的人真是寥寥无几。4 }! o2 U+ M. f% g* i9 S1 W* M
    - w* b- V4 Z9 P( X7 [本人真心佩服O大和感谢O大,真的是辛苦了
    2 W! s  O1 p9 V7 |7 j7 c# d; |

    评分

    1

    查看全部评分

    该用户从未签到

    发表于 2019-3-25 17:02:02 | 显示全部楼层
    试了下,还是百度硬盘强大。可惜已经很久不更新了。
  • TA的每日心情
    开心
    2018-3-30 09:21
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2019-2-27 09:29:03 | 显示全部楼层
    为什么不试试这个,记得论坛上有人推荐过
    3 S  }$ Q# e* R; L5 {Archivarius 3000 v4.78 Multilingual x86/x649 ?; g. C2 X# P5 h% D6 T# \
    https://www.0daydown.com/07/185643.html9 a$ a9 S7 U& U# Z+ O( _# U# H9 t+ K3 o
    官方http://www.likasoft.com/document-search/index.shtml
    9 L# q8 O$ H. k' i, \0 z& c% t最新版4.79" d; V' z/ I( {

    1 g; e* r' o! @# [3 t
  • TA的每日心情

    半小时前
  • 签到天数: 75 天

    [LV.6]常住居民II

     楼主| 发表于 2019-2-26 16:56:41 | 显示全部楼层
    本帖最后由 孤影 于 2019-2-26 08:22 编辑
    8 `  [! p; S4 K# @8 q: G& [0 y2 N" n' R) O2 }, t
    使用abbyy批量OCR的时候会有两个问题, w! d4 ]2 l; `1 w/ h0 N8 o2 I, _
    1、性能低下 0 P4 b8 Y" i/ [/ G# O0 W
       可以通过虚拟机多开解决,不建议,不过没其他的办法, |+ k- F* V: w; b; d
    2、不能保存源文件的书签
    % T1 N) @: O: m   需要自己写程序,懒,还没写
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-2-26 21:18:32 | 显示全部楼层
    孤影 发表于 2019-2-26 16:560 R# _. Q; ~1 O8 R/ ?  A+ I$ f- F  n
    使用abbyy批量OCR的时候会有两个问题* o/ O5 O/ U7 t; Q
    1、性能低下 ; M5 ^( |3 |2 H7 b0 h: Z4 o2 X, c
       可以通过虚拟机多开解决,不建议,不过没其他的办法
    2 Z& A- W. o7 e8 j9 `, O+ D
    原来PDF也可以全文搜索…
    ( T+ W& H* \: S& x; d通过Adobe Acrobat Pro OCR的图片PDF也可以这样用对吧
    2 L2 O9 `$ V. {& ~2 e4 k  n8 P0 M想想有点激动…
  • TA的每日心情

    半小时前
  • 签到天数: 75 天

    [LV.6]常住居民II

     楼主| 发表于 2019-2-26 21:53:56 | 显示全部楼层
    jonah_w 发表于 2019-2-26 12:18/ h: M* l2 F( H; ~9 k3 N1 L' H$ T, @
    原来PDF也可以全文搜索…
    & ?4 o0 [- F! k( f" a7 w通过Adobe Acrobat Pro OCR的图片PDF也可以这样用对吧* u. v6 I) I* G1 z. D9 g8 |' s" ~
    想想有点激动… ...

    $ ^$ Q+ \6 {$ F) B可以
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-2-26 22:08:23 | 显示全部楼层
    孤影 发表于 2019-2-26 21:530 e5 U' T$ U( {
    可以

    6 P0 U8 G: K! U! V9 b不过我刚用rg全文搜索命令去搜,好像不行。是不是必须用FileLocator Pro 软件才可以支持pdf内的全文搜索… 另外试了epub文件和mobi文件貌似都不支持rg命令) K9 ^& o/ R. W  e; O  J- k/ E
  • TA的每日心情

    半小时前
  • 签到天数: 75 天

    [LV.6]常住居民II

     楼主| 发表于 2019-2-26 22:10:42 | 显示全部楼层
    jonah_w 发表于 2019-2-26 13:08
    - a( ]( y% M3 S- M0 U  L不过我刚用rg全文搜索命令去搜,好像不行。是不是必须用FileLocator Pro 软件才可以支持pdf内的全文搜索 ...
    6 j- b8 ?/ s+ ~
    这个东西还需要细细研究。# H4 l) `* z* |) y; h, d, Q
    我又了解了到了一个新的软件Citavi 6,比filelocator好用。
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-2-26 22:16:46 | 显示全部楼层
    孤影 发表于 2019-2-26 22:108 S+ n5 @8 b( B! o& F8 q
    这个东西还需要细细研究。4 Z- v( U: Z2 }5 ~- k0 c
    我又了解了到了一个新的软件Citavi 6,比filelocator好用。 ...
    . J! T% n" a' Z/ t/ }2 ^( q; h
    我去搜搜看
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-2-26 22:21:48 | 显示全部楼层
    孤影 发表于 2019-2-26 22:10
    4 k! d' |5 i* u这个东西还需要细细研究。
    ; p2 @$ I# E% ^& @我又了解了到了一个新的软件Citavi 6,比filelocator好用。 ...

    0 {* `0 U! v) O9 F- i) I" D好像不支持mac os
  • TA的每日心情

    半小时前
  • 签到天数: 75 天

    [LV.6]常住居民II

     楼主| 发表于 2019-2-26 22:23:02 | 显示全部楼层
    jonah_w 发表于 2019-2-26 13:21
    / m5 W2 c' Z1 \3 G. C好像不支持mac os
    4 Y) v3 n# T+ Z3 c4 ^1 x% M
    对哦
  • TA的每日心情

    半小时前
  • 签到天数: 75 天

    [LV.6]常住居民II

     楼主| 发表于 2019-2-26 22:37:03 | 显示全部楼层
    jonah_w 发表于 2019-2-26 13:21; F4 o# k4 B$ Q; Z
    好像不支持mac os

    - W8 Z" d7 ~8 v6 B# d$ A& ?gl_n老哥给我推荐了DEVONthink这是mac独享 158欧
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2019-2-26 22:37:37 | 显示全部楼层
    jonah_w 发表于 2019-2-26 22:21
    , v  Y% b2 k9 s' S) @好像不支持mac os
    ) F! D0 n" S) B& g* w
    Mac里用这个:DEVONthink,媲美citavi
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-2-26 22:56:38 | 显示全部楼层
    GL_n 发表于 2019-2-26 22:379 v' ~) T% _" E, z8 P3 X! O* c
    Mac里用这个:DEVONthink,媲美citavi

    ; A+ A0 X4 S" g- {9 r) U好,马上试试,感谢老哥
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-2-26 23:46:26 | 显示全部楼层
    GL_n 发表于 2019-2-26 22:37
    5 J& ]1 M$ P# ?- q, ]9 dMac里用这个:DEVONthink,媲美citavi

    1 q6 O6 o  o( z$ ]' W- B研究了一下,这个软件支持txt等基本格式,但好像对pdf支持很一般,搜索的时候不能直接显示pdf内容。
    0 b4 G* E" c/ [; D# }! H" L2 @) x像filelocator里这样:直接显示文字内容
    ( i6 d5 d3 \1 W+ D3 t. b
  • TA的每日心情

    半小时前
  • 签到天数: 75 天

    [LV.6]常住居民II

     楼主| 发表于 2019-2-27 00:29:47 | 显示全部楼层
    jonah_w 发表于 2019-2-26 14:466 q6 M4 s# s- c
    研究了一下,这个软件支持txt等基本格式,但好像对pdf支持很一般,搜索的时候不能直接显示pdf内容。
    - J3 `, v# B! k) W: |, x: H像fi ...
    + \1 d: |, u. z( t9 D, G6 z
    对啊,而且慢。
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2019-2-27 00:51:01 | 显示全部楼层
    jonah_w 发表于 2019-2-26 23:46
    # }) y6 j) L+ l) P研究了一下,这个软件支持txt等基本格式,但好像对pdf支持很一般,搜索的时候不能直接显示pdf内容。
    9 }/ y: H8 ?3 w9 y像fi ...

    9 p$ j$ K. L: y要对PDF文献进行全文搜索,DEVONthink好像目前是不怎么强大。如果对PDF文献全文搜索很依赖的话,Mac上我发现这个功能最强的文献管理工具是zotero,你可以试试zotero。
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-2-27 01:02:29 | 显示全部楼层
    本帖最后由 jonah_w 于 2019-2-27 01:04 编辑 * u8 l5 f9 j3 u' R. T. m
    GL_n 发表于 2019-2-27 00:51+ U& l* A. }" q- Y! m0 \# C* \
    要对PDF文献进行全文搜索,DEVONthink好像目前是不怎么强大。如果对PDF文献全文搜索很依赖的话,Mac上我 ...

    , v( V6 e" n% u刚试了一下zotero,提示“The selected file is not in a supported format.”& ^" U5 u$ [+ ?
    不支持pdf格式
    : X% k! o( Y. r. S; d. e4 ^txt格式也不支持…
    0 {5 z) ]8 i8 `- x; w
  • TA的每日心情
    开心
    18 小时前
  • 签到天数: 87 天

    [LV.6]常住居民II

    发表于 2019-2-27 03:34:33 | 显示全部楼层
    我试过 Foxit PhantomPDF OCR 辨识 PDF 文件,1 q; G/ `1 n0 o3 W/ n. T
    在 File Locator Pro 中是可以搜索的,
    5 c3 `4 J, B+ i' `OCR 可以一次辨识多个档案。
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2019-2-27 05:34:19 | 显示全部楼层
    jonah_w 发表于 2019-2-27 01:026 L# z' x1 D" A& }& u: n( z
    刚试了一下zotero,提示“The selected file is not in a supported format.”
    7 z2 @' b7 D! K4 {不支持pdf格式  5 Y- z1 C! {7 m' V) l1 i: A1 f
    t ...

    3 W2 J2 ^2 l/ u/ czotero不可能不支持PDF啊。任何一个不支持PDF的文献管理软件,都不是真正的文献管理软件。可以说,几乎所有称得上文献管理软件的管理工具都是支持PDF的。你应该是设置不对。
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-2-27 08:40:47 | 显示全部楼层
    本帖最后由 jonah_w 于 2019-2-27 08:43 编辑 . |% t' `8 O- x# }6 w# t0 Z
    GL_n 发表于 2019-2-27 05:34* c6 T' e( ^+ q; c; `
    zotero不可能不支持PDF啊。任何一个不支持PDF的文献管理软件,都不是真正的文献管理软件。可以说,几乎所 ...

    3 ^( V. |# S. |4 \PDF可以拖进去,双击也可以调用内置的Preview软件打开。9 \' L* B3 N% s. i
    但搜索不了PDF内容…
    / Q- v5 e8 X+ T  i5 w- F通过File的Import选项导入不了pdf。需要建个item,然后pdf拖进这个item里。
    2 H7 ]4 m  p: P4 ~现在通过pdfgrep命令临时解决了全文搜索pdf…( i# v' q5 d7 x. E9 L
  • TA的每日心情

    半小时前
  • 签到天数: 75 天

    [LV.6]常住居民II

     楼主| 发表于 2019-2-28 20:37:35 | 显示全部楼层
    jonah_w 发表于 2019-2-26 23:40& X+ u) T- }/ X
    PDF可以拖进去,双击也可以调用内置的Preview软件打开。
    6 \+ g* K6 }8 \* m3 C8 o但搜索不了PDF内容…
    9 Z: S& b) F9 U( x+ l' P4 B$ u通过File的Import选项导入 ...

    9 i1 Z' o% \% n" A  H你这个方法也不快吧?几秒?
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-2-28 21:23:35 | 显示全部楼层
    孤影 发表于 2019-2-28 20:37
    + I9 A' u: Z9 a( B2 H你这个方法也不快吧?几秒?
    1 g6 G6 t& ^. {- t) I) @" O
    还挺快的,比rg稍慢点
  • TA的每日心情

    半小时前
  • 签到天数: 75 天

    [LV.6]常住居民II

     楼主| 发表于 2019-3-1 00:15:37 | 显示全部楼层
    jonah_w 发表于 2019-2-28 12:23* M5 f. X+ ]8 b. X; e
    还挺快的,比rg稍慢点

    1 w) n& \+ e( G6 v! I: L其实都慢,不能秒的都慢,感觉要自己写程序才能实现。
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-3-1 00:29:08 | 显示全部楼层
    孤影 发表于 2019-3-1 00:15! O2 \1 v' u6 s* f$ M
    其实都慢,不能秒的都慢,感觉要自己写程序才能实现。
    8 X, ^- d5 Q6 k; i- Z. p% s
    rg 1秒内是肯定的了,可能pdfgrep要多过1秒,也很快,至少比查词典要快
  • TA的每日心情

    半小时前
  • 签到天数: 75 天

    [LV.6]常住居民II

     楼主| 发表于 2019-3-1 00:30:33 | 显示全部楼层
    jonah_w 发表于 2019-2-28 15:29
    + ~* C  l: W- N9 a( Nrg 1秒内是肯定的了,可能pdfgrep要多过1秒,也很快,至少比查词典要快
    7 [% y% u, r$ l
    j几个pdf呀,200个吗?弄个动图看看。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2019-5-24 22:52 , Processed in 0.115255 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表