掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 778|回复: 10

[求助] 詞頭txt和詞條txt合併問題

[复制链接]
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-9-10 05:50:21 | 显示全部楼层 |阅读模式
    本帖最后由 group1234 于 2016-9-14 21:58 编辑
    5 V% \7 U5 N3 L. B8 s4 v
    1 ?% o/ N+ X) K+ H. N, w我是第一次製作mdx辭典,對於正則還是html這些相關知識都不懂,7 j+ b/ _* r1 a. K' Z- @& Z' X" i7 L
    但是想要製作Garner's Modern English Usage 4th,所以自己慢慢摸索中,5 u% g2 G4 Q9 ^; |8 [0 Z
    這本辭典從mobi轉檔後,A-Z的內容使用UltraEdit已經整理出8千多個詞條,* N  v# F$ _: e
    詞頭卻因為電子書本身的html和css格式干擾一直無法搞定,: z0 v9 f, \& {
    想要刪除所有格式來弄詞頭,
    / b/ Z# g5 y8 C  }' v只是有個疑問,如果詞頭.txt.和詞條.txt在windows系統下,
    & J! B2 s0 K, R) ~: ?+ u( W; c. ^6 G有辦法用dos指令來交叉合併嗎?
    0 i2 w* a9 ~0 K- U$ _  T+ X; \3 O謝謝
    ( G) U" Q3 @7 Y; y, G0 g- f! B& H! b( t4 X4 P- [4 w% y) J
    * Z8 t! _; `/ ~* y2 @8 z) B1 \

    8 x1 ]" p7 j/ u( x& }$ {$ A' z4 ~4 D% F% o3 J& P0 {2 q; n6 ~+ H

    该用户从未签到

    发表于 2016-9-10 09:29:23 | 显示全部楼层
    建議 詞頭.txt詞條.txt 的內容, 提供一些範例, 這樣人家才好給建議.
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

     楼主| 发表于 2016-9-10 12:16:06 | 显示全部楼层
    本帖最后由 group1234 于 2016-9-10 12:20 编辑 % o' ~  t& d: M6 b4 e2 E
    sky66 发表于 2016-9-10 09:29% u; v, W* V4 ]& g( X) g
    建議 詞頭.txt 和 詞條.txt 的內容, 提供一些範例, 這樣人家才好給建議.

    5 q5 _  |' G5 g; C0 E9 u0 E- Q. \. g6 F7 S+ b1 ^. v8 z
    目前詞條整理好了,詞頭部分還沒整理,只是先把格式弄掉( W4 f" n" v) C$ f4 W* v- ?3 {
    ; E$ K& V5 m0 p
    這是整理好的詞條
    % b2 I2 |7 G1 J( R
    + g, h. O# F, Y5 Y5 A% R  _) u( D$ x" g% R* U
    2 L+ }; Z! ^' f0 T' d5 ^/ B
    這是把html和css格式弄掉要整理成詞頭的,還在想怎麼弄比較好
    + V4 z+ ?% k4 w, |, [
    8 o9 h# ~( e0 X' W7 I' W! W9 I
    9 z3 R; ^- ^' w0 g  H+ f" i* T* S如果各存一個txt檔,如何合併成這個樣子?
    $ i) Q8 P0 H5 K/ }) \
    6 U/ n" P+ E4 Z4 U. b( t; b# R* ?

    该用户从未签到

    发表于 2016-9-10 12:55:43 | 显示全部楼层
    以圖一這個例子而言, 個人淺見, 格式弄掉反而不利整理出詞頭.1 k6 l3 O: S1 x9 J2 P
    若要簡單整理出圖三, Emeditor下使用正則,  找到 xxxxx">(.*?)<xxx 中間那個就是詞頭 (沒有文字檔, 不能複製貼上作範例)
    4 t* r& H2 m* r- Z* i
    : w5 a, _  o/ V) S4 r1 g+ x* g& z當然, 找出來的結果如底下這個帖子提到的, 有些詞頭與內文沒有分開
    8 ~; O# t3 `; x$ r% vhttps://www.pdawiki.com/forum/fo ... hread&tid=17193# m+ y7 O/ O8 g6 [
    8 [* e# ^: t8 K+ }2 m6 C
    就要另外從 . , ; 這些符號來下手, 找出詞頭與內文分開的規則..
    " ?, W. v+ d  l; l* A4 M4 c如果規則測試理想的狀況, 也許一個指令就能全部完成..# K  d$ A1 \& `
    尋找 (^xxxxxx">)(.*?)([\.,;<].*$)
    , ]' ?! l6 Z1 ~& X取代為 \2\n\1\2\3\n</> 之類的8 o( g$ E, H/ d! ^- w; t
    2 |% m4 V9 z( G, p" D2 H
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

     楼主| 发表于 2016-9-10 15:00:37 | 显示全部楼层
    sky66 发表于 2016-9-10 12:55
    ; {6 ], S) C/ _3 m0 _$ W2 D+ P以圖一這個例子而言, 個人淺見, 格式弄掉反而不利整理出詞頭.& G- @" v- O! Q& n. M% j
    若要簡單整理出圖三, Emeditor下使用正則,   ...
    0 S9 N8 t8 a  e
    我有下載Langheping大製作的mdx,就是因為有些詞頭沒有分開,不好搜尋,所以才想要自己動手做,這本的格式非常複雜,像是詞頭部分,電子書有些並沒有連結,所以單純用有連結的來製作詞頭會有遺漏,我已經把大部分原電子書沒有連結的整理出來,加上刪併電子書有連結卻是大標B. C. E.等的詞條,目前暫時整理的詞條有8556。$ [( F# o& o' i) L7 ]! z
    詞頭前面的格式其實也很複雜,我是模仿Langheping大把所有詞條前面的格式改成圖一的樣子,而詞頭部分,我原本也想要用正則替換,可是,製作過程發現格式千百種,而且有的單字後面有句點、有逗點或是只有空格,有的單字還被格式分割,有的詞頭有將近七個單字,原本想要整理完8556個詞頭後,再把這些有多個單字的詞頭再分別整理出個別單字,用@@@LINK連結,可是現在連8556個都整理不好,才會想要把所有格式移除,試著整理看看,光整理詞頭就已經弄了好幾天,製作期間還發現刪除空行時沒有加空格,導致單字連在一起,又重新來過,再弄不好只好先放棄了,等以後有能力再繼續做T_T
    + [/ a6 v* V' r+ X# J! U% ?
    6 g, N3 e5 a7 h詞條的格式有很多,列幾個出來:
    8 o* a4 ]) ?& f( @* s
    , n7 A, G% I& }
    2 D+ C4 u! D$ g" S
    % F) i+ `/ U1 _9 o9 g
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

     楼主| 发表于 2016-9-11 15:06:44 | 显示全部楼层
    請問有人知道該如何合併嗎?
    5 _) D3 ]6 k6 h6 R/ k7 f我已經將headword和詞條整理好,共8551條
    8 q! M4 p. n7 i3 }% e因為是各存一個檔,不知道該如何合併

    该用户从未签到

    发表于 2016-9-11 15:42:40 | 显示全部楼层
    本帖最后由 Langheping 于 2016-9-11 15:47 编辑
    6 B8 [1 w0 O2 ?% v) i* ^  ~+ h& E, j% @2 e! H
    Windows 有两种方法:
    + d5 V+ }/ T( p5 w1. 用 MS Excel
    4 h: |2 i/ L1 B5 m$ `1 D
    9 k0 B- Z$ D4 |+ n1 N9 ]2. 用 UltraEdit 的 “Column mode”7 s, m5 a( a+ ^' j3 B

    . O) o  o% A9 Z, @! V! w. m" {参考:   n# {; l. r6 z
    多个文档合并、左边词头和右边词条合并 (Linux, Unix)/ U2 J8 q$ n0 t7 S% j6 l
    https://www.pdawiki.com/forum/fo ... &fromuid=185183) c+ M9 @; p" J. Q, k/ o8 l
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

     楼主| 发表于 2016-9-11 16:49:11 | 显示全部楼层
    本帖最后由 group1234 于 2016-9-11 17:11 编辑
    4 @- a5 u8 F" A" D$ k4 i& N5 X
    Langheping 发表于 2016-9-11 15:42
    ' f9 E! N1 z' |' `1 uWindows 有两种方法:
    5 p. B) q; `( K; E# L) f( F1. 用 MS Excel
    & v( s5 l& ?! j4 Y8 g0 i
    4 M! R0 x3 g: n
    / A: V* Q5 q' y$ v) v. L0 @
    google找到答案了,原來有空行@_@
    ( ?- G/ z! h7 u6 ^* x' {! n謝謝Langheping大大提供方法!!!
    - f# u2 f  p$ D9 x$ I7 P$ t我是參考你的分享的garner 4 th mdx學習製作epub轉mdx,非常感謝
    & n& b3 u$ C" t# Z$ n接下來要來整理@@@LINK的單字了~~6 f: p* t9 \1 E3 m& j
    8 o) N3 l, k$ A$ `+ q
    ==============+ j2 ]* R: M' l5 v) {4 l

    $ \: I7 I) A$ O
    2 }2 U9 `& A4 h+ \+ M+ `$ Z  c. [第一個方法會出現空格處會出現"_"
    % N! [, b- v4 B" H
    # F: C% P% f* P' C+ Y3 F( \1 e' |3 w我用第二個方法
    * E* Y5 s7 a0 D2 D轉成MDX檔出現問題
    * G& D( c# r1 b/ o4 W提示這個7 l( ~8 F9 I- D1 h
    Begining loading source file...
    . \; M' |  B7 t) ?" c# lInvalid keyword at position: 4565181 of the source file  u$ }! q0 h2 l# {
    Failed to load source file, process cancelled
    6 v9 I+ Z8 [9 ^6 ]* ^) x
    3 O/ K3 Q, a" r# N5 P& T圖片現在不能上傳,所以沒辦法貼我的檔案畫面
    4 e, ]8 Y9 d) M2 ]5 D& J不知道該如何解決
    ! R) h$ p  r: D. C# e( s
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

     楼主| 发表于 2016-9-14 01:13:17 | 显示全部楼层
    本帖最后由 group1234 于 2016-9-14 05:18 编辑 : a' H( q+ k6 k! s( \

    / b4 ^! ~* A3 {1 G這本辭典的電子書排版不是普通的爛,3rd的字體大小和內容明明都很正常,4th電子書製作者是喝醉了嗎=_=?. c' O4 J! }3 w; {9 r: Z4 k0 M
    重新校稿一次,發現有內容錯置,不然就是有詞條沒跟前一條斷開= =||||) e' z: i0 T3 u  k* c+ A( M( n
    因為種種原因,又重作了一次,頭都快暈了Orz,還好有作筆記起來,
    5 y# c% ]) w% g3 \7 F目前更新後,A-Z總共有8558條,我第一條用000防止bug,所以才會顯示8559,至於@@@LINK的部分還沒弄>"<( Q2 x# n' y4 @5 A; i1 O0 K
    我不會CSS,所以是用電子書原本的格式,而且電子書的格式亂七八糟,應該也不會想去動它=_="
    4 O7 }; Y! f0 d6 i6 e至於分享....我膽小,怕被抓,所以不方便分享@_@,不好意思5 r1 _5 l3 Q9 y1 |
    謝謝提供協助的Langheping大大,不然我可能到現在還是對著詞頭和詞條的txt檔發呆....1 C. i, u( o6 ~3 t
    能完成這部辭典,真的很感恩!!
    ! _8 q9 E( k8 t$ `* A; Z, ^& z2 v3 R' r% U6 J" M! P! k

    ; m1 T  ]3 i6 r0 l* v& P
    . U) B! D5 v% h7 C: ~1 T& e

    该用户从未签到

    发表于 2016-9-17 04:08:47 | 显示全部楼层
    可以给两个文档的所有行都添加序号0 z9 Q4 \+ U* R, Q* @0 H
    然后复制到一个文档里,排序一下就行啦~
    # C1 D% E1 w! W* Y【Ultraedit】【EmEditor】

    点评

    原來還有這種方法,謝謝~~  发表于 2016-9-17 23:39
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-8 12:47 , Processed in 0.022160 second(s), 22 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表