2.01.2013

備份批兔看板並建立全文索引搜尋


經年累月在批踢踢兔留下了很多紀錄,沒辦法好好檢索利用真是可惜(現在 BBS 系統只能搜尋標題/作者)。2011年三月曾經對看板作過一次備份索引,今年再來重新整理一次。以下是工作紀錄:

[自己是板主的看板才能這樣做]

1. 把要備份的看板整理好(不過都要全文索引了,通常是不整理比較省事啦 XD)
2. 接著把備份匯出,先在看板中按 "u",接著一連串對話設定:

確定要對看板 _________ 進行備份嗎?[y/N] y
收件信箱 ________ (填自己的ID就會寄站內信,填外部 email 就會寄到外面)
要備份看板內容嗎(Y/N)?[Y] y
要備份精華區內容嗎(Y/N)?[N] y
系統已經將您的備份排入行程,
稍後將會在系統負荷較低的時候將資料寄給您~ :)

3.所謂系統負荷較低的時候,通常都是凌晨三點左右,系統會寄出備份檔載點:

親愛的板主您好,您要求的 看板備份 備份已經製作完成,為避免塞爆您的電子信箱,即日起備份改由直接下載不再透過 EMail 發送,請麻煩您在 24 小時內點選下列網址下載備份檔 http://download.ptt2.cc:8080/xxxxx.tgz

基於安全考量,這個檔案將會在 24 小時後自動刪除,如有任何疑問或建議,請麻煩發表於 SYSOP 看板,我們會很樂於給予協助。最後,祝您平安快樂! ^_^ ptt2站長群

4. 用 7-zip 之類的軟體解出裡面的主要資料夾... 8.9MB 的檔案瞬間膨脹為 24MB ~QQ

5. 解壓縮之後大致上是可以用 Notepad++ 等文字編輯器來開,但是離可以方便瀏覽的資料庫還有一段距離。於是使用 千佳 ANSI 轉 HTML 



這裡打開 .DIR 索引檔,步驟二不要讓他輸出在同一個資料夾,接下來的步驟我都用預設... 唯一要選的只有等寬字形。接著就是漫長的轉換......

6. 轉檔完成之後全部都變成網頁格式~ 精華區還可以一層一層點進去,要是可以鍵盤瀏覽就完美了。 檔案大小也暴增為 100MB 左右,不過這畢竟是個「尾牙抽獎只抽到一個 8G 隨身碟簡直就會痛不欲生」的時代,100MB 簡直是滄海一粟。



7. 然而這離我的理想還差一小步。 再來使用 docfetcher 建立全文索引迅速搜尋(當然在 windows 檔案總管裡面直接搜尋應該也會找到內文啦!)

Create index > 指到放 html 檔的資料夾 > Run 接下來就要等他跑完上萬個檔案... (如果你的精華區有上萬篇文章的話)

於是就大功告成惹~~

2 則留言:

  1. 你好~~
    不知道您看不看的到
    我最近在轉換BS2的備份
    亂試了一下 規則要選itoc的才行
    但精華區目錄是出來了 點進去卻顯示找不到檔案
    不知道您有沒有什麼好意見呢?

    回覆刪除
    回覆
    1. 大寶你好~~
      很久沒重作這個流程了呢,不太確定能不能幫到你。
      你是說精華區目錄可以在瀏覽器打開,但是點進去找不到檔案嗎?
      不知道解開來的資料夾裡面有沒有更多資料夾,其中有沒有網頁檔呢?
      例如我的(批兔精華區)下面會有:
      \man\boards\P\Ptt2看板名稱\DC46\
      \man\boards\P\Ptt2看板名稱\D849\
      \man\boards\P\Ptt2看板名稱\D31A\
      這樣的資料夾,裡面如果還有文章的話那可能是路徑的問題囉~

      刪除

Related Posts Plugin for WordPress, Blogger...

LinkWithin