今天小編給大家?guī)砹烁呗毥逃龑I(yè)教學資源分析,有需要的小伙伴一起來參考一下吧,希望能給大家?guī)韼椭?/p>
摘要:筆者詳細研究了高職教育專業(yè)教學資源搜索引擎的設(shè)計與實現(xiàn),利用分布式爬蟲技術(shù),對互聯(lián)網(wǎng)上的教學資源信息進行爬取、去噪、提煉,獲得有效的信息進行保存。同時,建立教學資源的搜索平臺,方便學生快速檢索網(wǎng)絡教學資源。
目前,互聯(lián)網(wǎng)+教育已十分普及,我國網(wǎng)校也達上千家。網(wǎng)校多以考試輔導、專業(yè)技能培訓為主。此外,還有些人文教育平臺,而針對高等教育的平臺的建設(shè),目前國內(nèi)還在起步階段。目前,國內(nèi)主要有網(wǎng)易云課堂、慕課網(wǎng)等等平臺,這些平臺的資源較為分散,學生在尋找相關(guān)資料時,也比較費時,影響了學習的積極性和效率。利用搜索引擎的相關(guān)知識,搜集互聯(lián)網(wǎng)上相關(guān)的高職教育專業(yè)的教學資源,能夠有效幫助學生快速找到目標資料。同時,應用積累的數(shù)據(jù),建立高職教育專業(yè)網(wǎng)絡教學資源數(shù)據(jù)倉庫。此外,還可以積累搜索關(guān)鍵詞的頻率,掌握最受歡迎的學科或?qū)W習資料,為教學資源的再生提供方向與引導。
1專業(yè)教學資源搜索引擎需求分析
研究高職教育專業(yè)教學資源搜索引擎的主要目的是幫助解決高職院校學生學習資源不集中、大部分學生搜索學習資料的能力有限等問題。高職教育專業(yè)教學資源搜索引擎的研究,主要是根據(jù)學生輸入的搜索內(nèi)容,將內(nèi)容進行分割成關(guān)鍵字,利用關(guān)鍵字去各大教學資源站點進行爬蟲,將爬出網(wǎng)頁資源進行分析,提取網(wǎng)頁中的視頻資源和其他學習資源,提取資源包含資源下載地址和資源的詳細信息。搜索將互聯(lián)網(wǎng)上的教學資源信息進行爬取、去躁、提煉,獲得有效的信息進行保存。各類網(wǎng)頁信息的特征不相同,針對不同的網(wǎng)頁信息,信息提煉方法也不同。具體的研究目標可以總結(jié)如下:(1)建立完備知識庫類別;(2)實現(xiàn)資源的共建共享;(3)進行Web集成,展示搜索的教育資源;(4)資源檢索,為使用者提供資源庫中資源的多種檢索功能。
2系統(tǒng)設(shè)計
2.1分布式爬蟲架構(gòu)設(shè)計
這個模塊主要分成兩個子模塊,爬蟲模塊和信息分類和提取模塊,下面主要介紹爬蟲模塊。爬蟲模塊指的是對不同的站點內(nèi)網(wǎng)頁信息進行數(shù)據(jù)釆集,該部分主要包括爬蟲控制模塊和爬蟲節(jié)點模塊。(1)爬蟲控制模塊主要負責對爬蟲節(jié)點的控制工作,其主要有四個職責:任務調(diào)動分配、監(jiān)測狀態(tài)、設(shè)置參數(shù)、通信控制。(2)爬蟲節(jié)點模塊具有網(wǎng)頁下載、URL排重和存儲(鏈接管理)、網(wǎng)頁解析、數(shù)據(jù)存儲等功能。具體的分布式爬蟲架構(gòu)如圖1所示。
2.2爬蟲爬行搜索策略
網(wǎng)頁爬蟲算法最常見的爬行策略是廣度優(yōu)先遍歷和深度優(yōu)先遍歷,它們都是基于圖的遍歷算法。2.2.1深度優(yōu)先遍歷算法爬蟲節(jié)點輸入開始的URL-A獲取網(wǎng)頁,分析網(wǎng)頁并獲取網(wǎng)頁中的一個URL-B,再分析根據(jù)B獲取的網(wǎng)頁,并獲取一個URL-C,直到網(wǎng)頁中沒有UR,然后不斷處理不同的鏈路。然而,隨著層次的深入,網(wǎng)頁的價值和PageRank都會隨之下降。這表示價值越高的網(wǎng)頁距離種子網(wǎng)頁越近,層次越深則其價值越低。2.2.2廣度優(yōu)先遍歷算法從起始網(wǎng)頁A開始,先抓取該頁面的所有頁面,然后從頁面A中選擇一個,繼續(xù)抓取該頁面的所有URL,然后在頁面A重新選擇一個URL,如此抓取頁面中的所有鏈接頁面。本系統(tǒng)的爬蟲主要使用廣度優(yōu)先遍歷算法,首先,互聯(lián)網(wǎng)的網(wǎng)頁相互連通,最大的鏈接深度可以達到17層。因此,從網(wǎng)頁A到網(wǎng)頁B會存在多條路徑,需要考慮最短路徑的問題,若使用深度優(yōu)先,會有從低PageRank值到高PageRank值的過程的情況出現(xiàn),計算PageRank的值比較復雜。而廣度優(yōu)先可以很方便實現(xiàn)并行操作,對于同一個網(wǎng)頁上的鏈接可以通過并行操作提高爬行速度。
2.3分布式任務調(diào)度策略
分布式任務調(diào)度數(shù)據(jù)采集有三種方式:動態(tài)、靜態(tài)和獨立。爬蟲節(jié)點間相互獨立是不切實際的,如果采用動態(tài)任務分配的模式,爬蟲任務集合的劃分比較簡單,容易維護,確保節(jié)點資源最大化被運用到,但是如果考慮到各個爬蟲節(jié)點機器性能間的差異,動態(tài)分配會增加爬蟲節(jié)點和控制節(jié)點的通信數(shù)據(jù)量,節(jié)點的網(wǎng)絡帶寬負載會過大。靜態(tài)任務分配模式的思想是根據(jù)初始的機器節(jié)點的數(shù)量,將所有的任務分成N個子集,之后將任務子集提前根據(jù)機器性能手動分布相應的爬蟲節(jié)點,任務分配,節(jié)點各自執(zhí)行各自的任務,互不干涉。靜態(tài)任務分配的策略有:基于站點名稱、基于URL、隨機劃分。本研究中采用的按站點進行任務劃分的靜態(tài)劃分方式是三種方式中最佳的。
2.4資源管理平臺
網(wǎng)絡教學資源共享平臺是高校數(shù)字化學習體系的一部分,高職教學資源庫具有強大的資源查詢與管理功能。我的資源庫模塊,可以集中、方便地維護個性化資源。快速瀏覽模塊,可以查詢所有資源庫的資源,包括開放課程與精品課程中的預置資源及專題庫中的本校自建資源。開放課程&精品課程模塊,可以查詢系統(tǒng)中預置的資源(提前爬蟲入庫的資源),包括全球開放課程、全國精品課程、清華精品課程、視頻資源等。專業(yè)資源模塊可以查看本校各院系專業(yè)所關(guān)聯(lián)專題庫中的資源。通知公告模塊,用于管理資源庫首頁公布的通知公告。專題庫模塊,供本院校建設(shè)、管理自建的校本資源。統(tǒng)計信息模塊,提供詳細的資源使用及用戶信息統(tǒng)計功能,方便管理人員快速了解資源庫應用情況。資源上傳模塊,提供多種方式給各用戶為資源庫添加資源,包括上傳資源和對資源進行編目兩部分。系統(tǒng)設(shè)置模塊,用于管理員對資源庫的基礎(chǔ)數(shù)據(jù)進行設(shè)置,承擔資源庫基礎(chǔ)結(jié)構(gòu)維護的任務。用戶管理模塊,用于管理員添加和刪除用戶、管理用戶角色。
3系統(tǒng)實現(xiàn)
3.1中心控制節(jié)點詳細設(shè)計
中心控制節(jié)點功能主要包括:增加爬蟲節(jié)點,刪除爬蟲階段,分配任務給爬蟲節(jié)點,配置節(jié)點運行參數(shù),協(xié)調(diào)爬蟲節(jié)點之間的工作,監(jiān)測節(jié)點狀態(tài),保證系統(tǒng)的運行穩(wěn)定?刂乒(jié)點主要有四個模塊,它們分別是:任務調(diào)度模塊、狀態(tài)監(jiān)控模塊、爬蟲參數(shù)設(shè)置、通信模塊。
3.2爬蟲節(jié)點詳細設(shè)計
爬蟲節(jié)點爬蟲功能結(jié)構(gòu)如圖2所示,一個爬蟲節(jié)點主要模塊有兩個:爬蟲模塊和節(jié)點通信模塊。其中,爬蟲模塊的子功能有:網(wǎng)頁下載功能、網(wǎng)頁解析功能、鏈接管理功能以及數(shù)據(jù)存儲功能。
4結(jié)語
利用搜索引擎技術(shù)建立高職教育專業(yè)教學資源庫,并利用搜索到的數(shù)據(jù)建立教學資源數(shù)據(jù)倉庫,幫助學生快速找到需要的學習資源。研究中采用了分布式爬蟲技術(shù),充分使用任務搜索策略和任務調(diào)度策略。利用控制節(jié)點將任務均分到爬蟲節(jié)點,指揮爬蟲的節(jié)點工作。這種方式雖然實現(xiàn)了系統(tǒng)的負載均衡,但是具有單點故障的局限性,一旦中心控制節(jié)點發(fā)生故障,就會影響整個系統(tǒng)。因此,需要對中心節(jié)點實施優(yōu)化設(shè)計,使得當中心節(jié)點發(fā)生故障時,爬蟲節(jié)點會選出一臺機器自動接手中心控制節(jié)點的工作,這也是下一步需要優(yōu)化的工作。
來源:網(wǎng)絡整理 免責聲明:本文僅限學習分享,如產(chǎn)生版權(quán)問題,請聯(lián)系我們及時刪除。