部分技术机构通过网络爬虫系统获取裁判文书网数据的行为-海南新闻在线
点击关闭
您现在的位置邱县新闻首页>>社会新闻>>正文

时间获取-部分技术机构通过网络爬虫系统获取裁判文书网数据的行为

韩安冉和婆婆互撕

此外,最高人民法院方面稱:「由於前期爬蟲行為過於猖獗,無限制暴力訪問大幅降低正常用戶訪問性能,我們採取了通過限制列表頁面翻頁數量來防止爬蟲系統的措施。」

相關機構已採用多種方式「反爬」北青報記者獲悉,此前,相關方面已採取多種方式,對抗「爬蟲技術」。最高人民法院曾發文稱,為更好地確保正常用戶訪問性能,相關方面以驗證碼的方式上線系統軟件防爬功能。「驗證碼技術是防爬蟲的一種有效措施,當瀏覽量在某段時間內達到一定數量后,將啟用驗證碼機制進行核驗。後續,我們將不定期更新防爬蟲技術,加強網站維護,提高網站運行效率和穩定性。」

金杜律師事務所從事IP類法律業務的律師瞿淼曾發文闡述了網絡爬蟲所涉及的法律問題。瞿淼稱,從技術中立的角度而言,爬蟲技術本身並無違法違規之處。但是,隨着數據產業的發展,數據爬取帶來的各種問題和顧慮日漸增加。過於野蠻的爬蟲可能造成網站負荷過大,從而導致網站癱瘓、不能訪問等。

裁判文書網數據竟被商家標價售賣

網售數據價格需「私聊」獲取北青報記者在某網絡商城中看到,有標註來自湖南、廣東、山東等多地的商家均聲稱出售裁判文書網的數據,其中不少商家聲稱其數據量超6000萬條。而據裁判文書網公開數據顯示,目前裁判文書網上公開的文書總量為7395萬多篇,如果商家所稱的數量屬實,則商家能夠提供絕大多數已經公開的文書數據。

針對此情況,北京市社會組織法律調解中心副理事長張新年律師認為,「這些裁判文書基於司法公開目的,是免費的公共資源,未經最高人民法院授權,商家售賣裁判文書網數據構成侵權。」

瞿淼認為,根據《反不正當競爭法》關於網絡的相關條款,如果網站運營者已經採取了一定的反爬蟲措施,而爬蟲控制者基於經營目的、強行突破網站運營者採取的反爬蟲技術措施,並客觀導致被抓取網站無法正常運行,則可能構成不正當競爭行為。此外,強行突破某些特定被爬方的技術措施,還可能構成刑事犯罪行為。

北青報記者注意到,儘管每名商家均在商品頁面標示稱,其數據售價為0.1元至1元,但每名商家均在文字描述中表示,數據的售價並不以標示為準,而是需要「私聊」獲取。

對此,最高人民法院在其官網回應網友對於裁判文書網運行慢、故障頻繁等情況時表示,由於中國裁判文書網公開文書數量和影響力不斷增加,訪問用戶數不斷增長。同時,2018年5月初以來,大量技術公司通過爬蟲系統無限制併發訪問非法獲取裁判文書數據,造成網站負荷過大,大量正常用戶請求堵塞,訪問出現速度慢或部分頁面無法顯示等現象。

不少聲稱能夠出售裁判文書網數據的商家在商品文字描述中稱,其數據是通過「網絡爬蟲」的方式獲取的。所謂「網絡爬蟲」,又稱網頁蜘蛛、網頁機械人,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。相當於一個自動訪問網頁並進行相關操作的小機械人。

裁判文書網數據竟被商家標價售賣 律師:或構成侵權

販賣數據商家的推銷頁面昨天,北京青年報從某網購商城看到,最高人民法院裁判文書網的數據被標價0.1元到1元不等出售。裁判文書網發佈的判決書都是公開的,為什麼會被售賣?獲取裁判文書網數據的手段對於網站是否有危害呢?

商家:利用「網絡爬蟲」技術獲取大量數據 律師:未經法院授權此行為構成侵權

今年5月,最高人民法院信息中心主任許建峰在接受媒體採訪時表示:「中國裁判文書網目前每天的訪問量可以達到幾千萬的量級,其中還包括數據爬蟲的攻擊,我們的中心服務器承受着巨大壓力。」

律師分析強行突破「反爬」技術或構成犯罪

「由於爬蟲的批量訪問會給網站帶來巨大的壓力和負擔,因此許多網站經營者會採取技術手段,以阻止爬蟲批量獲取自己網站信息。而針對這些技術手段,爬蟲開發者可以通過優化自己的代碼、使用IP池等多種方式規避上述技術措施,實現對網站信息的批量抓取和複製。」瞿淼說,由於網絡爬蟲會根據特定策略儘可能多地訪問頁面,因而爬蟲的使用將佔用被訪問網站的網絡帶寬並增加網絡服務器的處理開銷,甚至無法正常提供服務。

一名售賣裁判文書數據的商家說,購買裁判文書數據的買家所需要的數據量從幾千篇到幾千萬篇不等,有的買家是因為無法打開裁判文書網而不得不來求助於數據賣家,「還有很多學生買數據用於論文寫作,這種情況幾千條就夠了,商用的話可能需要幾百萬條甚至上千萬條。」商家還稱,每個月他們能接到四五個文書數據採集的訂單,而價格和買家需要的數據量有關,「幾百萬條數據大概要幾千塊錢,現在加密技術很嚴格,所以要貴一些。」

「我們每時每刻都在監控着它的應用情況,希望遇到問題立即採取措施,但是的確還不能完全跟得上步子,所以會出現停網維護運營的情況。」許建峰說,最高法已成立了專門的運維保障團隊去維護管理中國裁判文書網,也將在技術與人力上投入更多的力量。

「爬蟲」系統曾致正常用戶無法訪問北青報記者了解到,部分技術機構通過網絡爬蟲系統獲取裁判文書網數據的行為,已經給裁判文書網正常用戶的訪問帶來了不便。不少網友曾在網上發帖稱,自己搜索裁判文書時,常常遭遇裁判文書網網站顯示因為系統原因,無法查詢的情況。

此外,針對網友提問,為何不能按照「公開時間」為檢索條件進行裁判文書檢索時,最高人民法院方面表示,暫沒有設置「公開時間」為檢索條件的主要原因是爬蟲系統會根據「公開時間」項進行增量文書爬取,「待下一步防爬蟲系統穩定、可靠運行一段時間后,我們將適時考慮增加『公開時間』檢索項。」

文/本報記者 屈暢實習生 趙詣涵 統籌/池海波

今日关键词:印度版阿甘正传