JAVA爬蟲獲取網(wǎng)頁URL源碼

上傳人:文*** 文檔編號:62092413 上傳時間:2022-03-14 格式:DOCX 頁數(shù):4 大?。?2.51KB
收藏 版權(quán)申訴 舉報(bào) 下載
JAVA爬蟲獲取網(wǎng)頁URL源碼_第1頁
第1頁 / 共4頁
JAVA爬蟲獲取網(wǎng)頁URL源碼_第2頁
第2頁 / 共4頁
JAVA爬蟲獲取網(wǎng)頁URL源碼_第3頁
第3頁 / 共4頁

下載文檔到電腦,查找使用更方便

0 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《JAVA爬蟲獲取網(wǎng)頁URL源碼》由會員分享,可在線閱讀,更多相關(guān)《JAVA爬蟲獲取網(wǎng)頁URL源碼(4頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。

1、文檔供參考,可復(fù)制、編制,期待您的好評與關(guān)注! package fileAndStringOperate; import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; import java.io.FileReader; import java.io.FileWriter; import java.io.IOException; import java.io.OutputStream; public class ReadFileToString { pub

2、lic static void main(String []args) throws IOException{ String fileData = readtxt("D:\\IR\\1\\JAVA網(wǎng)絡(luò)爬蟲.txt"); CountRelatedDocument(fileData); //MyWebRec []myWebRec = new MyWebRec[2000]; ClassifyURL(fileData); } private static String readtxt(String filePath) throws IOException{

3、 BufferedReader br=new BufferedReader(new FileReader(filePath)); String str=""; String r=br.readLine(); while(r!=null){ str+=r+"\n"; r=br.readLine(); } return str; } private static char[][] readtxtToChar(String filePath) throws IOException{ char [][]data = null; int

4、currentline = 0; BufferedReader br=new BufferedReader(new FileReader(filePath)); String str=""; String r=br.readLine(); while(r!=null){ str+=r+"\n"; data[currentline++] = str.toCharArray(); r=br.readLine(); } return data; } private static int CountRelatedDocument(St

5、ring fileData){ int cntRelated = 0; int currentLine = 1; int baiduCnt = 0; int bingCnt = 0; int sogouCnt = 0; int _360Cnt = 0; int State = 0; boolean baiduY[] = new boolean[51]; boolean bingY[] = new boolean[51]; boolean sogouY[] = new boolean[51]; boolean _360Y[] =

6、new boolean[51]; char []fileChar = fileData.toCharArray(); for(int i = 0; i < fileChar.length;i ++) { if(fileChar[i] == '#' && fileChar[i+1] == '*') { State++; System.out.println("分點(diǎn):"+currentLine); } if(fileChar[i] == '\n') currentLine ++; if(currentLine

7、%3 == 0) { if(fileChar[i] == 'Y'||fileChar[i] == 'y') { if(State == 1){ baiduCnt ++; baiduY[currentLine/3] = true; } else if(State == 2){ bingCnt ++; bingY[currentLine/3 - 50 ] = true; //System.out.println(currentLine/3 - 50);

8、 } else if(State == 3){ sogouCnt ++; sogouY[currentLine/3 - 100] =true; } else if(State == 4){ _360Cnt ++; _360Y[currentLine/3 - 150] = true; } cntRelated++; } } } try{ CaculatePR(baiduY,bingY,_360Y,sogouY,cntRelated);

9、 }catch(Exception e){ e.getMessage(); } System.out.println("cntRelated = "+cntRelated); System.out.println("baiduCnt = "+baiduCnt); System.out.println("bingCnt = "+bingCnt); System.out.println("sohuCnt = "+sogouCnt); System.out.println("_360Cnt = "+_360Cnt); System.out.

10、println("currentLine = " + currentLine); return cntRelated; } private static void ClassifyURL(String fileData){ String str1[] = fileData.split("\n"); for(int i = 0;i < str1.length;i ++) { if(str1[i].startsWith("#*")) str1[i] = str1[i].substring(10); } } private static

11、 void CaculatePR(boolean baiduY[],boolean bingY[],boolean _360Y[],boolean sogouY[],int cntRelated) throws IOException{ double baiduP[] = new double [51];double baiduR[] = new double [51]; double bingP[] = new double [51];double bingR[] = new double [51]; double sogouP[] = new double [51];do

12、uble sogouR[] = new double [51]; double _360P[] = new double [51];double _360R[] = new double [51]; int cntBaidu = 0;int cntBing = 0;int cntSogou = 0;int cnt360 = 0; //System.out.println("Related:"+cntRelated); for(int i = 1;i <= 50;i ++) { if(baiduY[i] == true) cntBaidu ++;

13、 if(bingY[i] == true) cntBing ++; if(sogouY[i] == true) cntSogou ++; if(_360Y[i] == true) cnt360 ++; baiduP[i] = 1.000000*cntBaidu/i; baiduR[i] = 1.000000*cntBaidu/cntRelated; bingP[i] = 1.000000*cntBing/i; bingR[i] = 1.000000*cntBing/cntRelated; sog

14、ouP[i] = 1.000000*cntSogou/i; sogouR[i] = 1.000000*cntSogou/cntRelated; _360P[i] = 1.000000*cnt360/i; _360R[i] = 1.000000*cnt360/cntRelated; //System.out.print(cntBaidu+"\t"+cntBing+"\t"+cntSogou+"\t"+cnt360+"\n"); } CaculateMAP(baiduP,bingP,sogouP, _360P); File file = new F

15、ile("D:/JAVA網(wǎng)絡(luò)爬蟲.txt"); FileWriter out = new FileWriter(file); //文件寫入流 //將數(shù)組中的數(shù)據(jù)寫入到文件中。每行各數(shù)據(jù)之間TAB間隔 for(int i=1;i<=50;i++){ out.write("baidu"+"\t"+baiduP[i]+"\t" + baiduR[i]+"\r\n"); } for(int i=1;i<=50;i++){ out.write("bing"+"\t"+bingP[i]+"\t" + bingR[i]+"

16、\r\n"); } for(int i=1;i<=50;i++){ out.write("sogou"+"\t"+sogouP[i]+"\t" + sogouR[i]+"\r\n"); } for(int i=1;i<=50;i++){ out.write("360"+"\t"+_360P[i]+"\t" + _360R[i]+"\r\n"); } out.close(); } private static void CaculateMAP(double baiduP[],doubl

17、e bingP[],double sogouP[],double _360P[]){ double baiduPre=0,bingPre=0,sogouPre=0,_360Pre=0; for(int i = 1;i <= 50;i ++ ){ baiduPre += baiduP[i]; bingPre += bingP[i]; sogouPre += sogouP[i]; _360Pre += _360P[i]; } baiduPre /= 50; bingPre /= 50; sogouPre /= 50; _360Pre /= 50; System.out.println("baidu:"+baiduPre+"bing:"+bingPre+"sogou:"+sogouPre+"360:"+_360Pre); } } 4 / 4

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!