首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 软件管理 > 软件架构设计 >

一个一万字长的接续字符串,找出其所有子串,并统计子串的出现次数

2013-07-01 
一个一万字长的连续字符串,找出其所有子串,并统计子串的出现次数如题,最好使用C/C++代码实现,如果有仁兄用

一个一万字长的连续字符串,找出其所有子串,并统计子串的出现次数
如题,最好使用C/C++代码实现,如果有仁兄用过类似软件,请介绍给我本人使用,大恩大德,永世难忘。 大数据分析
[解决办法]
详情可以参考罗穗骞关于后缀数组的论文,这里给出代码:


#include "stdafx.h"
/*******************************************************************************
# Author : Neo Fung
# Email : neosfung@gmail.com
# Last modified: 2012-06-03 09:45
# Filename: SPOJ694 Distinct Substrings.cpp
# Description : 输入array的最后一位必须为0,且其他元素大于0
******************************************************************************/
#ifdef _MSC_VER
#define _CRT_SECURE_NO_DEPRECATE
#endif

#include <fstream>
#include <stdio.h>
#include <iostream>
#include <string.h>
#include <string>
#include <limits.h>
#include <algorithm>
#include <math.h>
#include <numeric>
#include <functional>
#include <ctype.h>
using namespace std;

const int kMAXN=20010;

int w[kMAXN],wa[kMAXN],wb[kMAXN],wv[kMAXN],array[kMAXN],sa[kMAXN];
char str[kMAXN];

// 
int cmp(const int *r,const int &a,const int &b,const int &l){
return r[a]==r[b]&&r[a+l]==r[b+l];
}

// 倍增算法
// r为待比较数组;n为r的长度;m为r中元素的最大值 
void DoublingAlgorithm(const int *r,int *sa,const int &n,int m){
int i,j,p,*x=wa,*y=wb,*t;
for (i=0;i<m;i++) w[i]=0;
for (i=0;i<n;i++) w[x[i]=r[i]]++;
for (i=1;i<m;i++) w[i]+=w[i-1];
for (i=n-1;i>=0;i--) sa[--w[x[i]]]=i;
for (p=1,j=1;p<n;j*=2,m=p){
for (p=0,i=n-j;i<n;i++) y[p++]=i;
for (i=0;i<n;i++) if (sa[i]>=j) y[p++]=sa[i]-j;
for (i=0;i<m;i++) w[i]=0;
for (i=0;i<n;i++) w[wv[i]=x[y[i]]]++;
for (i=1;i<m;i++) w[i]+=w[i-1];
for (i=n-1;i>=0;i--) sa[--w[wv[i]]]=y[i];
for (t=x,x=y,y=t,p=1,i=1,x[sa[0]]=0;i<n;i++)
x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
}
return;
}

// 计算height数组,r和sa的定义同上;
// height的下标从1开始,到n结束,包含n;
int rank[kMAXN],height[kMAXN];
void CalculateHeight(const int *r,int *sa,const int &n){
int i,j,k=0;
for (i=1;i<=n;i++) rank[sa[i]]=i;
for (i=0;i<n;height[rank[i++]]=k)
for (k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++);
return;
}

int _tmain(int argc, _TCHAR* argv[])
{
#ifdef DEBUG  
freopen("../stdin.txt","r",stdin);
freopen("../stdout.txt","w",stdout); 
#endif  

strcpy(str,"hello");

int n=strlen(str);
for(int i=0;i<n;++i)
array[i]=str[i];
array[n++]=0;
DoublingAlgorithm(array,sa,n,128);
CalculateHeight(array,sa,n-1);

long long ans=0ll;
for(int i=1;i<n;++i){
int tmp=n-1-sa[i]-height[i];
ans+=tmp;


for (int j=n-1;j>sa[i]+height[i];--j)
{
for(int k=sa[i];k<j;++k)
putchar(str[k]);
puts("");
}
}

printf("\ntotal: %lld\n",ans);

return 0;
}


[解决办法]

lz可以试试后缀树,以下代码暴力实现,算法复杂度,m^3/2log(m^2/2) m是单词长度


#include <iostream>
#include <cstdio>
#include <map>
#include <string>
#include <time.h>
using namespace std;

map<string, int> dict;

int main()
{
//freopen("in.txt", "r", stdin);
//freopen("out.txt", "w", stdout);
string s;
double t = clock();
while(cin >> s)
{
dict.clear();
for (int i=0; i<s.length(); i++)
{
for (int j=1; j+i-1<s.length(); j++)
{
dict[s.substr(i, j)] ++;
}
}

for(map<string, int>::iterator it=dict.begin(); it!=dict.end(); it++)
{
cout << it->first << " : " << it->second << endl;
}

cout << "字符串长度10009, 运行时间为:"<< clock()-t << " ms." << endl;
}
    

return 0;
}



请问高手用的编译器是?....
另外,我要统计每个子串出现的次数喔。
Visual Stadio 2010   次数有统计啊

热点排行