请教:word文档的二进制流格式是什么样的?
hi,大家好,
我想解析word文档内容,我查阅了好多资料,但是还是没有找到好用的信息。我看了下msdn里面的帮助文档,也看了文档MICROSOFT OFFICE WORD 97-2007 BINARY FILE FORMAT SPECIFICATION。
我读取word流,然后将每一个字节内容写入了文件来查看信息。我发现我得到的内容跟msdn里面的描述就没对上一个。
D0~~CF~~11~~E0~~A1~~B1~~1A~~E1~~0~~~0~~~0~~~0~~~0~~~0~~~0~~~0~~~
0~~~0~~~0~~~0~~~0~~~0~~~0~~~0~~~3E~~0~~~3~~~0~~~FE~~FF~~9~~~0~~~
比如文档中说FibBase.wIdent (2 bytes): An unsigned integer that specifies that this is a Word Binary File. MUST be 0xA5EC.,可是我得到的是0xCFD0(小字节序)
请问大家,word格式究竟是什么样的?msdn上的文档被我读错了吗?
谢谢大家
[解决办法]
对于头部,楼主应该看另外一个文档,地址如下,下面红色部分就是楼主想要看到的。
http://download.microsoft.com/download/0/B/E/0BE8BDD7-E5E8-422A-ABFD-4342ED7AD886/WindowsCompoundBinaryFileFormatSpecification.pdf
2.1 Header
struct StructuredStorageHeader { // [offset from start in bytes, length in bytes]
BYTE _abSig[8]; // [000H,08] {0xd0, 0xcf, 0x11, 0xe0, 0xa1, 0xb1, 0x1a, 0xe1} for current version,