Word文書から画像を抽出する
Word2007、2010、2013の拡張子はdocxとなっている
0004.jpg
絵てがみ・つづき.docxというファイルをabc.zipというファイル名に変更する
0001.jpg
abc.zipというファイルを解凍する。word、docprops、_relsというフォルダと[Content_Types].xmlというファイルに解凍される。
0002.jpg
Wordフォルダ内の内部を示しています。この中のmediaフォルダに画像ファイルが収納されている。
0003.jpg
image1.jpg~image5.jpgが画像ファイルになります。
0005.jpg
Word文書に挿入された原画像の大きさで抽出する事が出来ました。
いままでのWord2003以前の文書の場合はApache OpenOfficeまたはLibreOfficeという「Microsoft Office」互換のフリーのオフィス統合環境ソフトウェア(無料)で.doc文書を読み込んでOpenOffice、LibreOfficeの形式(.odt)で保存する。そのファイルを.zipとファイル名(拡張子)を変更する。
そのzipファイルを解凍するとPicturesフォルダの中に画像が入っている。それを利用する事になります。